Spark自定义累加器_javaspark自定义累加器-程序员宅基地

技术标签：大数据

object leijiaqi {
    

  def main(args: Array[String]): Unit = {
    

    //基本配置
    val conf = new SparkConf().setAppName("myRddLearn").setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).getOrCreate()

    val initRdd = spark.sparkContext.makeRDD(List("hello", "word", "spark", "hive", "hbase"))
    val accumulator = new MyAccumulator
    spark.sparkContext.register(accumulator)
    initRdd.foreach({
    
      case x => {
    
        accumulator.add(x)
      }
    })
    println(accumulator.value)
    spark.stop()

  }

}

/**
  * TODO： 自定义累加器
  * 继承AccumulatorV2,实现方法
  * 使用的时候需要注册到spark中去
  */
class MyAccumulator extends AccumulatorV2[String, util.ArrayList[String]] {
    

  val list = new util.ArrayList[String]()

  //判断是否为空
  override def isZero: Boolean = list.isEmpty

  //复制累加器
  override def copy(): AccumulatorV2[String, util.ArrayList[String]] = {
    
    new MyAccumulator()
  }

  //重置累加器
  override def reset(): Unit = {
    
    list.clear()
  }

  //增加一个元素
  override def add(v: String): Unit = {
    
    if (v.contains("h")) {
    
      list.add(v)
    }
  }

  //合并每个分区累加器
  override def merge(other: AccumulatorV2[String, util.ArrayList[String]]): Unit = {
    
    list.addAll(other.value)
  }

  //返回累加器的值
  override def value: util.ArrayList[String] = list
}

本文链接：https://blog.csdn.net/Young_____Hu/article/details/105126512

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

redisTemplate详解_redistemplate.afterpropertiesset-程序员宅基地

文章浏览阅读1.7w次，点赞8次，收藏36次。redis的序列化和反序列化基础概念redisFactory：redis的工厂类redisTemplate：spring 封装了 RedisTemplate 对象来进行对redis的各种操作，它支持所有的 redis 原生的 api。序列化序列化能够使java的对象在传输和存储的过程中，能够成功的传输和读取。如果redis不实现序列化的结果：不实现序列化的话，存储的key字段会出..._redistemplate.afterpropertiesset

斐波那契数列递归优化_python利用字典改进斐波那契数列递归程序-程序员宅基地

文章浏览阅读1.1k次。背景：今天看网课提到了斐波那契数列使用递归效率过低的问题，于是自己写代码使用递归求第100项，出去吃完早饭回来还没跑完。。。好吧，需求来了，我们来开始优化吧！1、原代码def fibonacci(n): if n == 1 or n == 2: return 1 else: return fibonacci(n - 1) + fibonacci(n - 2)2、改进两种办法，本质上都是把先前函数运行的结果存起来，下一次需要调用时候直接使用。第一种是装饰器，args[0_python利用字典改进斐波那契数列递归程序

nova计算服务-程序员宅基地

文章浏览阅读813次。一、nova介绍：　　Nova 是 OpenStack 最核心的服务，负责维护和管理云环境的计算资源。OpenStack 作为 IaaS 的云操作系统，虚拟机生命周期管理也就是通过 Nova 来实现的。计算资源只是内存跟cpu。用途与功能 :1、实例生命周期管理2、管理计算资源3、网络和认证管理4、REST 风格的 API（拥有自己的AIP，Nova-api）5、异步的..._nova可以通过热迁移虚拟机等响应用户发出的计算服务请求吗

ECharts圆环图(详细示例——满满的注释)_echarts环形图中间带数字-程序员宅基地

文章浏览阅读2.5w次，点赞24次，收藏83次。图表效果如下：具体代码如下：<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>圆环图案例</title>  <script src="js/_echarts环形图中间带数字

第三方软件正确验证163/126邮箱最新方法（使用iPhone自带的邮件做示例）_126邮箱主机名-程序员宅基地

文章浏览阅读1.4w次。近期我手机上的163/126邮箱突然无法通过验证、收发邮件，邮件下方显示如下的信息：在网上查了很久，始终没有找到真正有效、详细的方法，后来自己摸索了好久，终于发现了解决的办法。1. 首先进入网易邮箱网易网页版2.进入设置，图中红框内的两个选项都非常重要第一步先在客户端授权密码里设置为开启，并牢记密码第二步在POP3/SMTP/IMAP里红框里的选择..._126邮箱主机名

fluent里常见基础问题（转）_fluent不同算法对结果影响-程序员宅基地

文章浏览阅读8.4k次，点赞9次，收藏104次。1　什么叫松弛因子？松弛因子对计算结果有什么样的影响？它对计算的收敛情况又有什么样的影响？　　1、亚松驰（Under Relaxation）：所谓亚松驰就是将本层次计算结果与上一层次结果的差值作适当缩减，以避免由于差值过大而引起非线性迭代过程的发散。用通用变量来写出时，为松驰因子（Relaxation Factors）。《数值传热学-214》　　2、FLUENT中的亚松驰：由于FLUENT所解..._fluent不同算法对结果影响

随便推点

Raki的读paper小记：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints_gqa:谷歌提出分组查询注意力-程序员宅基地

文章浏览阅读525次。图2展示了分组查询注意力和多头/多查询注意力的比较。适中数量的组导致插值模型的质量高于MQA，但比MHA更快，正如我们将展示的那样，这代表了一个有利的权衡。然而，更大的模型通常会按比例增加头的数量，使得多查询注意力在内存带宽和容量上都表现出更激进的削减。此外，较大的模型受到注意力的内存带宽开销相对较小，因为键值缓存随着模型维度的增加而增加，而模型的FLOPs和参数随模型维度的。此外，我们引入分组查询注意力，它是多查询注意力和多头注意力的插值，既能够在与多查询注意力相当的速度下实现接近多头注意力的质量。_gqa:谷歌提出分组查询注意力