Spark自定义累加器_javaspark自定义累加器-程序员宅基地

技术标签: 大数据  

object leijiaqi {
    

  def main(args: Array[String]): Unit = {
    

    //基本配置
    val conf = new SparkConf().setAppName("myRddLearn").setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).getOrCreate()

    val initRdd = spark.sparkContext.makeRDD(List("hello", "word", "spark", "hive", "hbase"))
    val accumulator = new MyAccumulator
    spark.sparkContext.register(accumulator)
    initRdd.foreach({
    
      case x => {
    
        accumulator.add(x)
      }
    })
    println(accumulator.value)
    spark.stop()

  }

}

/**
  * TODO: 自定义累加器
  * 继承AccumulatorV2,实现方法
  * 使用的时候需要注册到spark中去
  */
class MyAccumulator extends AccumulatorV2[String, util.ArrayList[String]] {
    

  val list = new util.ArrayList[String]()

  //判断是否为空
  override def isZero: Boolean = list.isEmpty

  //复制累加器
  override def copy(): AccumulatorV2[String, util.ArrayList[String]] = {
    
    new MyAccumulator()
  }

  //重置累加器
  override def reset(): Unit = {
    
    list.clear()
  }

  //增加一个元素
  override def add(v: String): Unit = {
    
    if (v.contains("h")) {
    
      list.add(v)
    }
  }

  //合并每个分区累加器
  override def merge(other: AccumulatorV2[String, util.ArrayList[String]]): Unit = {
    
    list.addAll(other.value)
  }

  //返回累加器的值
  override def value: util.ArrayList[String] = list
}
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Young_____Hu/article/details/105126512

智能推荐

redisTemplate详解_redistemplate.afterpropertiesset-程序员宅基地

文章浏览阅读1.7w次,点赞8次,收藏36次。redis的序列化和反序列化基础概念redisFactory:redis的工厂类redisTemplate:spring 封装了 RedisTemplate 对象来进行对redis的各种操作,它支持所有的 redis 原生的 api。序列化序列化能够使java的对象在传输和存储的过程中,能够成功的传输和读取。如果redis不实现序列化的结果:  不实现序列化的话,存储的key字段会出..._redistemplate.afterpropertiesset

斐波那契数列递归优化_python利用字典改进斐波那契数列递归程序-程序员宅基地

文章浏览阅读1.1k次。背景:今天看网课提到了斐波那契数列使用递归效率过低的问题,于是自己写代码使用递归求第100项,出去吃完早饭回来还没跑完。。。好吧,需求来了,我们来开始优化吧!1、原代码def fibonacci(n): if n == 1 or n == 2: return 1 else: return fibonacci(n - 1) + fibonacci(n - 2)2、改进两种办法,本质上都是把先前函数运行的结果存起来,下一次需要调用时候直接使用。第一种是装饰器,args[0_python利用字典改进斐波那契数列递归程序

nova计算服务-程序员宅基地

文章浏览阅读813次。一、nova介绍:  Nova 是 OpenStack 最核心的服务,负责维护和管理云环境的计算资源。OpenStack 作为 IaaS 的云操作系统,虚拟机生命周期管理也就是通过 Nova 来实现的。计算资源只是内存跟cpu。用途与功能 :1、实例生命周期管理2、管理计算资源3、网络和认证管理4、REST 风格的 API(拥有自己的AIP,Nova-api)5、异步的..._nova可以通过热迁移虚拟机等响应用户发出的计算服务请求吗

ECharts圆环图(详细示例——满满的注释)_echarts环形图中间带数字-程序员宅基地

文章浏览阅读2.5w次,点赞24次,收藏83次。图表效果如下:具体代码如下:<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>圆环图案例</title> <!-- 引入 ECharts 文件 --> <script src="js/_echarts环形图中间带数字

第三方软件正确验证163/126邮箱最新方法(使用iPhone自带的邮件做示例)_126邮箱 主机名-程序员宅基地

文章浏览阅读1.4w次。近期我手机上的163/126邮箱突然无法通过验证、收发邮件,邮件下方显示如下的信息:在网上查了很久,始终没有找到真正有效、详细的方法,后来自己摸索了好久,终于发现了解决的办法。1. 首先进入网易邮箱网易网页版2.进入设置,图中红框内的两个选项都非常重要第一步先在客户端授权密码里设置为开启 ,并牢记密码 第二步在POP3/SMTP/IMAP里红框里的选择..._126邮箱 主机名

fluent里常见基础问题(转)_fluent不同算法对结果影响-程序员宅基地

文章浏览阅读8.4k次,点赞9次,收藏104次。1 什么叫松弛因子?松弛因子对计算结果有什么样的影响?它对计算的收敛情况又有什么样的影响?  1、亚松驰(Under Relaxation):所谓亚松驰就是将本层次计算结果与上一层次结果的差值作适当缩减,以避免由于差值过大而引起非线性迭代过程的发散。用通用变量来写出时,为松驰因子(Relaxation Factors)。《数值传热学-214》  2、FLUENT中的亚松驰:由于FLUENT所解..._fluent不同算法对结果影响

随便推点

Raki的读paper小记:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints_gqa:谷歌提出分组查询注意力-程序员宅基地

文章浏览阅读525次。图2展示了分组查询注意力和多头/多查询注意力的比较。适中数量的组导致插值模型的质量高于MQA,但比MHA更快,正如我们将展示的那样,这代表了一个有利的权衡。然而,更大的模型通常会按比例增加头的数量,使得多查询注意力在内存带宽和容量上都表现出更激进的削减。此外,较大的模型受到注意力的内存带宽开销相对较小,因为键值缓存随着模型维度的增加而增加,而模型的FLOPs和参数随模型维度的。此外,我们引入分组查询注意力,它是多查询注意力和多头注意力的插值,既能够在与多查询注意力相当的速度下实现接近多头注意力的质量。_gqa:谷歌提出分组查询注意力

Notepad++配置C语言编译环境-程序员宅基地

文章浏览阅读4k次,点赞5次,收藏12次。今天和大家分享一个使用Notepad++配置C语言编译环境的方法,因为本人是一个C语言新手,一般写个小程序用文本编辑器就够用。前提: 下载mingw 或者 Cygwin 或 tdm-gcc 里面有C语言编译器,然后配置环境变量。 https://sourceforge.net/projects/mingw-w64/files/?source=navbar首先: ...

excel文件可以直接转换成图片格式吗?excel文件怎样才能快速转换成图片?excel文件快速转换成图片的方法_excel图片地址转图片-程序员宅基地

文章浏览阅读836次,点赞24次,收藏17次。本文介绍了将Excel文件转换成图片格式的五种方法,包括使用汇帮PDF转换器、Excel内置功能、屏幕截图工具、复制粘贴和另存为图片。转换前需备份文件,选择合适的图片格式和分辨率,注意第三方软件的安全性。转换后便于在不同设备和平台上查看和分享Excel数据_excel图片地址转图片

Linux使用cups进行打印_cups/cups.h-程序员宅基地

文章浏览阅读2.2k次。复制的代码,还没有试过。#include <cups/cups.h>//...int print_label( const char *text, const char *printer_name, const char *job_name ){ int jobId = 0;jobId = cupsCreateJob( CUPS_HTTP_DEFAULT,..._cups/cups.h

在腾讯云上创建您的SQL Cluster(1)_腾讯云 搭建sql集群-程序员宅基地

文章浏览阅读431次。在国内公有云厂商上搭建一套SQL Cluster的难度相信做Windows的童鞋都会很清楚,并非它的搭建有多少难度,只是很多细节需要注意。腾讯云,QCloud,为什么选择QCloud来做这个实验,除了QCloud是我的东家(这里我没收任何广告费啊),其实QCloud对Windows原生态保留得最好,所以很多种Windows实验(解决方案)在QCloud都是支持的。所以,今天我就来讲_腾讯云 搭建sql集群

[论文]CVPR2019论文GIoU解读_giou论文-程序员宅基地

文章浏览阅读3.6k次,点赞2次,收藏15次。本文是对 CVPR2019 论文《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》的解读: 论文地址:https://arxiv.org/abs/1902.096301.Motivation 包围框回归是2D/3D 视觉任务中一个最基础的模块,不管..._giou论文

推荐文章

热门文章

相关标签