下载链接:https://github.com/InterestingLab/waterdrop/releases
根据waterdrop官网提示:我本地测试环境spark版本是2.4.8,waterdrop版本是1.5.1。
先解压缩:tar -zxvf waterdrop-1.5.1.zip -C /opt/
然后修改配置文件:vim /opt/waterdrop-1.5.1/config/waterdrop-env.sh
# 添加spark执行环境
SPARK_HOME=/opt/spark-2.4.8-bin-hadoop2.7
kudu表结构如下图所示:
CREATE TABLE test.user_info
(
`id` String,
`name` String,
`sex` String,
`city` String,
`occupation` String,
`tel` String,
`fixPhoneNum` String,
`bankName` String,
`address` String,
`marriage` String,
`childNum` String
)
ENGINE = MergeTree
ORDER BY id;
spark {
#程序名称
spark.app.name = "Waterdrop"
#executor的数量(数据量大可以适当增大)
spark.executor.instances = 1
#每个excutor核数(并行度,数据量大可以适当增大到服务器核数一半以下,尽量不要影响clickhouse)
spark.executor.cores = 1
#每个excutor内存(不能小于512m)
spark.executor.memory = "1g"
}
input {
kudu{
kudu_master="node04:7051"
kudu_table="user_info"
#输出中需要指定sourcex_table_name="kudu_source"
result_table_name="user_info"
}
}
filter {
}
output {
clickhouse {
#指定从哪个源临时表输出
source_table_name="user_info"
host = "node04:8123"
clickhouse.socket_timeout = 50000
database = "test"
table = "user_info"
fields = ["id","name","sex","city","occupation","tel","fixPhoneNum","bankName","address","marriage","childNum"]
username = ""
password = ""
bulk_size = 20000
}
}
启动任务:/opt/waterdrop-1.5.1/bin/start-waterdrop.sh --master local[1] --deploy-mode client --config /opt/waterdrop-1.5.1/config/kudu2clickhouse.conf
查询clickhouse表:select * from test.user_info;
文章浏览阅读45次。题目描述火星人是以 13 进制计数的:地球人的 0 被火星人称为 tret。地球人数字 1 到 12 的火星文分别为:jan, feb, mar, apr, may, jun, jly, aug, sep, oct, nov, dec。火星人将进位以后的 12 个高位数字分别称为:tam, hel, maa, huh, tou, kes, hei, elo, sy..._pat b1044 火星数字
文章浏览阅读706次。【CodeForces 1249A --- Yet Another Dividing into Teams】DescriptionYou are a coach of a group consisting of n students. The i-th student has programming skill ai. All students have distinct programmin..._yet another dividing into teams
文章浏览阅读558次,点赞3次,收藏9次。前言二分查找在程序开发过程中是十分常见的算法,也是在程序员面试过程中关于算法的知识点考察过程中最常问的知识点;二分查找在实际开发过程中也常常用的到;就比如在一个一维有序数组中查找最大的一个数;我们可以每次都和数组中间的元素对比,然后缩小查找范围。二分查找是一个非常快速高效的查找算法,因为每次查找数据查找空间都会被缩小为原理数组长度的一半,直到查找空间为空,才结束查找。但是二分查找针对的是..._二分查找算法 oc
文章浏览阅读887次。This article explores the string manipulation using SQL Coalesce function in SQL Server. 本文探讨了在SQL Server中使用SQL Coalesce函数进行的字符串操作。 String manipulation is a process to generate another form of ex..._sql server coalesce函数
文章浏览阅读3.2k次。摘要第一个 .com 域名诞生的五年后,互联网才成为一个世界范围内的事件。也就是你早就听说过的,在1993 年,麻省理工学院教授蒂姆·伯纳斯·李,利用超文本连接,为互联网做了一个方便提取的目录,万维网诞生了。 .com,从第 1 个到第 1 亿个。 尽管你在 .com 后面按下回车键的动作已经跟吃饭喝水一样平常,你可能并没有想到过这事儿在世界上存在了 30 年。1985_域名时代已经过去
文章浏览阅读4.8k次。相关链接(1)问题一完整思路及Python实现代码 下载(2)问题二完整思路及Python实现代码 下载1 思路1.1 第一问是一个回归问题用附件4作为训练集,附件5作为测试集,用LGB回归模型进行回归预测,预测出来的值向上取整。涉及交易周期的计算,这点需要注意,。。。请下载完整思路回归模型的特征构造,除了以下我提供的baseline的特征交叉,还有其他特征构造方法。如下参考:特征构造的方法(1)单一变量的基础转换:x, x^2,sqrt x ,log x, 缩放(2)如果变量的分布是长_2022mathorcup二手车
文章浏览阅读457次。文章目录编译部署nginx下载nginx源码包编译nginx配置nginx.conf配置nginx为systemctl管理分发nginx二进制文件和配置文件启动kube-nginx服务编译部署keepalived下载keepalived源码包编译keepalived配置keepalived.conf创建健康检测脚本配置keepalived为systemctl管理分发keepalived二进制文件和配置文件查看VIP所在的机器以及是否ping通IPSERVICES192.168.72.5_suse12sp5 安装keepalived
文章浏览阅读1.4k次。最后右上角更改为中文输入,同时快捷键就可以切换中英了。重启后左上角搜索 ibus 双击进入。下载成功后需要重启系统 输入。进入后可以进行快捷键的设定。_kali安装中文输入法
文章浏览阅读284次。使用git下载git并且安装全局注册用户名git config --global user.name “梧桐非”全局注册邮箱git config --global user.email “[email protected]”使用ssh要生成并且配置密钥密钥配置可参考码云帮助文档第一次使用git要在本地git init 初始化仓库;然后在进行关联远程仓库git remote ..._gitee怎么用git指令
文章浏览阅读1.3k次。大家否曾注意到有些网站的鼠标不是规则的斜向上箭头的形状,而是十字形,或者是向左的箭头,或者是个问号等等。当你想在网页的不同位置让鼠标显示不 同形状,以体现不同的功能区;当你想让你的网站体现与众不同的风格时,考虑一下在鼠标样式上下功夫吧。其实鼠标样式的用途还是极为广泛的,那么怎样才能实 现鼠标的不同样式呢? 这就要用到css层叠样式表中的cursor属性了。cursor的属性:pointer:手型c..._鼠标显示各样式的意义
文章浏览阅读3.3k次。导读 本教程介绍如何使用systemctl工具列出启动失败的systemd管理的各个服务 列出启动失败的服务[root@localhost ~]# systemctl list-units --state failed UNIT LOAD ACTIVE SUB DESCRIPTION● httpd.service loaded failed failed The Apache HTTP ServerLOAD = Reflects whether th
文章浏览阅读265次。SVN回退至某一版本点击需要回退的项目或文件,点击显示日志(show log)如上需要回退至4564版本,右键点击复原到此版本(revert to this revision)点击还原以上就在本地已经还原到4564版本了,若想更改svn,则进行提交即可咻咻~..._svn撤回到之前的哪一版本