我对中国企业SaaS不推荐数据湖,也不推荐Spark和Flink-程序员宅基地

技术标签: 百度  人工智能  数据库  数据挖掘  大数据  

(1)软件时代

我记得SQLServer过去产品线很全:

1、数据库:Database

2、ETL、DTS、订阅分发

3、元数据管理:Meta Service

4、主数据管理:MDM

5、数据仓库:WareHouse

6、多维计算和多维分析:MDX、Cube

7、可视化:Report Service

8、数据挖掘:Analysis Service

9、检索搜索:FullText

我因为很多年不用微软技术了,不知道现在怎么样了。

但我们过去把这套东西叫做:Data Platform。

(2)互联网时代

自从互联网兴起以后,随着电子邮件、即时通信、音视频、BBS、博客、微博、问答、用户行为跟踪、云盘、云文档等等各种互联网应用的普及,对这些内容的存储、查询、统计、挖掘,要求海量、高性能、实时,所以就出现了各种SQL和NOSQL数据库,以及大数据查询引擎、搜索引擎、计算引擎、存储引擎、调度引擎。

一、OLTP数据生产类

如缓存:MemCache、Redis

如NewSQL:TiDB/TiKV、CockroachDB

如NOSQL:MongoDB、Neo4J、InfluxDB

如对象存储/文件存储:Ceph、MinIO、HDFS

二、数据传输类

如DTS/ETL:Sqoop、kafka/Pulsar

三、OLAP数据存储类

如OLAP数据库:Greenplum、Hbase、ClickHouse、Doris

如数据湖仓:Hudi、Iceberg、Delta

四、OLAP数据计算类

如计算引擎:MR、Storm、Spark、Flink

五、OLAP数据消费类

如查询引擎:Hive、HAWQ、Impala、Druid、Presto

如搜索引擎:ElasticSearch、Milvus

如可视化:SuperSet

如多维计算和多维分析:Kylin

如数据挖掘:Spark ML

我和软件时代的Data Platform对比了一下,主要是增加了专门的数据湖仓(如

Hudi、Iceberg、Delta)、专门的计算引擎(如Spark、Flink)这两样东西。但不知道为啥,就因为增加了这两样东西,Data Platform就变成了Data Middleware,数据平台就变成了只有中国人流行的数据中台。难道就是因为计算引擎(如Spark、Flink)像中间件?

谁知道原因,告诉我一声。

(3)中国企业SaaS云时代

现在大数据技术还都处于发展变化当中,所以产生了一堆大数据技术,意味着每个都只能干一点事,需要互相搭配着瞎子背瘸子,所以把事情搞的特别复杂。

这对于从中国企业软件时代走到企业SaaS时代的IT厂商来说,特别不适应。毕竟,过去的数据处理,都直接放给微软、Oracle、IBM这样的商用数据库套件厂商即可。现如今在中国,开源的不成熟,中国的云计算巨头们的大数据产品套件也不成熟,这就造成了旧的商用数据库套件时代已去,但新的商用大数据套件时代还未顶上来,这就不上不下尴尬了。这个尴尬,估计还需要持续三年。咱们2025年再看。

所以,在2025年之前怎么办?除了分库分表、归档、优化SQL、加索引、写JOB这些常规了20多年的动作以外,我们能做些什么?

一、建议1

我个人建议:先别追风扎入湖仓(如Hudi、Iceberg)。毕竟数据仓库擅长处理结构化数据、入仓前需要做好数据清洗,还得做好数据建模。而数据湖擅长处理非结构化数据、数据入湖之前不用做严格的数据清洗和数据建模。而现在互联网人想在数据湖技术基础之上建立数据仓库,Hudi、Iceberg之类的就是这个搞法。

但事实上,中国的企业SaaS,大部分都是把过去的企业内部管理软件重新开发一遍放到云上,哪有什么海量的非结构化数据?所以我个人不赞成中国企业SaaS厂商好奇害死猫地搞数据湖仓。

所以,我建议:先用好MPP数据库。如ClickHouse、Doris。我看字节用了上万台服务器ClickHouse,我也看百度也用了上万台服务器Doris。

另外,你看AWS的RedShift,人家也是来自PostgreSQL衍生。你看Pivotal的Greenplum,人家也是来自PostgreSQL。为啥咱们中国人老说PostgreSQL性能顶不住,老说Greenplum性能也顶不住?

二、建议2

我个人建议:也先别追计算引擎(如Spark、Flink)。用计算引擎的,都是搞复杂数据计算的。中国企业SaaS哪里有什么复杂数据计算?过去用SQL就能开发,现在就不能用SQL查询引擎(如Presto)了?

所以,我建议:先用好Presto(查询)、ES(搜索)。我看京东也用了好几千台服务器Presto。

如果需要多维计算和多维分析,我推荐Kylin。

如果需要做复杂数据计算的数据挖掘,我也不建议使用Spark ML。这个问题让搞机器学习、深度学习、人工智能的人去考虑他们的乘手工具。现在数据挖掘越来越靠近机器学习,而不是靠近数据科学。

9d67456df68be9911c0c231a0aae9559.png

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/david_lv/article/details/121506315

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型 例:var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型 例: var v=null;Number中:NaN -- not a number非数本身是一个数字,但是它和任何数字都不相等,代表非数,它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次,点赞2次,收藏17次。兑换码编码设计当前各个业务系统,只要涉及到产品销售,就离不开大大小小的运营活动需求,其中最普遍的就是兑换码需求,无论是线下活动或者是线上活动,都能起到良好的宣传效果。兑换码:由一系列字符组成,每一个兑换码对应系统中的一组信息,可以是优惠信息(优惠券),也可以是相关奖品信息。在实际的运营活动中,要求兑换码是唯一的,每一个兑换码对应一个优惠信息,而且需求量往往比较大(实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句 第四章 结构化程序设计 4.1 选择结构程序设计 在现实生活中,需要进行判断和选择的情况是很多的: 如果你在家,我去拜访你 如果考试不及格,要补考 如果遇到红灯,要停车等待 第四章 结构化程序设计 在现实生活中,需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明 在驱动程序中实现的ioctl函数体内,实际上是有一个switch{case}结构,每一个case对应一个命令码,做出一些相应的操作。怎么实现这些操作,这是每一个程序员自己的事情。 因为设备都是特定的,这里也没法说。关键在于怎样组织命令码,因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径 。 命令码的组织是有一些讲究的,因为我们一定要做到命令和设备是一一对应的,利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations,选择JSON界面做如下改动:1.首先把 “/usr/include”,放在最前2.查看C++路径,终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇,因未有精力写更多的入门教程,上篇已经抛出书单,有兴趣的朋友可阅读好书来成长,此系列主讲有理由爱Sqlserver的论证性文章,希望读者们看完后,可自行做出判断,Sqlserver是否真的合适自己,目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体,在Excel中,我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台(教育大脑)项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次,点赞6次,收藏4次。教育智脑)建立学校的全连接中台,对学校运营过程中的数据进行处理和标准化管理,挖掘数据的价值。能:一、原先孤立的系统聚合到一个统一的平台,实现单点登录,统一身份认证,方便管理;三、数据共享,盘活了教育大数据资源,通过对外提供数。的方式构建教育的通用服务能力平台,支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素(人、机、料、法、环、测)全面互联,数据实时。智慧校园解决方案,赋能教学、管理和服务升级,智慧教育体系,该数据平台具有以下几大功。教育大数据平台底座:教育智脑。教育大数据平台,以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次,点赞2次,收藏27次。分治法,动态规划法,贪心算法这三者之间有类似之处,比如都需要将问题划分为一个个子问题,然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索,其思想的差异是深度优先和广度优先一:分治算法一、基本概念在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm,这是我随笔篇章的第二更,原本计划是在中秋放假期间写好的,但是放假的时候被安排写一下单例模式,做了俩机试题目,还刷了下PAT的东西,emmmmm,最主要的还是因为我浪的很开心,没空出时间来写写东西。  距离我考研结束已经快两年了,距离今年的考研还有90天左右。  趁着这个机会回忆一下青春,这一篇会写的比较有趣,好玩,纯粹是为了记录一下当年考研中发生的有趣的事。  首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式:warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑,目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程 郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法:第一是自然语言描述,第二是使用专用工具进行算法描述2、c 语言程序的结构如下:1、c 语言程序由函数组成,每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e