我对中国企业SaaS不推荐数据湖，也不推荐Spark和Flink-程序员宅基地

技术标签：百度人工智能数据库数据挖掘大数据

（1）软件时代

我记得SQLServer过去产品线很全：

1、数据库：Database

2、ETL、DTS、订阅分发

3、元数据管理：Meta Service

4、主数据管理：MDM

5、数据仓库：WareHouse

6、多维计算和多维分析：MDX、Cube

7、可视化：Report Service

8、数据挖掘：Analysis Service

9、检索搜索：FullText

我因为很多年不用微软技术了，不知道现在怎么样了。

但我们过去把这套东西叫做：Data Platform。

（2）互联网时代

自从互联网兴起以后，随着电子邮件、即时通信、音视频、BBS、博客、微博、问答、用户行为跟踪、云盘、云文档等等各种互联网应用的普及，对这些内容的存储、查询、统计、挖掘，要求海量、高性能、实时，所以就出现了各种SQL和NOSQL数据库，以及大数据查询引擎、搜索引擎、计算引擎、存储引擎、调度引擎。

一、OLTP数据生产类

如缓存：MemCache、Redis

如NewSQL：TiDB/TiKV、CockroachDB

如NOSQL：MongoDB、Neo4J、InfluxDB

如对象存储/文件存储：Ceph、MinIO、HDFS

二、数据传输类

如DTS/ETL：Sqoop、kafka/Pulsar

三、OLAP数据存储类

如OLAP数据库：Greenplum、Hbase、ClickHouse、Doris

如数据湖仓：Hudi、Iceberg、Delta

四、OLAP数据计算类

如计算引擎：MR、Storm、Spark、Flink

五、OLAP数据消费类

如查询引擎：Hive、HAWQ、Impala、Druid、Presto

如搜索引擎：ElasticSearch、Milvus

如可视化：SuperSet

如多维计算和多维分析：Kylin

如数据挖掘：Spark ML

我和软件时代的Data Platform对比了一下，主要是增加了专门的数据湖仓（如

Hudi、Iceberg、Delta）、专门的计算引擎（如Spark、Flink）这两样东西。但不知道为啥，就因为增加了这两样东西，Data Platform就变成了Data Middleware，数据平台就变成了只有中国人流行的数据中台。难道就是因为计算引擎（如Spark、Flink）像中间件？

谁知道原因，告诉我一声。

（3）中国企业SaaS云时代

现在大数据技术还都处于发展变化当中，所以产生了一堆大数据技术，意味着每个都只能干一点事，需要互相搭配着瞎子背瘸子，所以把事情搞的特别复杂。

这对于从中国企业软件时代走到企业SaaS时代的IT厂商来说，特别不适应。毕竟，过去的数据处理，都直接放给微软、Oracle、IBM这样的商用数据库套件厂商即可。现如今在中国，开源的不成熟，中国的云计算巨头们的大数据产品套件也不成熟，这就造成了旧的商用数据库套件时代已去，但新的商用大数据套件时代还未顶上来，这就不上不下尴尬了。这个尴尬，估计还需要持续三年。咱们2025年再看。

所以，在2025年之前怎么办？除了分库分表、归档、优化SQL、加索引、写JOB这些常规了20多年的动作以外，我们能做些什么？

一、建议1

我个人建议：先别追风扎入湖仓（如Hudi、Iceberg）。毕竟数据仓库擅长处理结构化数据、入仓前需要做好数据清洗，还得做好数据建模。而数据湖擅长处理非结构化数据、数据入湖之前不用做严格的数据清洗和数据建模。而现在互联网人想在数据湖技术基础之上建立数据仓库，Hudi、Iceberg之类的就是这个搞法。

但事实上，中国的企业SaaS，大部分都是把过去的企业内部管理软件重新开发一遍放到云上，哪有什么海量的非结构化数据？所以我个人不赞成中国企业SaaS厂商好奇害死猫地搞数据湖仓。

所以，我建议：先用好MPP数据库。如ClickHouse、Doris。我看字节用了上万台服务器ClickHouse，我也看百度也用了上万台服务器Doris。

另外，你看AWS的RedShift，人家也是来自PostgreSQL衍生。你看Pivotal的Greenplum，人家也是来自PostgreSQL。为啥咱们中国人老说PostgreSQL性能顶不住，老说Greenplum性能也顶不住？

二、建议2

我个人建议：也先别追计算引擎（如Spark、Flink）。用计算引擎的，都是搞复杂数据计算的。中国企业SaaS哪里有什么复杂数据计算？过去用SQL就能开发，现在就不能用SQL查询引擎（如Presto）了？

所以，我建议：先用好Presto（查询）、ES（搜索）。我看京东也用了好几千台服务器Presto。

如果需要多维计算和多维分析，我推荐Kylin。

如果需要做复杂数据计算的数据挖掘，我也不建议使用Spark ML。这个问题让搞机器学习、深度学习、人工智能的人去考虑他们的乘手工具。现在数据挖掘越来越靠近机器学习，而不是靠近数据科学。

本文链接：https://blog.csdn.net/david_lv/article/details/121506315

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型例：var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型例： var v=null;Number中：NaN -- not a number非数本身是一个数字，但是它和任何数字都不相等，代表非数，它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次，点赞2次，收藏17次。兑换码编码设计当前各个业务系统，只要涉及到产品销售，就离不开大大小小的运营活动需求，其中最普遍的就是兑换码需求，无论是线下活动或者是线上活动，都能起到良好的宣传效果。兑换码：由一系列字符组成，每一个兑换码对应系统中的一组信息，可以是优惠信息（优惠券），也可以是相关奖品信息。在实际的运营活动中，要求兑换码是唯一的，每一个兑换码对应一个优惠信息，而且需求量往往比较大（实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句第四章结构化程序设计 4.1 选择结构程序设计在现实生活中，需要进行判断和选择的情况是很多的: 如果你在家，我去拜访你如果考试不及格，要补考如果遇到红灯，要停车等待第四章结构化程序设计在现实生活中，需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明在驱动程序中实现的ioctl函数体内，实际上是有一个switch{case}结构，每一个case对应一个命令码，做出一些相应的操作。怎么实现这些操作，这是每一个程序员自己的事情。因为设备都是特定的，这里也没法说。关键在于怎样组织命令码，因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径。命令码的组织是有一些讲究的，因为我们一定要做到命令和设备是一一对应的，利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations，选择JSON界面做如下改动：1.首先把 “/usr/include”,放在最前2.查看C++路径，终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇，因未有精力写更多的入门教程，上篇已经抛出书单，有兴趣的朋友可阅读好书来成长，此系列主讲有理由爱Sqlserver的论证性文章，希望读者们看完后，可自行做出判断，Sqlserver是否真的合适自己，目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体，在Excel中，我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台（教育大脑）项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次，点赞6次，收藏4次。教育智脑）建立学校的全连接中台，对学校运营过程中的数据进行处理和标准化管理，挖掘数据的价值。能：一、原先孤立的系统聚合到一个统一的平台，实现单点登录，统一身份认证，方便管理；三、数据共享，盘活了教育大数据资源，通过对外提供数。的方式构建教育的通用服务能力平台，支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素（人、机、料、法、环、测）全面互联，数据实时。智慧校园解决方案，赋能教学、管理和服务升级，智慧教育体系，该数据平台具有以下几大功。教育大数据平台底座：教育智脑。教育大数据平台，以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次，点赞2次，收藏27次。分治法，动态规划法，贪心算法这三者之间有类似之处，比如都需要将问题划分为一个个子问题，然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索，其思想的差异是深度优先和广度优先一：分治算法一、基本概念在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm，这是我随笔篇章的第二更，原本计划是在中秋放假期间写好的，但是放假的时候被安排写一下单例模式，做了俩机试题目，还刷了下PAT的东西，emmmmm，最主要的还是因为我浪的很开心，没空出时间来写写东西。　　距离我考研结束已经快两年了，距离今年的考研还有90天左右。　　趁着这个机会回忆一下青春，这一篇会写的比较有趣，好玩，纯粹是为了记录一下当年考研中发生的有趣的事。　　首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式：warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑，目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法：第一是自然语言描述，第二是使用专用工具进行算法描述2、c 语言程序的结构如下：1、c 语言程序由函数组成，每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e