数据科学导论这门课,怎么说呢。老师也不知道教了什么,学生也不知道学了什么,莫名其妙考试也不知道靠什么。这里整理了一点笔记,仅供考试前参考!!。
引言这一章,基本上不会出题,了解即可。
数据科学概念:是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法。它研究数据的各种类型、状态、属性及其变化规律,它研究各种方法,对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。
数据科学的核心任务,是从数据中抽取有用的信息/知识
数据科学组成:一组概念 Concept 、原则 Principles 、过程 processes 、技术 techniques
/方法 methods 、以及工具 tools 。(简记cpptt)
数据科学的基本原则:
数据处理流程:采集、表示与存储、清洗、集成、分析、展现、决策
ETL 概念:(蛮重要的)
Extract:从源中提取数据
Transform: 在源、汇或暂存区转换数据
Load:将数据加载到汇中
数据预准备的阶段任务
阶段:数据特征化、数据清洗、数据集成
任务:必须有效地在空间和时间移动数据,包括数据传输 和 数据序列化和反序列化(用于文件或网络)
几种数据格式:JSON、XML、HTML
关系型数据库不适用的原因
Key-value 列存储分解
脏数据 在数据挖掘工作中,脏数据是指不完整、含噪声、不一致的数据
脏数据表现
数据质量
正确性:数据记录正确。
完整性:所有有关数据均已记录。
唯一性:实体记录一次。
及时性:数据是最新的。
时间一致性。
一致性:数据本身是一致的。
数据清洗任务
数据清洗过程
数据清洗具体方法
数据清洗的若干问题
数据集成面对的困难
数据集成步骤
数据探索性分析
指对已有的数据在尽量量少的先验假定情况下进行探索,逐步了解数据的特点
数据探索性分析作用
利用人机交互技术和数据可视化技术,通过不断揭示数据的规律和数据间的关联,引导 分析人员发现并认识以前不知道的数据模式或规律。对未知的数据模式和规律的探索是其价值所在。
各种图
探索式数据分析的基本方法
Bow (很重要)
将所有的词语装进一个袋子,不考虑其词法及语序,即每个单词都是独立的。一种特征化,它使用一个忽略顺序的单词计数向量。
各种距离(很重要)
还有一个切比雪夫距离。
HITS 算法基本流程
输入:一个有向图
初始化:对于每一个节点 p,auth(p)=1,hub(p)=1
利用中枢值更新权威值:对于每一个节点 p,让 auth§等于指向 p 的所有节点 q 的 hub(q)
之和
利用权威值更新中枢值:对于每一个节点 p,让 hub§等于 p 指向的所有节点 q 的 auth(q)
之和
重复上述两步若干(k)次
归一化与极限
• 数值随迭代次数递增
• Auth 和 hub 值的意义在于相对大小
• 在每一轮结束后做归一化:值/总和
• 归一化结果随迭代次数趋向于一个极限,相继两次迭代的值不变,极限与初值无关,即存在“均衡”
• 向量方向的收敛
PageRank 算法
基本思想:用网页间的链接关系计算网页重要性过程:
输入:一个有 n 个节点的网络(有向图),设所有节点的 PageRank 初始值为 1/ n。
选择操作的步骤数 k
对 PageRank 做k 次更新操作,每次使用以下规则:
每个节点将自己当前的 PageRank 值通过出向链接均分传递给所指向的节点。若没有出向链接,则认为传递给自己(或者说保留)。每个节点以从入向链接获得的(包括可能自传的 )所有值之和更新它的 PageRank
退化图结构的处理
• 同比缩减
在每次运行基本 PageRank 更新规则后,将每一节点的 PageRank 值都乘以一个小于 1 的比例因子 s,0<s<1,经验值在 0.8-0.9 之间。
• 统一补偿
在每一节点的 PageRank 值上统一加上(1-s)/n。
大数据时代的技术支撑: 存储设备容量不断增加 CPU 处理能力大幅提升 网络带宽不断增加
大数据概念:数据量大、数据类型多、处理速度快、价值密度低,商业价值高
云计算概念: 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种 IT 资源
云计算关键技术:虚拟化、分布式存储、分布式计算、多租户等
Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
HDFS 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
分布式文件系统设计需求:分布式文件系统的设计目标主要包括透明性、并发控制、可伸缩性、容错以及安全需求等。但是,在具体实现中,不同产品实现的级别和方式都有所不同。
HDFS 目标: 兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性
HDFS 局限性: 不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件
组成: 主节点(名称节点) + 从节点(数据节点)
主节点:负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,FsImage 和 EditLog。FsImage 用于维护文件系统树以及文件树中所有的文件和文件夹的元数据,操作日志文件 EditLog 中记录了所有针对文件的创建、删除、重命名等操作。名称节点记录了每个文件中各个块所在的数据节点的位置信息。
从节点:是分布式文件系统 HDFS 的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地 Linux 文件系统中
HDFS 体系结构的局限性(只有一个名称节点):
块的好处: 支持大规模文件、存储简化系统设计、适合数据备份
为什么进行冗余数据保存:
作为一个分布式文件系统,为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分布到不同的数据节点上。这种多副本方式具有以下几个优点
加快数据传输速度、容易检查数据错误、保证数据可靠性
MapReduce (重点)
shuffle过程
在推荐系统中,用户行为数据可以表示成图的形式,具体地,令G(V,E)表示用户物品二分图,其中V由用户顶点集合和物品顶点集合组成。对于数据集中每一个二元组(u, i),图中都有一套对应的边,其中是用户对应的顶点,是物品对应的顶点。图中用户节点和物品节点相连,说明用户对物品产生过行为。
将用户行为数据用二分图表示,将个性化推荐放在二分图模型中,那么给用户u推荐物品任务可以转化为度量Vu和与Vu 没有边直接相连的物品节点在图上的相关度,相关度越高的在推荐列表中越靠前。
1.在执行算法之前,我们需要初始化每个节点的初始概率值。如果我们对用户u进行推荐,则令u对应的节点的初始访问概率为1,其他节点的初始访问概率为0,然后再使用迭代公式计算。
2.对于personalRank来说,由于每个节点的初始访问概率相同,所以所有节点的初始访问概率都是1/N (N是节点总数)。
如果我们要计算所有节点相对于用户u的相关度,则PersonalRank从用户u对应的节点开始游走,每到一个节点都以1-d的概率停止游走并从u重新开始,或者以d的概率继续游走,从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后,每个顶点被访问到的概率也会收敛趋于稳定,这个时候我们就可以用概率来进行排名了。
众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常是由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。
最后,clz老师的数据科学这门课,真的是。。。。还要看看其他老师讲的什么。每个学期可能讲的东西都不太一样。老师也不太记得自己讲的什么,这次考试莫名其妙出了个什么切比雪夫距离,最后还有个协同过滤推荐算法,感觉是全军覆没了。学弟学妹们,加油吧。
文章浏览阅读6.9k次。WCE 下载地址:链接:https://share.weiyun.com/5MqXW47 密码:bdpqku工具界面_wce.exe -s aaa:win-9r7tfgsiqkf:00000000000000000000000000000000:a658974b892e
文章浏览阅读4.5k次。Weather Globe(Mackiev)Google Earth(Google)Virtual Earth(Microsoft)World Wind(NASA)Skyline Globe(Skylinesoft)ArcGISExplorer(ESRI)国内LTEarth(灵图)、GeoGlobe(吉奥)、EV-Globe(国遥新天地) 软件名称: 3D Weather Globe(http:/_网络地球仪
文章浏览阅读1.9w次,点赞113次,收藏57次。我要买这些东西,然后震惊整个办公室_程序员展示刀,产品经理展示枪
文章浏览阅读1.6w次,点赞7次,收藏63次。霍尔信号、编码器信号与电机转向从电机出轴方向看去,电机轴逆时针转动,霍尔信号的序列为编码器信号的序列为将霍尔信号按照H3 H2 H1的顺序组成三位二进制数,则霍尔信号翻译成状态为以120°放置霍尔为例如不给电机加电,使用示波器测量三个霍尔信号和电机三相反电动势,按照上面所说的方向用手转动电机得到下图① H1的上升沿对应电机q轴与H1位置电角度夹角为0°,..._霍尔信号
文章浏览阅读7.1k次,点赞5次,收藏36次。个人微信淘宝客返利机器人搭建一篇教程全搞定天猫淘宝有优惠券和返利,仅天猫淘宝每年返利几十亿,你知道么?技巧分享:在天猫淘宝京东拼多多上挑选好产品后,按住标题文字后“复制链接”,把复制的淘口令或链接发给机器人,复制机器人返回优惠券口令或链接,再打开天猫或淘宝就能领取优惠券啦下面教你如何搭建一个类似阿可查券返利机器人搭建查券返利机器人前提条件1、注册微信公众号(订阅号、服务号皆可)2、开通阿里妈妈、京东联盟、拼多多联盟一、注册微信公众号https://mp.weixin.qq.com/cgi-b_怎么自己制作返利机器人
文章浏览阅读2.1k次,点赞2次,收藏5次。技术分享时应秉持的基本原则:应有团队和个人、奉献者(统筹人)的概念,同时匹配团队激励、个人激励和最佳奉献者激励;团队应该打开工作内容边界,成员应该来自各内容方向;评分标准不应该过于模糊,否则没有意义,应由客观的基础分值以及分团队的主观综合结论得出。应有心愿单激励机制,促进大家共同聚焦到感兴趣的事情上;选题应有规范和框架,具体到某个小类,这样收获才有目标性,发布分享主题时大家才能快速判断是否是自己感兴趣的;流程和分享的模版应该有固定范式,避免随意的格式导致随意的内容,评分也应该部分参考于此;参会原则,应有_技术分享
文章浏览阅读1k次。在模板中,我们使用了标签,将由o2-view组件负责渲染,给o2-view传入了两个参数:app="内容管理数据"和name="所有信息",我们将在o2-view组件中使用这两个参数,用于展现“内容管理数据”这个数据应用下的“所有信息”视图。在o2-view组件中,我们主要做的事是,在vue组件挂载后,将o2的视图组件,再挂载到o2-view组件的根Dom对象。当然,这里我们要在我们的O2服务器上创建好数据应用和视图,对应本例中,就是“内容管理数据”应用下的“所有信息”视图。..._vue2 oa
文章浏览阅读222次。table是lua中非常重要的一种类型,有必要对其多了解一些。
文章浏览阅读549次,点赞30次,收藏9次。我们前面学习都有一个概念,被private封装的资源只能类内部访问,外部是不行的,但这个规定被反射赤裸裸的打破了。反射就像一面镜子,它可以清楚看到类的完整结构信息,可以在运行时动态获取类的信息,创建对象以及调用对象的属性和方法。
文章浏览阅读1.1k次,点赞35次,收藏12次。Logical Volume Manager,逻辑卷管理能够在保持现有数据不变的情况下动态调整磁盘容量,从而提高磁盘管理的灵活性/boot分区用于存放引导文件,不能基于LVM创建PV(物理卷):基于硬盘或分区设备创建而来,生成N多个PE,PE默认大小4M物理卷是LVM机制的基本存储设备,通常对应为一个普通分区或整个硬盘。创建物理卷时,会在分区或硬盘的头部创建一个保留区块,用于记录 LVM 的属性,并把存储空间分割成默认大小为 4MB 的基本单元(PE),从而构成物理卷。
文章浏览阅读379次,点赞7次,收藏10次。4、Dielecteic voltage-withstand test 介电耐压试验。1、Maximum output voltage test 输出电压试验。6、Resistance to crushing test 抗压碎试验。8、Push-back relief test 阻力缓解试验。7、Strain relief test 应变消除试验。2、Power input test 功率输入试验。3、Temperature test 高低温试验。5、Abnormal test 故障试验。
文章浏览阅读535次。镜像烧写说明_正点原子 imx6ull nand 烧录