数据分析中,到底什么是特征 feature_什么是特征数据_高若翔的博客-程序员宅基地

技术标签: 数据分析  数据挖掘  

在学习数据分析的时候,总是会遇到特征这个词,这个词是翻译过来的,在中文环境中不是很常用,到底什么是特征呢?

数据的总体,叫做数据集,datasets

数据集中的每一行,叫做样本,sample

我们想研究的那一列,叫做标记,label

除了标记这一列,剩下的列,就叫做特征,feature

这个feature有很多意思,

 其实我觉得第一个意思distinctive characteristic这个并不适用于数据分析领域,直译就是独有的特点,确实不是很贴切,但是第二个方面这个意思,就贴切一些,每一列,只是整个数据集的一个方面,这样更好理解一些。比如一个描述用户的数据集,有满意度列,有支付能力列,有消费理念列,这每一列都是这些用户的某一方面。

所以,特征工程,就是分析数据集某一方面,或者多个方面特点的工程。

特征使用,就是使用某一方面,还是不使用某一方面

特征获取,其实就是某一方面数据的获取

特征处理,就是某方面数据的处理

特征监控,就是某方面数据的监控,更新等。

特征选择,就是某方面数据的选择,是否要用,个人觉得就跟特征使用一个意思

特征变换,就是某方面数据的变换,对指化,归一化,离散化,数值化,正规化。

特征降维,就是数据集有众多方面,找主要方面,忽略次要方面

特征衍生,某方面数据可以找到新的规律,生成新的一列数据,更好的描述数据集的某一方面。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ruoxiangxuexi/article/details/126677575

智能推荐

linux打开txt文件命令_linux运维命令实践:使用cat命令合并文件和查看文件内容..._weixin_39825105的博客-程序员宅基地

cat命令详细说明可以认为concatenate的缩写,功能是连接多个文件并切打印到屏幕上,或重定向到指定文件中。一般用来显示单个文件内容或把几个文件内容连接起来一起显示,还可以从标准输入中读取内容并显示,生产环境中常和重定向或追加符号配合使用。1、创建文件[[email protected] local]# cat >test.txt<helloworld1>>helloworld2&gt...

python获取坐标颜色,python – 根据一组坐标的数据着色地图_weixin_39850981的博客-程序员宅基地

您的第一种方法称为Voronoi diagramm对于使用D3库的javascipt,这种图表有一个解决方案为了使这个解决方案完整,我在这里粘贴M.Bostock示例中的代码var w = 1280,h = 800;var projection = d3.geo.azimuthal().mode("equidistant").origin([-98, 38]).scale(1400).transl...

kettle 表输入 显示重复_智能显示仪XMT-F81-00-021A_weixin_39821330的博客-程序员宅基地

智能显示仪XMT-F81-00-021A 数显电力仪表可以直接取代常规电力变送器及测量仪表。 作为一种的智能化、数字化的前端采集元件,该电力仪表已广泛应用于各种控制系统、SCADA系统和能源管理系统中。仪表采用交流采样技术,能测量电网中的电流、电压频率、有功功率、无功功率、有功电能、无功电能等参数,可通过面板薄膜开关设置倍率,带RS485通讯、报警输出、开关量输入/输出等功能...

C++根据层序遍历序列构造二叉树,再层序遍历二叉树_按照层次遍历顺序构造二叉树c++_loreal8的博客-程序员宅基地

层序构造&层序遍历要用到一个协助队列层序构造假设要构造的二叉树的层序遍历序列存在一个数组里1.只要数组不为空,就先入队数组首元素,并用这个值创建二叉树的root。2.然后进入循环,队列不为空,就拿队头元素,对头再出队。队列为空,结束循环。3.只要数组还有元素,就先给刚刚拿出的对头元素创建左孩子,然后左孩子入队。4.同上,再创建右孩子,右孩子入队。5.结束一次循环。回到2层序遍历与层序构造类似1.树不为空,root先入队2.进入循环,队列不为空,则拿到队头元素,对头出队。队列为

(三十七)期权的隐含波动率计算与图形_隐含波动率计算公式_小粉桥反手王的博客-程序员宅基地

介绍了用牛顿迭代法和二分法计算期权的隐含波动率,理解透思路就容易写出代码;对不同执行价格的期权隐含波动率进行可视化;波动率微笑和偏斜现象出现的重要原因是资产价格不服从BS模型假定的对数正态分布。

Qt-QPixmap_qt qpixmap_赵树成的博客-程序员宅基地

QPixmap类是一个幕下图像的表现,可以用作一个绘制设备Qt提供了4个类来操控图像数据,QImage,QPixmap,QBitmap和QPicture,其中QImage用来为I/O设计和优化的,是直接访问屏幕分辨率和操作的。QPixmap是优化在屏幕上展示图片的的。QBitmap是QPiximap派生的一个便捷类,确保深度为1。如果一个QPixmap对象是一个真的bitmap,那么函数QBit...

随便推点

linux有线网络设置,ubuntu设置有线上网_阳湖小药童的博客-程序员宅基地

原有文件[email protected]:~$cat /etc/network/interfaces# interfaces(5) file used by ifup(8) and ifdown(8)auto loiface lo inet [email protected]:[email protected]:~$cat /etc/resolv.conf# Dynamic resolv.conf(5) fil...

SCAU 计算智能 18443 除法等式_小白蹦蹦跳跳的博客-程序员宅基地

Description输入正整数n,按从小到大的顺序输出所有形如abcde/fghij=n的表达式,其中a~j各代表0~9中的一个数字除了0可以重复外,其它数字不能重复,2<=n<=90000。输入格式多case,每行一个数字,最后一个数字是0输出格式除了最后一行0不用处理,其它每个case,按被除数由小到大输出所有满足等式的情况注:如果没有满足条件的等式,该case结束后,也需要输出一个空行两个case之间用一个空行分隔输入样例44666666620000

IBM Rational 7系列[一]——新版本特性_iright的博客-程序员宅基地

   自从2002年12月6日IBM正式收购Rational以来Rational SDP(software development platform)7系列是继2003.06.15版本后最大的一次升级。整个系列产品的集成度增加了,每个产品也增加了一些新的特性。   当然这也包括RUP,他的新产品为RMC(Rational Method Composer),再就是IBM Rational Tea

windows下Nginx入门练习_代码呆呆的博客-程序员宅基地

一、Nginx的安装      1.Nginx下载        Nginx可以到官网(http://nginx.org/en/download.html)下载,根据自己情况选择相应的版本,我这里下载的是window版本的nginx-1.14.0.zip;将其解压到D盘,解压后目录如下:               2.文件(夹)说明:           conf:此目录下一般都是配置文件,其中...

WinHEC 2008 China 会后感想_weixin_34153893的博客-程序员宅基地

现将这两天的感触与收获拿出来说说,跟大家分享一下,如有不对之处,还望指出来. 12.3-4的Winhec2008已经结束了.貌似思绪还在哪两天.windows更新的理念在于网络与提高用户体验上面.新的windows使得用户更方便的使用网络,配置网络,而且利用网络实现了大量的集成功能,把各种媒体,文件等,做有效的管理、利用,使这些东西可以跨越设备的共...

解决jupyter notebook打不开无反应 浏览器未启动的问题_cyjgfs的博客-程序员宅基地

解决jupyter notebook打不开无反应 浏览器未启动的问题来源: 互联网 作者: vegecken收藏一下。已注明转载地址。方便以后查看这篇文章主要介绍了解决jupyter notebook打不开无反应 浏览器未启动的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧问题:这几天要看几个ipython格式的文件,但是jupyter notebook打开之后一直卡在命令行的界面那里(如图),然后就不动了,浏览器也没有预期地自动弹出来.解决jupyter notebook

推荐文章

热门文章

相关标签