爬取 20W 猫猫数据,来了解一下喵喵~-程序员宅基地

技术标签: python  数据分析  nagios  数据挖掘  数据可视化  

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

来日绮窗前,寒梅著花未?

前言

最近知道身边有许多朋友都养了猫,于是对猫猫有点兴趣了,于是找到了一个专门交易猫猫的网站-猫猫交易网:

http://www.maomijiaoyi.com/

从此网站上爬取 20W 条猫猫交易数据,以及爬取了猫猫品种介绍的数据,以此来了解一下猫猫。

获取数据后小编从以下维度进行探索性分析:

1、猫猫都有哪些品种,词云图

2、原产地,世界地图

3、体型占比,圆环图

4、外观描述词云

5、交易猫猫分布地图

6、交易品种占比树状图

7、每种品种平均价格排名,条形图

8、浏览次数是否跟价格成正比,散点图

9、年龄分布,柱状图

10、价格是否与年龄有关,箱型图

11、价格是否与预防有关,箱型图

12、价格是否与异地运费有关,箱型图

13、价格是否与是否纯种有关,箱型图

14、价格是否与能否视频有关,箱型图

数据获取

打开猫猫交易网,先爬取猫猫品种数据,打开页面可以看到猫猫品种列表:

但只显示了每种猫猫的品种名,参考价格,这些数据还不够,所以点进去,爬取更加详细的数据。

品种名,参考价格,中文学名,基本信息,性格特点,生活习性,优缺点,喂养方法等:

爬取的代码不算难,但这次特意加了进度条功能,可以显示爬取进度:

以上就是猫猫品种的数据来自哪里,接下来是获取猫猫交易数据,进入到买猫卖猫页面:

滑到最底下,可以看到显示有多少页数据,共多少条,此时显示的是 31W,小编使用多进程只爬取了 20W:

当然,爬取的数据是进入详情页后进行爬取的,包含价格,标题,在售只数,猫龄,预防等:

由于数据,太多,小编分开爬取的,先爬取每一页中的所有猫猫详情交易链接的 url 保存进 csv,在读取 csv 一次爬取每条交易数据,于是乎 20W 数据的来源就有了。

数据探索

在这之前呢,小编对猫猫的品种不是很清楚,只知道几个经常听见布偶猫,橘猫这些。

小编于是画个词云,来直观的瞅一瞅猫猫还有哪些品种:

了解了猫猫品种后,小编想知道这些品种的猫猫原产地都是来自哪里,看了看数据,除了橘猫是世界各地都有的,其他品种的猫猫大多分布在这些国家呢:

加拿大,美国,英国,古埃及,泰国,阿富汗这些国家是大多数猫猫品种们的原产地呀。

那猫猫品种的体型分布如何呢,我们一起来看看呗:

在所有品种中,大型的只有一个品种,小编把数据选出来看了看,原来是布偶猫呀,其他品种都是中小型的类型,那以后看见体型比较大的,可以先联想到布偶猫咯~

猫猫们很多品种都很可爱呀,大家一般都喜欢从什么角度形容猫猫呢:

从颜色方面,蓝色,黑色,红色形容猫猫的次数最多;性格方面,对人友善;观看角度方面从侧面看,后面看最合适。

接下来对猫猫品种有一定了解后,一起来看看猫猫交易的数据吧~

首先来看看猫猫交易主要分布在哪些区域呢:

四川,重庆,广东是猫猫交易最多的省份呀,或许是这些省份的人更喜欢猫猫吧,当然只是小编猜的哈~

那么在交易的猫猫中,主要都是哪些品种在交易呢:

橘猫最多呀,看来之前原产地说橘猫分布在世界各地,换句话可以理解为橘猫数量最多,还是有原因的呀~

其次是咖啡猫,布偶猫,英短蓝白猫。。。。。

买猫当然还是得看看价格,对于每种品种的猫猫来说,买的时候有个平均价格参考,心中有个数才好把握吧:

布偶猫名列前茅啊,在它之上还有一个缅因猫均价更高一些,小编不太了解这猫,不过布偶猫倒是觉得非常可爱。

这些猫猫一般猫龄是多大呢?一起来看看吧:

主要分布在 1-9 个月之间,都是刚出生未满一岁的小猫咪呀,一般这种小猫咪是最可爱的时候呢。

那在这些数据中,影响猫猫价格的因素到底是哪些呢?是否存在一些因素与价格相关呢?

小编先从浏览次数与价格进行分析,浏览次数一定程度上反映了猫猫的热度,所以绘制散点图:

从结果上看浏览次数与价格并不存在相关性。

那时候跟猫猫年龄有关呢?通过箱型图来查看一下:

可以看到年龄与价格是相关的,是影响价格的一个因素,1-9 个月的猫猫价格分布在 500-1700 之间,而大于 9 个月的猫猫价格都在 1300 以上,且价格分布明显不同。

在确定与年龄有关后,是否与预防针次数有关呢?

预防针次数也是与价格相关的,0针,1-2针,3针的价格区间分布明显不同,多以预防针次数也是一个影响因素。

是否包邮,是否能视频看猫猫,是否纯种都是影响价格的因素,且三者存在共线性:

所以影响价格的因素猫猫价格的相关因素有年龄,预防次数,邮费,是否纯种,能否看猫猫视频。

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/pdcfighting/article/details/113821087

智能推荐

功放掉电检测电路_功放掉电保护电路-程序员宅基地

文章浏览阅读1.3k次。参考:7206.TPA311x音频功放POP噪声分析及控制.pdf检测功放掉电时,先把shutdown拉低,关闭输出掉电检测电路在应用时需要注意调整 R1 和 R2 的数值,选择合适的掉电保护点。避免电源的纹波触发掉电保护电路导致误触发静音。电路中给出了 Active High 和 Active Low 两种逻辑供用户选择。可以根据功放所需的逻辑自行选用。..._功放掉电保护电路

vue3生成二维码打印_elementplus+vue3实现二维码打印-程序员宅基地

文章浏览阅读539次。3.在此基础上封装业务组件selfQrGoodsPrint。1.在vue3环境中,用到插件qrcodejs2-fix。2.封装基础组件 selfQrcode。_elementplus+vue3实现二维码打印

2021-08-17事件一 事件处理模型(冒泡,捕获)取消冒泡和阻止默认事件 事件对象 事件委托-程序员宅基地

文章浏览阅读79次。1.事件冒泡:结构上(非视觉上)嵌套关系的元素会存在冒泡功能,同一事件,自子元素冒泡向父元素点黄的黄绿红的class全都会显示。点击子元素,一级一级冒泡到父元素。代码:自底向上改变一下位置:视觉上不是嵌套的,但结构上还是嵌套的点击黄色区域:2.事件捕获:先父元素,再子元素(自顶向下)IE没有将false改成true,冒泡直接变获取//红绿黄一定是先捕获后冒泡一个对象的一个事件类型,上面绑定的一个处理函数,只能遵循一个处理模型现在在一个对象的一个事件类型,上面绑定的两.

Dlib的人脸定位和人脸对齐_dlib 检测和对齐图片中的人脸-程序员宅基地

这篇文章介绍了使用Dlib库进行人脸定位和对齐的方法。文章内容涉及到使用Python中的OpenCV和Dlib库来实现人脸定位和对齐的步骤。

ssh -T [email protected] Connection timed out 解决方案-自测有效-程序员宅基地

文章浏览阅读1.3k次,点赞11次,收藏7次。HostName ssh.github.com # 这是最重要的部分。git bash 中vim ~/.ssh/config。修改内容如下:重点第二行:ssh.github.com。

oracle 修改密码过期策略_oracle密码过期策略-程序员宅基地

文章浏览阅读198次。如何取消密码过期策略_oracle密码过期策略

随便推点

聊聊MySQL架构演进:从主从复制到分库分表_mysql集群主从分库分表-程序员宅基地

文章浏览阅读109次。方案二,采用柔性事务,柔性事务是指,数据库保证局部事务,全局事务实现由业务层实现(如通过调度补偿,重试补偿,人工介入等),柔性事务常见的解决方案有:TCC、利用消息队列实现事务。路由问题,需要业务层根据SQL路由到不同的数据库,路由到SLAVE节点时,还需要保证系统负载均衡。count问题,分表后,如果需要统计表记录总和,需要遍历所有的表,然后再将结果进行汇总,可以通过一张单独的汇总表来解决,但这种解决方案需要每次insert或者delete的时候就需要更新汇总表,如果有一次没有更新,就会导致数据不一致。_mysql集群主从分库分表

win7系统两台电脑之间利用Socket实现文件传输---C++实现-程序员宅基地

文章浏览阅读1.7w次,点赞14次,收藏116次。参考:http://www.jb51.net/article/53732.htm 本博客主要实现了简单win7系统下,两台电脑之间(客户机与服务器)的文件传输,主要是基于Windows网络编程中winsock来实现的,当然这个只是简单的实现,你可以根据你的需求在你的项目里面进行更改。这里主要实现的通过客户机(Client) 通过监听服务器(Server)的需求进而向服...

UDP校验和计算-程序员宅基地

文章浏览阅读5.1w次,点赞19次,收藏145次。目录 一、UDP概述二、UDP数据报三、UDP校验和计算四、UDP校验和计算的C语言实现及抓包验证一、UDP概述UDP是User Datagram Protocol的简称,中文名是用户数据报协议,是OSI(Open System Interconnection,开放式系统互联)参考模型中一种无连接的传输层协议,提供面向事务的简单不可靠信息传送服务,UDP在IP报文的协议..._udp校验和

『中级篇』docker之CI/CD持续集成-(终结篇)(77)_docker ci cd-程序员宅基地

文章浏览阅读353次。原创文章,欢迎转载。转载请注明:转载自IT人故事会,谢谢!原文链接地址:『中级篇』docker之CI/CD持续集成-(终结篇)(77)今天是中级终结篇的最后一次了,想想在二个月的时间,每天的坚持学习和更新收获还是满满的,跟我一起学习的小伙伴不知道你收获到了吗?想说的这几次CI/CD介绍了gitlab,gitlab-ci,docker,所有的工具都是免费的,提供了一个方式,作..._docker ci cd

pytorch语义分割计算mIoU_pytorch miou-程序员宅基地

文章浏览阅读5.1k次,点赞7次,收藏34次。版本:python3pred为模型预测的label,像素0表示背景,像素1表示类别1,像素2表示类别2,以此类推。target为groundtruth,这里读入格式为PIL image,格式不一样的请自行修改这里的n_classes是目标物类别数。比如,对于只有背景和一个检测物类别的二分类问题,n_classes=1因为pythonfor循环的range(a,b),范围其实为[a,b),所..._pytorch miou

dos命令行设置网络优先级_海康威视二层接入网络交换机DS-3E2326-H 26口_DS-3E2326-H_DS-3E2326-H...-程序员宅基地

文章浏览阅读1.7k次。DS-3E2326-H 海康威视26口二层接入网络交换机 网络交换机代理商 24个10/100Base-TX 以太网端口,2个10/100/1000Base-T以太网端口和2个复用的100/1000Base-X SFP 端口 DS-3E2326-HDS-3E2326-H海康二层接入交换机海康二层接入交换机 DS-3E2326-H 产品简介 DS-3E2300-H 系列以太网交换机是面向接入层..._ds-3e2326-h

推荐文章

热门文章

相关标签