数据提取方法_a', {'text': '下一章'}-程序员宅基地

技术标签: 笔记  

html和xml的区别

  • html(超文本标记语言),用来显示数据
  • xml(可扩展标记语言),用来传输和存储数据

xpath语法

  • // 的用途

    • //a当前html页面上的所有的a
    • bookstore//bookbookstore下的所有book元素
  • @的使用

    • //a/@herf所有a的href
  • text()的使用

    • //a/text()获取所有的a下的文本
  • text()的使用

    • //a/text()获取所有的a下的文本
    • //a[text()=下一页]获取文本为下一页的a标签
  • xpath查找特定的节点

    • //a[1]选择第一个a标签
    • //a[last()]选择最后一个a标签
    • //a[position()<4]选择前三个a标签
  • xpath的包含

    //a[contains(text(),“下一页”)]选择文本包含下一页三个字的a标签

    //a[contains(@class, "n")]选择class属性包含n的a标签

lxml模块的使用

from lxml import etree
element = etree.HTML(html_str) # bytes或str类型的字符串
element.xpath("xpath_str")  # 返回列表
etree.tostring(element)  # 转化为字符串,查看与原始element是否有区别
# 数据提取时,先分组,再提取
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/no_found/article/details/113983285

智能推荐

目标跟踪之LTMU:High-Performance Long-Term Tracking with Meta-Updater环境配置及代码运行-程序员宅基地

文章浏览阅读1.9k次,点赞2次,收藏8次。代码地址:https://github.com/Daikenan/LTMU论文地址:LTMU是CVPR2020的oral,全文重点分析了跟踪过程中经典的模型更新问题。作者一共在六个state-of-the-art的跟踪器上验证了meta-update的有效性,因此给出了六个trackers的代码,其中论文里面的结果应该是DiMP_LTMU跟踪器(PrDiMP+MU和Super_DiMP+MU的性能更优,但这两个跟踪器是在LTMU发表之后,所以作者也加了进去)。一、创建虚拟环境cd DiMP_LTM_ltmu

从windows换到Linux Mint(八)——Timeshift快照软件究竟该怎么设置?不然那每次都是完全恢复到最初的镜像,很伤心。(end kernel panic -not snycing)_end kernel panic - not syncing-程序员宅基地

文章浏览阅读1.4k次,点赞2次,收藏6次。使用timeshift过程中,无脑选择了所有文件进行备份,导致备份失败,软件需要重新安装,数据丢失。备份文件只需要设置系统文件进行备份,不需要制定系统用户。不要设置自动更新。_end kernel panic - not syncing

安装Adblock Plus/AdGuard,关闭百度搜索热点_adblock怎么不拦截百度-程序员宅基地

文章浏览阅读2.9k次,点赞2次,收藏4次。一、安装Adblock Plus参考:https://blog.csdn.net/m0_37263637/article/details/80917598 下载:https://pan.baidu.com/s/1yEwIXN0bxZ45yLq7mxg0PA二、设置Adblock Plus三、效果..._adblock怎么不拦截百度

java实现关键字屏蔽,JAVA 关键字、敏感字 屏蔽过滤功能实现-程序员宅基地

文章浏览阅读2k次。demo目录结构:文档内容格式: 直接上代码(检索敏感词算法是从网上搜集参考的,有想法的可以搜索DFA算法研究下):SensitiveFilterService.javapackage com.example.sensitivedemo.test;/*** @Author : JCccc* @CreateTime : 2019/7/30* @Description :**/import java...._java 返回类中屏蔽否个key

tf.keras学习之Flatten()_tensorflow keras使用flatten-程序员宅基地

文章浏览阅读1.8k次。参考网址https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Flattentf.keras.layers.Flatten( data_format=None, **kwargs)作用:展平矩阵,将多维矩阵展平为一维矩阵使用:import tensorflow as tfmodel = tf.keras.Sequential()model.add(tf.keras.Flatten())# 展平矩阵..._tensorflow keras使用flatten

微信公众号访问提示网络出错_阅读微信公众号文章,显示网络异常-程序员宅基地

文章浏览阅读9k次。节日快乐,远离BUG!前两天,我们公司的微信公众号平台出现一个问题:点击公众号菜单进行访问的时候,出现网络异常我以为是外网地址不稳定导致公众号无法访问,就先跟运维的同事说了下,因为是周末,所以运维同事并没有及时回复我,然后我把服务器地址复制出来,在浏览器进行访问,访问没问题,这时运维同事让我把地址发给他,他检测一下。这就尴尬了,我当时没有把问题考虑清楚就发出去了,着实挺尴尬的,就给他说,我..._阅读微信公众号文章,显示网络异常

随便推点

由数据插入超长引起的问题——了解GaussDB和openGauss的字符集_gaussdb 字符集-程序员宅基地

文章浏览阅读2.1k次,点赞43次,收藏44次。故事是这样开始的。我们的小DEMO项目的数据库版本从openGauss 2.1.0升级到了5.0.0版本。升级后进行功能验证的时候,测试同学发现个BUG,原来通过gs_restore导出来的数据再导入时报超长,插入失败了,如下图所示,nvarchar(10)的字段类型,无法插入10个汉字—“齐天大圣孙悟空美猴王”。_gaussdb 字符集

sonar 上安装插件之后,展示的代码规则_sonar运行正常,显示代码规则数量,但不显示代码规则-程序员宅基地

文章浏览阅读836次。sonar 质量规则展示:上面 很奇怪的是:对于规则findbugs,多出了findbugs5和findbugs54规则。分别对规则点进去看下:发现findbugs,findbugs5,findbugs54三个规则的总数一样,对于sonarway,sonarway5,sonarway54也是一样的。难道他们是备份复制来的?点击复制可见,findbugs,findbugs5,findbugs54一组..._sonar运行正常,显示代码规则数量,但不显示代码规则

Extraneous non-props attributes (Allvalue, List, PopupViewinput, PopupView) were passed to componen_extraneous non-props attributes (value) were passe-程序员宅基地

文章浏览阅读244次。结算方案: 再包一层div就行了。Vue3使用组件警告。_extraneous non-props attributes (value) were passed to component but could n

LeetCode 从中序遍历和后序遍历构建二叉树(java)_由后序序列和中序序列创建二叉链java-程序员宅基地

文章浏览阅读1.2k次。根据一棵树的中序遍历与后序遍历构造二叉树。注意:你可以假设树中没有重复的元素。例如,给出中序遍历 inorder =[9,3,15,20,7]后序遍历 postorder = [9,15,7,20,3]返回如下的二叉树: 3 / \ 9 20 / \ 15 7思路:①后续遍历的最后一个数为根结点,根据这个根结点来划分中序遍..._由后序序列和中序序列创建二叉链java

STM32精英版(正点原子STM32F103ZET6开发板)学习篇5——蜂鸣器实验(三种实现方式)_stm32f1vet6实现蜂鸣-程序员宅基地

文章浏览阅读3k次,点赞10次,收藏40次。硬件电路图注意:  不能通过IO口直接驱动大功率器件(蜂鸣器不能直接接IO口,要像上面电路一样通过三极管进行放大,通过电路图易知当BEEP端输出高电平则基极与发射极导通,电流放大从集电极输出,蜂鸣器响,反之不然)  R38(10K电阻)有什么用?因为STM32复位后默认是浮空状态,IO口电平是不确定的,若不接则可能会通过三极管的B极进行放大,接了之后会从这边走从而就不会导致复位后蜂鸣器响创建文件夹BEEP,并在此文件夹下添加子文件夹:CORE、USER、STM32F10x_FWLIB、HARDWA_stm32f1vet6实现蜂鸣

uni-app 之 使用扩展组件(uni ui) Pagination 分页器使用示例_uni-pagination引入-程序员宅基地

文章浏览阅读6.9k次。先贴出 分页器文档的地址:Pagination 分页器使用步骤:1.下载或者导入插件到你的项目;2.在需要使用的页面引入该插件。使用操作:1.下载或者导入插件到你的项目;导入的操作流程示例图:点击使用HBuilder X导入插件确认打开选择项目并确认然后会在你的项目中自动添加已下目录代码,这就是插件的代码2.在需要使用..._uni-pagination引入

推荐文章

热门文章

相关标签