安装:
1.bs4遍历文档树
bs4:解析xml格式的模块,从xml中找想要的数据。
html是xml的一种,解析html,使用requests返回的数据,可能是json、html、文件,再使用bs4解析html格式。
用法:
注:lxml比html.parser速度块,但是需要安装lxml模块()
2.bs4搜索文档树
搜索文档树速度是比遍历慢一些的。
用法:
案例:
3.bs4其他用法
遍历和搜索,可以混合用
recursive :是否递归查找
limit:查找多少条
用法:
补充:
1 链式调用(跟语言没关系)
2 bs4支持修改文档树,对爬虫没用,对实际写后台代码有用
3 主流软件的配置文件方式
xxx.conf(redis,nginx)
xxx.ini(mysql)
xxx.xml(uwsgi,java的配置文件居多)
xxx.yaml
4 css选择器
所有解析库,通常会有自己的查找方式(bs4就是find和find_all),还会支持css和想xpath选择。
记住一些css选择器用法:
id#
类名.
标签名p
标签名>标签名 紧邻的子
标签名 标签名 子子孙孙
5 xpath:在xml中查找文档的语言
6 css、xpath都不会写怎么办
终极大招:浏览器F12选中页面元素,鼠标右击选择xpath或css复制即可~~
示例:
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/52029.html