下载:pip install bs4
from bs4 import BeautifulSoup import requests head = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0' } html = requests.get("https://www.zygx8.com/",headers=head) soup = BeautifulSoup(html.text,'lxml') tobody = soup.select("a font b") for t in tobody: print(t.text)
- select语法 选取页面中的class或者id或标签名(tr,ul,阿,font)等例如获取页面title。直接soup.select(title)
from bs4 import BeautifulSoup import requests head = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0' } html = requests.get("https://www.zygx8.com/",headers=head) soup = BeautifulSoup(html.text,'lxml') title = soup.select("title") for t in title: print(t) # 输出结果:<title>资源共享吧|易语言论坛|逆向激活成功教程教程|辅助开发教程|网络安全教程|www.zygx8.com|我的开发技术随记</title> print(t.text) # 输出结果:资源共享吧|易语言论坛|逆向激活成功教程教程|辅助开发教程|网络安全教程|www.zygx8.com|我的开发技术随记
html中的标签存在父子关系,其中
">"即找到某个tag标签下的子标签不获取其孙子标签(head > title)不获取title下的a标签内容
“~.”找到兄弟节点标签
通过tag的id查找 soup.select('#id')
返回查找到的元素的第一个:soup.select_one() 只返回一个,不返回列表
from bs4 import BeautifulSoup import requests head = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0' } html = requests.get("https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4",headers=head) soup = BeautifulSoup(html.text,'lxml') title = soup.select("ul div>h2") for t in title: print(t.text.strip().replace(" ", "").replace("/n", ""))
食南之徒 素食者 长安的荔枝 太白金星有点烦 怪画谜案 活着 波兰人 额尔古纳河右岸 边水往事 绝叫 一句顶一万句 明亮的夜晚 西游八十一案:长安击壤歌 悉达多:一首印度的诗 七个证人 上升的一切必将汇合 我的天才女友:那不勒斯四部曲1 卡拉马佐夫兄弟 怪屋谜案 我胆小如鼠
到此这篇bs4解析网页(bs4数据解析)的文章就介绍到这了,更多相关内容请继续浏览下面的相关 推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/sjkxydsj/72386.html