文章目录
前言
今天刚好有个朋友托我写一个脚本,需求是爬取他刚看的一部动漫的剧照,于是我就开始着手满足他这个需求哈哈哈~因为这个脚本涉及到一些批量拿站也会用到的模块,所以就归类到Python渗透编程里了,我会分3步简要的说一下这个脚本的编写思路。
第一步:整合URL
我首先看了一下网站的URL结构,这种爬图的活儿有点像套娃,需要一层一层的去进行数据清洗,直到得到真正的地址.jpg
其实脚本很好理解,需要你掌握Python的正则,我这里有本详细的Python正则等待你的查收!
Python正则武林秘籍
这里还需要翻页,所以要做两个正则,分两次for循环传递
右键去看一下源码,构思一下正则
这样第一步的代码就出来了:
#get_num()的作用是整合裤袜视界全部图片的url def get_num(url1): url = 'https://movie.douban.com/subject//photos?type=S' req = requests.get(url=url,headers=header)
html = req.text page = re.findall(r'<a href=\"https://movie\.douban\.com/photos/photo/(.*?)\">',html) pages = re.findall(r'<a href=\"(.*?)\" >\d</a>',html) # 这里过滤一下需要跳转的页面的url,传给turn_page()进行处理 for j in pages: turn_page(j) #在这里把过滤出来的url列表赋值给i,拼接后传递给函数get_img_url() for i in page: url2 = url1+i get_img_url(url2)
这是自动翻页的代码:
# 这里获取翻页的url并进行二次处理 def turn_page(page): host = 'https://movie.douban.com/photos/photo/' url = page req = requests.get(url=url,headers=header)
html = req
到此这篇Python爬取豆瓣裤袜视界高清大图的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/pythonbc/10289.html