当前位置:网站首页 > Python编程 > 正文

Python爬取豆瓣裤袜视界高清大图

前言

今天刚好有个朋友托我写一个脚本,需求是爬取他刚看的一部动漫的剧照,于是我就开始着手满足他这个需求哈哈哈~因为这个脚本涉及到一些批量拿站也会用到的模块,所以就归类到Python渗透编程里了,我会分3步简要的说一下这个脚本的编写思路。

第一步:整合URL

我首先看了一下网站的URL结构,这种爬图的活儿有点像套娃,需要一层一层的去进行数据清洗,直到得到真正的地址.jpg

其实脚本很好理解,需要你掌握Python的正则,我这里有本详细的Python正则等待你的查收!
Python正则武林秘籍
在这里插入图片描述
这里还需要翻页,所以要做两个正则,分两次for循环传递
在这里插入图片描述

右键去看一下源码,构思一下正则
在这里插入图片描述
这样第一步的代码就出来了:

#get_num()的作用是整合裤袜视界全部图片的url def get_num(url1): url = 'https://movie.douban.com/subject//photos?type=S' req = requests.get(url=url,headers=header)
    html = req.text page = re.findall(r'<a href=\"https://movie\.douban\.com/photos/photo/(.*?)\">',html) pages = re.findall(r'<a href=\"(.*?)\" >\d</a>',html) # 这里过滤一下需要跳转的页面的url,传给turn_page()进行处理 for j in pages: turn_page(j) #在这里把过滤出来的url列表赋值给i,拼接后传递给函数get_img_url() for i in page: url2 = url1+i get_img_url(url2) 

这是自动翻页的代码:

# 这里获取翻页的url并进行二次处理 def turn_page(page): host = 'https://movie.douban.com/photos/photo/' url = page req = requests.get(url=url,headers=header)
    html = req
到此这篇Python爬取豆瓣裤袜视界高清大图的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 基于Python的飞机大战游戏2024-11-25 11:45:06
  • 在安卓上运行python_python打包成安卓app2024-11-25 11:45:06
  • 如何在安卓手机上运行python_手机怎么运行python2024-11-25 11:45:06
  • 后端 框架_python后端框架2024-11-25 11:45:06
  • python 多进程通信_java高并发核心编程2024-11-25 11:45:06
  • python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 进阶篇2024-11-25 11:45:06
  • 不用备案的vps国内推荐2024-11-25 11:45:06
  • 关于msms、biopython_residuedepth.py学习2024-11-25 11:45:06
  • Python根据安装包安装selenium2024-11-25 11:45:06
  • python pivot函数(python pivot table aggfunc)2024-11-25 11:45:06
  • 全屏图片