当前位置:网站首页 > Java基础 > 正文

java爬虫视频教程(java爬虫入门)



使用爬虫技术最常见的API是httpclient和jsoup,当然jdk还有自带的爬虫API;下面介绍下两者的区别:

①HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议((GET、POST、PUT、HEAD、DELETE、HEAD、OPTIONS 等))的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。
HttpClient的主要功能
1、实现了所有 HTTP 的方法
2、支持 HTTPS 协议
3、支持代理服务器(Nginx等)等
4、支持自动(跳转)转向

②jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
主要功能
从一个URL,文件或字符串中解析HTML使用DOM或CSS选择器来查找、取出数据使用DOM或CSS选择器来查找、取出数据可操作HTML元素、属性、文本可操作HTML元素、属性、文本。

总而言之,使用httpclient进行网络爬虫获取到的数据无法进行解析,而jsoup自带解析器,能够更加方便的获取想要的数据。

上手实践:

使用Java中jdk自带的API

导入相关依赖

HttpClient 的使用

jsoup的使用:

这里使用jsoup获取腾讯王者荣耀皮肤,获取到的是网址地址。

java爬虫入门教程 java 爬虫_数据

访问上面标红的网址,如下:

java爬虫入门教程 java 爬虫_flask_02

当然我们也可以使用连接池创建,关注我下期带你使用连接池。

到此这篇java爬虫视频教程(java爬虫入门)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • java调用dll动态库代码(java调用dll 参数传递)2025-01-26 11:54:09
  • java字符串类型转换为int(java字符串转其他类型)2025-01-26 11:54:09
  • java面试题八股文面试(java面试八股文是哪些)2025-01-26 11:54:09
  • javajvm内存模型(jvm 的内存模型)2025-01-26 11:54:09
  • java爬虫步骤(java写爬虫程序)2025-01-26 11:54:09
  • 学java比较好的网站(学java的平台)2025-01-26 11:54:09
  • java爬虫(java爬虫框架哪个最好用)2025-01-26 11:54:09
  • 单向链表排序java(单链表排序 java)2025-01-26 11:54:09
  • java阻塞队列是线程安全的吗(java阻塞队列原理)2025-01-26 11:54:09
  • java八股文是什么意思(java八股文是啥)2025-01-26 11:54:09
  • 全屏图片