【数据爬取】Jsoup爬取数据的使用
2023-12-20 16:35:47
1.Jsoup介绍
Jsoup 是一个用于解析、提取和操作 HTML 文档的 Java 库。它提供了简单且易于使用的 API,能够轻松地从 HTML 页面中提取数据。
2.导入依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version> <!-- 使用最新版本 -->
</dependency>
3.爬虫示例
示范了一个爬取微博网数据的示例:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class SinaNewsCrawler {
public static void main(String[] args) {
String url = "https://news.sina.com.cn/";
try {
// 连接到新浪新闻首页并获取 Document 对象
Document document = Jsoup.connect(url).get();
// 使用选择器提取新闻标题
Elements newsTitles = document.select(".linkNewsTopBold");
// 处理提取到的数据
for (Element newsTitle : newsTitles) {
System.out.println("News Title: " + newsTitle.text());
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
文章来源:https://blog.csdn.net/qq_43196617/article/details/135108843
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!