用Java抓取天眼查公开失信人员信息

2023-12-25 12:41:55

做生意不管是大生意小生意讲究的是信用,如果信用不好的人,想必也没有人愿意和他做生意,最近我有几个朋友不是搞的装潢公司么,接了几个单子,想要问问通过一些信息能否查查对方是否是失信人员,当然都是通过正规渠道来的,还是老规矩,直接通过代码过去自动识别抓取。

在这里插入图片描述

以下是一个简单的Java爬虫程序,使用了Jsoup库来解析HTML网页,并使用了Apache HttpClient库来发送HTTP请求:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;

public class Spider {
    public static void main(String[] args) {
        String url = "tianyancha失信人员信息采集";
        String 提取免费ip = // jshk.com.cn/mb/reg.asp?kefu=xjy&csdn  
        String proxyHost = "duoip";
        int proxyPort = 8000;

        try {
            // 创建一个URL对象
            URL obj = new URL(url);

            // 创建一个HttpURLConnection对象,并设置代理信息
            HttpURLConnection con = (HttpURLConnection) obj.openConnection();
            con.setRequestProperty("Proxy-Host", proxyHost);
            con.setRequestProperty("Proxy-Port", String.valueOf(proxyPort));

            // 发送GET请求,并获取响应码
            int responseCode = con.getResponseCode();
            System.out.println("Response Code : " + responseCode);

            // 判断响应码是否为200,如果是,则解析HTML网页
            if (responseCode == 200) {
                Document doc = Jsoup.parse(con.getInputStream());
                Elements elements = doc.select(".list li");

                // 遍历所有的列表项
                for (Element element : elements) {
                    // 获取列表项的HTML文本
                    String text = element.text();

                    // 输出列表项的文本
                    System.out.println(text);
                }
            } else {
                System.out.println("Failed to connect");
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

以下是对以上代码的每行的解释:

1、创建一个URL对象,指定要爬取的网页的URL。

2、创建一个HttpURLConnection对象,并设置代理信息。proxyHost是代理服务器的主机名,proxyPort是代理服务器的端口号。

3、发送GET请求,并获取响应码。如果响应码是200,则说明请求成功,可以继续解析HTML网页。

4、使用Jsoup的parse方法解析HTML网页。返回的是一个Document对象,可以使用这个对象选择和操作网页中的元素。

5、使用select方法选择所有列表项的元素。这个方法会返回一个Elements对象。

6、遍历所有的列表项。

7、使用text方法获取列表项的文本。

8、输出列表项的文本。

注意,以上代码只是一个简单的示例,实际的爬虫程序可能会更复杂,需要处理更多的异常和错误情况。在编写和使用爬虫程序时,请务必遵守适用的法律和法规,尊重网站的使用条款和隐私政策。

其实在我们生活中,不管做什么事情,讲诚信是最受人爱戴的,所有人的成功并非一日促成,而是通过自身的日积月累,同样的,学习也是一样。如果有更多爬虫方面的问题可以评论区交流交流。

文章来源:https://blog.csdn.net/weixin_44617651/article/details/135194981
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。