招不到人？用C语言采集系统批量采集简历

2023-12-13 14:50:31

虽说现在大环境不太好，很多人面临着失业再就业风险，包括企业则面临着招人人，找对口专业难得问题。想要找到适合自己公司的人员，还要得通过爬虫获取筛选简历才能从茫茫人海中找到公司得力干将。废话不多说，直接开整。

在这里插入图片描述

1、导入所需的库：

import requests
from bs4 import BeautifulSoup
import re

这行代码导入了requests库，该库用于向网站发出HTTP请求；BeautifulSoup库，该库用于解析HTML文档；re库，该库用于处理正则表达式。

2、设置代理信息：

proxy_host = 'www.duoip.cn'
proxy_port = 8000
proxy = {
    'http': 'http://{}:{}'.format(proxy_host, proxy_port),
    'https': 'https://{}:{}'.format(proxy_host, proxy_port)
    '获取免费ip：jshk.com.cn/mb/reg.asp?kefu=xjy&csdn)
}

这行代码定义了代理的主机名和端口号，并将它们存储在proxy字典中。然后，我们使用format()函数将这些值拼接为代理URL。

3、发出HTTP请求：

response = requests.get('https://www.zhaopin.com/', proxies=proxy)

这行代码使用requests.get()函数向www.zhaopin.com发送GET请求。 proxies参数指定了代理服务器。

4、解析HTML文档：

soup = BeautifulSoup(response.text, 'html.parser')

这行代码使用BeautifulSoup库解析response.text（即HTTP响应的文本内容）。

5、获取招聘信息的HTML元素：

job_info = soup.find_all('div', attrs={'class': 'job-item'})

这行代码使用BeautifulSoup库的find_all()函数查找所有class为’job-item’的div元素（即招聘信息的HTML元素）。

6、循环遍历招聘信息：

for info in job_info:
    job_title = info.find('h2', attrs={'class': 'job-title'}).text
    company_name = info.find('span', attrs={'class': 'company'}).text
    link = info.find('a')['href']
    print('职位名称：', job_title)
    print('公司名称：', company_name)
    print('链接：', link)
    print('-------------------------')

这行代码循环遍历job_info列表中的每一个元素，并使用find()函数查找职位名称、公司名称和链接。text参数用于获取元素的文本内容，而[‘href’]参数用于获取链接。然后，我们打印出这些信息。

7、整个爬虫程序的运行：

if __name__ == '__main__':
    proxy_host = 'www.duoip.cn'
    proxy_port = 8000
    proxy = {
        'http': 'http://{}:{}'.format(proxy_host, proxy_port),
        'https': 'https://{}:{}'.format(proxy_host, proxy_port)
    }
    response = requests.get('https://www.zhaopin.com/', proxies=proxy)
    soup = BeautifulSoup(response.text, 'html.parser')
    job_info = soup.find_all('div', attrs={'class': 'job-item'})
    for info in job_info:
        job_title = info.find('h2', attrs={'class': 'job-title'}).text
        company_name = info.find('span', attrs={'class': 'company'}).text
        link = info.find('a')['href']
        print('职位名称：', job_title)
        print('公司名称：', company_name)
        print('链接：', link)
        print('-------------------------')

这行代码为整个爬虫程序的入口。当程序运行时，它会首先设置代理信息，然后发出HTTP请求，解析HTML文档，获取招聘信息的HTML元素，循环遍历招聘信息，并打印出这些信息。

以上就是爬取智联、无忧简历采集系统内容的Python代码。请注意，这只是一个基本的爬虫程序，实际的爬虫程序需要处理更多的复杂情况，例如处理网站的反爬虫策略、处理可能存在的网页结构变化、处理可能存在的错误等。因此，在编写实际的爬虫程序时，需要根据实际情况进行适当的调整和优化。

上面就是有关爬虫获取招聘信息的一些简易的代码，虽说过程很复杂，一旦跑通了，使用还是非常的方便。如果各位大佬有更好的建议，欢迎评论区交流讨论。

文章来源:https://blog.csdn.net/weixin_44617651/article/details/134965925
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！