Python爬虫如何补全相对链接
2024-01-02 15:04:00
问题描述
我们使用python开发爬虫采集网页的时候,网页上经常会使用相对链接,如下:
./202401/t20240102_3522266.html
获取这样的链接是无法继续请求来获取后续数据的。所以需要把他不全。
解决方法
要补全一个相对链接为一个完整的链接,你需要知道相对链接相对于哪个基础链接。在这个例子中,相对链接是?./202401/t20240102_3522266.html
,基础链接是?https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html
。
下面是如何在 Python 中使用基础链接补全相对链接:
from urllib.parse import urljoin
base_url = "https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html"
relative_url = "./202401/t20240102_3522266.html"
# 使用urljoin补全链接
full_url = urljoin(base_url, relative_url)
print(full_url)
运行上述代码后,你将得到完整的链接:https://www.beijing.gov.cn/zhengce/zhengcefagui/202401/t20240102_3522266.html
。
文章来源:https://blog.csdn.net/Dxy1239310216/article/details/135339291
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!