Python爬虫如何补全相对链接

2024-01-02 15:04:00

问题描述

我们使用python开发爬虫采集网页的时候，网页上经常会使用相对链接，如下：

./202401/t20240102_3522266.html

获取这样的链接是无法继续请求来获取后续数据的。所以需要把他不全。

解决方法

要补全一个相对链接为一个完整的链接，你需要知道相对链接相对于哪个基础链接。在这个例子中，相对链接是?./202401/t20240102_3522266.html，基础链接是?https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html。

下面是如何在 Python 中使用基础链接补全相对链接：

from urllib.parse import urljoin  
  
base_url = "https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html"  
relative_url = "./202401/t20240102_3522266.html"  
  
# 使用urljoin补全链接  
full_url = urljoin(base_url, relative_url)  
  
print(full_url)

运行上述代码后，你将得到完整的链接：https://www.beijing.gov.cn/zhengce/zhengcefagui/202401/t20240102_3522266.html。

文章来源:https://blog.csdn.net/Dxy1239310216/article/details/135339291
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！