Python爬虫如何补全相对链接

2024-01-02 15:04:00

问题描述

我们使用python开发爬虫采集网页的时候,网页上经常会使用相对链接,如下:

./202401/t20240102_3522266.html

获取这样的链接是无法继续请求来获取后续数据的。所以需要把他不全。

解决方法

要补全一个相对链接为一个完整的链接,你需要知道相对链接相对于哪个基础链接。在这个例子中,相对链接是?./202401/t20240102_3522266.html,基础链接是?https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html

下面是如何在 Python 中使用基础链接补全相对链接:

from urllib.parse import urljoin  
  
base_url = "https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html"  
relative_url = "./202401/t20240102_3522266.html"  
  
# 使用urljoin补全链接  
full_url = urljoin(base_url, relative_url)  
  
print(full_url)

运行上述代码后,你将得到完整的链接:https://www.beijing.gov.cn/zhengce/zhengcefagui/202401/t20240102_3522266.html

文章来源:https://blog.csdn.net/Dxy1239310216/article/details/135339291
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。