Scrapy爬取books.toscrape.com使用ProxyPool代理池示例和使用Splash爬取动态网页quotes.toscrape.com示例
2023-12-23 21:04:31
Scrapy使用ProxyPool代理池
根据https://blog.csdn.net/GamersRay/article/details/125909288教程指导操作
ProxyPool
和toscrape_book
代码链接
使用Splash爬取动态网页
示例代码链接
注意: 当时我在测试时,通过docker启动Splash,访问Splash地址,可以得到“Splash v3.5”的显示页面,表明启动成功。但是我在使用的时候总是报:[scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://quotes.toscrape.com/js via http://192.168.99.100:8050/render.html> (failed 1 times): 504 Gateway Time-out
错误,后来发现是实际上Splash没有启动成功,可以等待Splash完全启动和设置更长的超时时间。
文章来源:https://blog.csdn.net/qq_45957580/article/details/135165854
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!