爬虫实战-微博评论爬取

2023-12-28 13:33:46

简介

最近在做NLP方面的研究,以前一直在做CV方面。最近由于chatgpt,所以对NLP就非常感兴趣。索性就开始研究起来了。

其实我们都知道,无论是CV方向还是NLP方向的模型实现,都是离不开数据的。哪怕是再先进的代码,都是需要数据支撑的。但是我们的数据都来自哪里呢。无非就两个方面,一方面是来自于公开的数据集,或者就是个人收集。那么个人收集数据的方法,最常用的页就是爬虫了。通过爬虫采集数据是非常非常方便的。那么接下来我就来介绍一下如何使用爬虫来采集微博上的评论数据。

下面是我采集的数据,具体如下:

在这里插入图片描述
可以看到基本上就是两类,一类是关于评论数据方面的,这里包括评论id,评论的时间,评论的ip地址,另外一类就是发布评论的作者信息,这里包括了评论者的username,个人简介,粉丝数量、关注的人,以及性别等等。

代码使用

那么我们应该怎么使用这个代码呢:
我们主要分为两步,一步是修改代码中的cookie的值,另外一方面就是找到你需要爬取的微博的id,然后运行代码就可以了。

代码中的cookie位置如下,我们在此处就可以进行修改了
在这里插入图片描述
在这里插入图片描述
那么我们应该怎么找到自己的cookie信息呢。
我们首先打开浏览器,然后输入微博,然后进入微博页面,随便点一个微博就可以了,此时我们按F12,如下所示
在这里插入图片描述
接下来的话,我们刷新页面即可,此时有一大波数据来袭
在这里插入图片描述
然后我们如下所示,点击一个文件,然后就可以看到cookie值了。具体如下所示:
在这里插入图片描述
另外一步就是,获取到对应微博的id,获取方式如下所示。我们复制就可以了
在这里插入图片描述
然后粘贴到代码中就就可以了
在这里插入图片描述
上述步骤都完成以后,我们就可以运行了。
在这里插入图片描述
具体的操作,请看如下视频:

爬虫实战-微博评论爬取

由于作者能力有限,所以在有些阐述上可能有些问题,还请谅解。

源码获取,关注“陶陶name”,回复“微博评论”即可无套路获取?!
欢迎大家都动手实践!!!!

文章来源:https://blog.csdn.net/public669/article/details/135258986
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。