分享好友 最新资讯首页 最新资讯分类 切换频道
小红书评论爬虫
2025-02-03 15:35

任意打开一个小红书笔记的评论,打开浏览器的开发者模式(F12,选择网络,Fetch/XHR,找到目标链接的预览数据,经过我的实际测试,请求头包含User-Agent和Cookie这两项,即可实现爬取。其中,Cookie很关键,需要定期更换。那么Cookie从哪里获得呢?方法如下

图2 小红书网页分析

从上图我们即可得到该网页的URL和Cookie,那么接下来即可对其评论进行分析,查找如何可以爬取一级后的评论。下面,开发翻页逻辑。

由于我并不知道一共有多少页,往下翻多少次,所以采用while循环,直到触发终止条件,循环才结束。那么怎么定义终止条件呢?我注意到,在返回数据里有一个叫做"has_more"的参数,大胆猜测它的含义,是否有更多数据,正常情况它的值是true。如果它的值是false,代表没有更多数据了,即到达最后一页了,也就该终止循环了。

另外,还有一个关键问题,如何进行翻页操作,实现对所有评论的爬取。

图3 cursor分析

这里的游标,就是向下翻页的依据,因为每次请求的返回数据中,也有一个cursor,大胆猜测,返回数据中的cursor,就是给下一页请求用的cursor,如下图4。

图4 下一页请求cursor分析

经过分析,返回数据中有个节点sub_comment_count代表子评论数量,如果大于0代表该评论有子评论,进而可以从sub_comments节点中爬取二级评论。其中,二级展开评论,请求参数中的root_comment_id代表父评论的id,其他逻辑同理,不再赘述。

导入项目所需依赖包。

 

2.1 Cookie和id的提取

根据浏览器前端内容,定义所需的变量,包括User-Agent和Content-Type、Cookie、Referer

Red_Booklet_id 以及host 。

 

2.2 文件命名及保存

定义函数将给定的毫秒时间戳转换为指定格式的时间字符串,使用time模块的localtime和strftime函数来实现,localtime函数将毫秒时间戳转换为本地时间,然后使用strftime函数将时间按照指定格式转换为字符串。默认格式为"%Y-%m-%d %H:%M:%S",可以使用其他格式,最后将转换后的时间字符串返回,用于我们对创建csv文件进行时间命名。

 

定义函数将给定的数据列表写入到一个CSV文件中,使用Python内置的csv模块来创建一个writer对象,并将数据逐行写入文件,函数使用“a”模式打开文件,表示追加模式,如果文件不存在则创建,函数通过迭代给定的数据列表,并将每个子列表作为一行写入文件。

2.3 获取二级评论

创建一个用于获取指定笔记的二级评论的函数,函数的参数包括笔记ID、页码、根评论ID和游标,函数通过调用HTTP GET请求获取二级评论的数据,并解析返回的JSON响应,然后,它会将每个二级评论的相关信息提取出来,并存储在一个列表中。最后,它将列表保存到CSV文件中。如果数据中没有更多二级评论了,则函数返回,否则,函数会更新游标,并递归调用自身以获取下一页的二级评论,如果在获取二级评论的过程中出现异常,函数会打印异常信息。

 
 
  

2.4 获取评论

下面函数,用于获取指定note_id的评论数据,函数通过调用API请求,获取一页一页的评论数据,并将每页的评论数据存储到CSV文件中。

 
  

2.5 保存评论

我们利用上述函数对小红书网页笔记进行爬取评论,然后讲爬取的数据保存到以当前时间命名的csv文件中,具体如下

 
  

经过上述操作,我们即可对特定小红书笔记中的评论内容进行爬取。

 

参考文件

Python爬虫实战:爬取小红书去水印图片_小红书爬虫-CSDN博客

最新文章
娱乐圈带球上台唱跳第一人,怀孕9个月的她为博出位也是拼了...
不知道是自己疯了还是这个世界癫了,有生之年竟然能看到真·孕妇混入爱豆圈了...前段时间上网冲浪的时候,看到某女团成员竟然挺
2024年1-12月南京房地产销售业绩TOP20
➤政策解读2025全国住建工作怎么干?住建部明确五大重点任务!https://www.cih-index.com/report/detail/90452.html中央经济工作
万丽星舰GeForce RTX 5090D OC 32G评测:拥抱DLSS 4感受AI的速度与激情
随着英伟达在CES 2025发布Blackwell架构游戏GPU,Manli万丽作为其中国区合作伙伴之一,精心打造并推出了涵盖四大系列的全新GeFor
校园动态!萧师附小、黄口镇第一小学
报告会上,李鹏以岳母刺字、钱伟长弃文从理等故事为切入点,向同学们讲述了“爱党报国”的深刻内涵。在诚信教育环节,以季布“一
最全!湖南永顺三天两晚深度游攻略 | 带你玩转永顺秘境!
Day1:首站前往网红打卡地芙蓉镇景区,夜宿芙蓉镇。行程1:挂在瀑布上的千年古镇——芙蓉镇芙蓉镇 ,原名王村,是一个具有两千多
郴州郴阳融圆附近购房政策2025最新解析:必看省钱攻略与避坑秘籍,真实情况到底如何?
实施购房补贴政策。在五、夏季和冬季房交会等重要时间节点,对在郴州市中心城区购买新建商品住宅的,按实际所缴纳契税额的50%给
比特币跌至9.1万美元,KOL们各显神通,后市怎么看?
今天,比特币短时跌破89,000美元,最低下探到88,200美元,以太坊和SOL也分别跌破2400美元和135美元,甚至在暴跌的1小时内,全网
北京19号线二期北延段明年底计划开工,预计2029年底开通
北京轨道交通三期规划中的一条重要线路有了新消息。10月21日,北京轨道交通19号线二期工程(北延及北延支线)启动了二次环评公示
“读一年成本近百万”:留学美国的价格与价值
2025年春天,梁寒伊收到了梦校专业的录取通知书——它来自哥伦比亚大学东亚研究系。“总共申了11所,10所美国,1所英国。”梁寒
网信部门依法查处UC平台破坏网络生态案件
DoNews9月23日消息,据网信中国消息,近日,针对UC平台未落实信息内容管理主体责任,在热搜榜单主榜扎堆呈现极端敏感恶性案事件