资源简介

给定微博id和爬取评论数量,爬取对应微博的评论,便于下一步的分词和词频统计

资源截图

代码片段和文件信息

# 这里是完整代码!!!!!!
# 完整爬取微博评论程序,只需要修改微博id即可
import requests
import json
import re
#爬取微博评论写入weibo_comment.txt
def get_comment(weibo_id url headers number):
    count = 0
    fp = open(“weibo_comment_“+str(weibo_id)+“.txt“ “a“ encoding=“utf8“)
    #判断爬取数目是否足够
    while count        #判断是否是第一组,第一组不加max_id
        if count == 0:
            print(‘是第一组‘)
            try:
                url = url + weibo_id + ‘&mid=‘ + weibo_id +‘&max_id_type=0‘
                web_data = requests.get(url headers = headers)
                js_con = web_data.json()
                #获取连接下一页评论的max_id
                max_id = js_con[‘data‘][‘max_id‘]
                print(max_id)
                comments_list = js_con[‘data‘][‘data‘]
                for commment_item in comments_list:
                    comment = commment_item[“text“]
                    #删除表情符号
                    label_filter = re.compile(r‘]*>‘ re.S)
                    comment = re.sub(label_filter ‘‘ comment)
                    fp.write(comment)
                    count += 1
                    print(“已获取“+str(count)+“条评论。“)
            except Exception as e:
                print(str(count) + “遇到异常“)
                continue
       

评论

共有 条评论