• 大小: 1.69KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: 爬虫  python  

资源简介

可以爬取完整的豆瓣影评,不需登录

资源截图

代码片段和文件信息

import requestsretime

def get_html(sessiontarget):
   
    response = session.get(targetheaders = head)
    response.encoding = “utf-8“
    return response.text

def get_data(html):
    
    comment = re.findall(comment_patternhtml)   #提取评论
    next_page = re.findall(next_patternhtml)    #获取下一页

    return commentnext_page


def sort_data(infof):
    f = open(‘F:/douban.txt‘‘a+‘encoding = ‘utf-8‘)
    comment = info[0]
    for n in range(len(comment)):
        f.write(comment[n].strip() + ‘\n\n‘)
    f.close()


def main(): 
    session = requests.Session()
    f = open(‘F:/douban.txt‘‘a+‘encoding = ‘utf-8‘)
    target = first_url
    i = 0
    while True:
        html = get_html(sessiontarget)
        
        info = get_data(html)
        #p

评论

共有 条评论