• 大小: 3KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-06-03
  • 语言: Python
  • 标签: python  

资源简介

爬取京东评论文本,一个商品只能获取1000条评论。很简单的代码,仅供参考。使用爬虫请遵守爬虫协议

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

import requests
import json
import re
import time

target = requests.get(‘http://5555yxy.xyz‘)
urltarget = ‘http://5555yxy.xyz‘


def commentpage_get(url):
    global target

    headers_ = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/68.0.3440.106 Safari/537.36‘
    }
    r = requests.get(url headers=headers_)
    r.encoding = ‘gbk‘
    data = r.text
    data.encode(‘utf-8‘)
    data = data[27:-2]
    target = data
    # data = re.match(r“^.*?(\{.*\})\)\s*$“ data)
    return data


def get_comment(product_id page_size comment_num sort_type):
    if (page_size != 1):
        page_num = int(comment_num) / int(page_size) + 1
        page_num = int(page_num)
        i = int(comment_num) % int(page_size)
    else:
        page_num = comment_num + 1
        i = 0

    url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv15688&productId=‘ + \
        str(product_id)+‘&score=0&sortType=‘+str(sort_type)+‘&page=‘ + \
        str(page_num)+‘&pageSize=‘+str(page_size)+‘&isShadowSku=0&fold=1‘
    print(url)
    global target
    global urltarget
    if (urltarget == url):
        data = target
        flag = 1
    else:
        data = commentpage_get(url)
        urltarget = url
    

评论

共有 条评论