• 大小: 4KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-05-09
  • 语言: 其他
  • 标签: 爬取  

资源简介

爬取商品详情。

资源截图

代码片段和文件信息

import org.apache.commons.lang3.StringUtils;
import net.sf.json.JSONobject;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URLEncoder;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * Created with Chenquan.
 * Description: 淘宝抓包
 * Date: 2018-12-13
 * Time: 15:12
 */
public class test {

    public static void main(String[] args) {
        int i = 0;
        //填写商品详情网站
        String substring = getParamByUrl(“https://detail.tmall.com/item.htm?spm=a1z10.10550-b.193.11.43c44d028KCTcr&id=580863947060““id“);
            getAll(substring);
    }

    public static void getAll(String item_id ) {
        try {
            Thread.sleep(2000);//一个休息5s,太快会被禁
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        System.out.println(“开始时间:“ + new Date());
        Date dateStart = new Date();
        Document doc = null;
        String id = ““;
        try {
            String url = “https://item.taobao.com/item.htm?id=“+item_id;
            id = getParamByUrl(url “id“);
            doc = Jsoup.connect(url).ignoreContentType(true).get();
        } catch (IOException e) {
            e.printStackTrace();
        }
        if (doc.baseUri().contains(“tmall“)) {
            System.out.println(“商品名称:“+ doc.select(“h1[data-spm=\“1000983\“]“).text());
        }else {
            System.out.println(“商品名称:“ + doc.select(“h3[class=\“tb-main-title\“]“).text());
        }
        Elements imgSrcElement = doc.select(“#J_UlThumb > li“);
        for (Element element : imgSrcElement) {
            String imgSrc = ““;
            if (element.baseUri().contains(“tmall“)){
                imgSrc = element.getElementsByTag(“img“).attr(“src“);
            }else{
                imgSrc = element.getElementsByTag(“img“).attr(“data-src“);
            }
          //  imgSrc = imgSrc.replaceFirst(“//img.alicdn.com/imgextra/“ ““);
            //imgSrc = imgSrc.substring(0 imgSrc.length() - 10);
            imgSrc = imgSrc.replaceAll(“_60x60q90.jpg“““); //处理掉不必要的数据
            //String substring = imgSrc.substring(imgSrc.indexOf(“_60“) + 3 imgSrc.lastIndexOf(“.jpg“));
            //String substring = imgSrc.substring(0 imgSrc.lastIndexOf(“.jpg“));
            //String substring = imgSrc.substring(0 imgSrc.lastIndexOf(“jpg_“));
            System.out.println(“主图url:“ + imgSrc);

        }


        // 规格参数
        Elements selectRules = doc.select(“.J_TSaleProp“);
        List> liHashMap = new ArrayList<>();
        for (Element ulElement : selectRules) {
            String ul = ulElement.getElementsByTag(“ul“).attr(“data-property“);
            System.out.println(“ul:“ + ul);

            List liString = new ArrayList<>();

            for (Element liElement : ulElement.getElem

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件       14383  2019-01-14 09:19  淘宝天猫商品详情获取\test.java
     文件        2254  2019-01-11 14:48  淘宝天猫商品详情获取\test1.java
     目录           0  2019-01-14 09:20  淘宝天猫商品详情获取\

评论

共有 条评论