资源简介

 Jsoup与HtmlUnit爬虫引擎  如何爬取某网站的图片地址信息

资源截图

代码片段和文件信息

package com.jyall.jygoods.service.crawler;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.ApplicationContext;
import org.springframework.context.annotation.ComponentScan;

import com.jyall.jygoods.service.crawler.threadpool.ThreadPoolManager;

@SpringBootApplication
@ComponentScan(basePackages = {“com.jyall“})
public class StartCrawler {

public static void main(String[] args) {
ApplicationContext applicationContext = SpringApplication.run(StartCrawler.class args);
ThreadPoolManager threadPoolManager = applicationContext.getBean(“threadPoolManager“ ThreadPoolManager.class);
threadPoolManager.execute();
}

}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        781  2017-02-21 10:39  jycrawler\.classpath

     文件         24  2016-11-03 10:00  jycrawler\.git\COMMIT_EDITMSG

     文件        282  2016-11-03 09:53  jycrawler\.git\config

     文件         23  2016-11-03 09:46  jycrawler\.git\HEAD

     文件       3056  2016-11-03 10:00  jycrawler\.git\index

     文件        345  2016-11-03 10:00  jycrawler\.git\logs\HEAD

     文件        345  2016-11-03 10:00  jycrawler\.git\logs\refs\heads\master

     文件        151  2016-11-03 10:00  jycrawler\.git\logs\refs\remotes\origin\master

     文件         87  2016-11-03 10:00  jycrawler\.git\objects\03\62e36c91cf378712af68a7f864f2e6ed567cc9

     文件        379  2016-11-03 09:51  jycrawler\.git\objects\09\dd9ae3f70a70e6e391126fd3bdd58256470600

     文件         46  2016-11-03 09:52  jycrawler\.git\objects\0c\938bbc01b39a3a72f2053535a877d96f08a029

     文件       1003  2016-11-03 09:52  jycrawler\.git\objects\13\739938ebadce9775ce3b42e0d850d48a39b4dc

     文件        586  2016-11-03 09:52  jycrawler\.git\objects\19\1a1c5c72c247c97f8c8e0eee4412e041479b29

     文件        334  2016-11-03 09:51  jycrawler\.git\objects\1b\01606ba2b2dda63fb601d07d7ca5fe91ccc326

     文件        126  2016-11-03 09:51  jycrawler\.git\objects\1c\92c482253432c8518bb967ced0aece0bfbf432

     文件         50  2016-11-03 09:52  jycrawler\.git\objects\22\2c8eec766a087f301d147508ee7ab6f88285b4

     文件        176  2016-11-03 09:52  jycrawler\.git\objects\26\9323d1a4f8c86e8c4b23184a200d61b12e455c

     文件        821  2016-11-03 09:52  jycrawler\.git\objects\28\2f750d459d252006f7d581e4d145bfa7a9ee12

     文件        271  2016-11-03 09:52  jycrawler\.git\objects\2a\87c7534d8e8dea71bfdeff413ecc0e02c73930

     文件        167  2016-11-03 10:00  jycrawler\.git\objects\3c\97b2c8db060fede47b307ecbd2ecd950137554

     文件        539  2016-11-03 09:50  jycrawler\.git\objects\3d\28abff577c5236bea4911427d42f22b7e22aa0

     文件        545  2016-11-03 09:52  jycrawler\.git\objects\49\1c32e6170fd48d11f864e09bb16c58d7a9abf8

     文件        355  2016-11-03 09:51  jycrawler\.git\objects\4a\721f1514cc8895a590ab7240914a3d34a6f167

     文件        420  2016-11-03 09:51  jycrawler\.git\objects\4f\d6a269b2ac4d22f51eeb594dcf78db3bd8e26e

     文件         87  2016-11-03 09:52  jycrawler\.git\objects\51\6b565979b305b79ffa9375d206bcb1e96da553

     文件        186  2016-11-03 09:52  jycrawler\.git\objects\54\04e038d2490eb7a30ae314374f6fd5e668e007

     文件         79  2016-11-03 09:52  jycrawler\.git\objects\59\93f44c109be04b5f70efafd382164e98570cea

     文件         67  2016-11-03 09:52  jycrawler\.git\objects\60\41f4aa0afe0ce8053833b30c4079bc154feb74

     文件         49  2016-11-03 09:52  jycrawler\.git\objects\6e\46db08fdf9bb2ebc64cce3069378b2deeeaf7b

     文件        132  2016-11-03 09:52  jycrawler\.git\objects\6f\348317fd5d4be8293cfb72e60763624179f9b5

............此处省略263个文件信息

评论

共有 条评论