• 大小: 359KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-05-23
  • 语言: Java
  • 标签: jsoup  java  

资源简介

基于jsoup解析网页获取图片链接并下载的例子,关于下载部分有详细注释,其余地方也有方法注释,若是想用Java做爬虫初学的话,可以看看,忘有用。(附源码,pom文件,和jsoup的jar包)免去你再找了

资源截图

代码片段和文件信息

package com.img.p;

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.List;

public class Download {
  public void downloadList(String pathList list) {
    try {
      for (ImgPojo imgPojo : list) downloadLocal(pathimgPojo.getId() imgPojo.getSrc());
    } catch (Exception e) {
      e.printStackTrace();
    }
  }

  public void downloadLocal(String pathString name String imgUrl) throws Exception {
    // new一个URL对象
    URL url = new URL(imgUrl);
    // 打开链接
    HttpURLConnection conn = (HttpURLConnection) url.openConnection();
    // 设置请求方式为“GET“
    conn.setRequestMethod(“GET“);
    // 超时响应时间为5秒
    conn.setConnectTimeout(5 * 1000);
    // 通过输入流获取图片数据
    InputStream inStream = conn.getInputStream();
    // 得到图片的二进制数据,以二进制封装得到数据,具有通用性
    byte[] data = readInputStream(inStream);
    // new一个文件对象用来保存图片,默认保存当前工程根目录
    File imageFile = new File(path+“\\id=“+name+“.jpg“);
    // 创建输出流
    FileOutputStream outStream = new FileOutputStream(imageFile);
    // 写入数据
    outStream.write(data);
    // 关闭输出流
    outStream.close();
    System.out.println(name+“下载ok“);
  }

  public byte[] readInputStream(InputStream inStream) throws Exception {
    ByteArrayOutputStream outStream = new ByteArrayOutputStream();
    // 创建一个Buffer字符串
    byte[] buffer = new byte[1024];
    // 每次读取的字符串长度,如果为-1,代表全部读取完毕
    int len = 0;
    // 使用一个输入流从buffer里把数据读取出来
    while ((len = inStream.read(buffer)) != -1) {
      // 用输出流往buffer里写入数据,中间参数代表从哪个位置开始读,len代表读取的长度
      outStream.write(buffer 0 len);
    }
    // 关闭输入流
    inStream.close();
    // 把outStream里的数据写入内存
    return outStream.toByteArray();
  }
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       2211  2018-11-03 18:30  爬虫(p站图片)\Download.java

     文件       5081  2018-11-04 13:58  爬虫(p站图片)\FromP.java

     文件        671  2018-11-04 13:58  爬虫(p站图片)\ImgPojo.java

     文件     395748  2018-11-04 17:00  爬虫(p站图片)\jsoup-1.11.3.jar

     文件        254  2018-11-04 17:01  爬虫(p站图片)\jsoup_pom.txt

     文件       3006  2018-11-04 14:43  爬虫(p站图片)\Myframe.java

     文件        202  2018-11-04 17:06  爬虫(p站图片)\需知.txt

     目录          0  2018-11-04 17:01  爬虫(p站图片)

----------- ---------  ---------- -----  ----

               407173                    8


评论

共有 条评论