• 大小: 14.67MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-07-26
  • 语言: 其他
  • 标签:

资源简介

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.

资源截图

代码片段和文件信息

package com.gs.spider.controller;

import com.gs.spider.model.async.State;
import com.gs.spider.model.async.Task;
import com.gs.spider.model.utils.ResultBundle;
import com.gs.spider.model.utils.ResultListBundle;
import com.gs.spider.service.AsyncGatherService;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.ResponseBody;

import java.io.IOException;

/**
 * AsyncGatherbaseController
 * 异步抓取器的Controller
 *
 * @author Gao Shen
 * @version 16/2/23
 */
public class AsyncGatherbaseController extends baseController {
    private AsyncGatherService asyncGatherService;
    private Logger LOG = LogManager.getLogger(AsyncGatherbaseController.class);

    public AsyncGatherbaseController(AsyncGatherService asyncGatherService) {
        this.asyncGatherService = asyncGatherService;
    }

    /**
     * 列出所有任务
     *
     * @return 0表示正在进行 1表示已经完成
     * @throws IOException
     */
    @RequestMapping(value = “listTasks“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultListBundle listTasks(@RequestParam(value = “containsExtraInfo“ required = false defaultValue = “false“) boolean containsExtraInfo) throws IOException {
        return asyncGatherService.getTaskList(containsExtraInfo);
    }

    /**
     * 根据id获取task
     *
     * @param taskId
     * @return
     * @throws IOException
     */
    @RequestMapping(value = “getTaskById“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle getTaskById(String taskId @RequestParam(value = “containsExtraInfo“ required = false defaultValue = “true“) boolean containsExtraInfo) throws IOException {
        return asyncGatherService.getTaskById(taskId containsExtraInfo);
    }

    /**
     * 获取异步抓取长连接服务器端口号
     *
     * @return
     */
    @RequestMapping(value = “getLongConnectionPort“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle getLongConnectionPort() throws IOException {
        return asyncGatherService.getLongConnectionPort();
    }

    /**
     * 获取当前task已经抓取的文章数
     *
     * @param taskId
     * @return
     * @throws IOException
     */
    @RequestMapping(value = “getTaskCount“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle getTaskCount(String taskId) throws IOException {
        return asyncGatherService.getTaskCount(taskId);
    }

    /**
     * 根据taskId删除任务
     *
     * @param taskId 任务ID
     * @return 成功返回OK!
     */
    @RequestMapping(value = “deleteTaskById“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle deleteTaskById(String taskId

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85\
     文件          24  2017-05-16 11:12  gsh199449-spider-a5f9f85\.gitignore
     文件          34  2017-05-16 11:12  gsh199449-spider-a5f9f85\.travis.yml
     文件       35141  2017-05-16 11:12  gsh199449-spider-a5f9f85\LICENSE
     文件        1674  2017-05-16 11:12  gsh199449-spider-a5f9f85\README.md
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85\ajaxDownloader\
     文件        8662  2017-05-16 11:12  gsh199449-spider-a5f9f85\ajaxDownloader\phantomjs_fetcher.js
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\
     文件       12203  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\README-en.md
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\
     文件      192097  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\domainList.png
     文件       30399  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\dynamic.png
     文件      209349  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\editSpiderInfo.png
     文件       57069  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\home.png
     文件       80330  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\need.png
     文件      273752  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\search.png
     文件    15576616  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\show.gif
     文件       64154  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\showRelatedInfo.png
     文件      226173  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\showWebpageById.png
     文件      184284  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\spiderList.png
     文件       99702  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\spiderinfo.png
     文件      348633  2017-05-16 11:12  gsh199449-spider-a5f9f85\doc\imgs\testSpiderinfo.png
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\
     文件         921  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\README.md
     文件        1239  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\news.163.com.json
     文件        1142  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\news.qq.com.json
     文件        1181  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\news.qq.com_time_autodetect.json
     文件        1270  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\news.sohu.com.json
     文件        8404  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\phantomjs_fetcher.js
     文件        1205  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\www.chinanews.com.json
     文件        1273  2017-05-16 11:12  gsh199449-spider-a5f9f85\examples\www.oschina.net.json
............此处省略130个文件信息

评论

共有 条评论

相关资源