• 大小: 1.53M
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2020-12-25
  • 语言: C#
  • 标签: C#  网络  c  

资源简介

测试了下:抓取单页没事,批量抓取暂时没发现在哪里。。。

网络爬虫程序源码

这是一款用 C# 编写的网络爬虫
主要特性有: 
可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。

今后有空可能加入的特性:
新特性 介绍 
爬取文件用Berkeley DB存储 提高性能: 常用操作系统不善于处理大量小文件 
基于URL Ranking的优先级队列 主题爬虫: 机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取 
爬虫礼仪 遵循爬虫禁止协议、以及避免对服务器资源的过度使用等 
性能优化 用UDP取代封装好的HttpWebRequest/Response
DNS缓存
异步的DNS地址解析
硬盘缓存或内存数据库以避免频繁的磁盘寻道
分布式爬虫以扩展单机能力(CPU、内存和硬盘访问) 


           

资源截图

代码片段和文件信息

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using NWebCrawlerLib;
using System.Diagnostics;

// 源码下载 www.51aspx.com 
namespace NWebCrawler
{
    public partial class MainForm : Form
    {
        #region Fields

        private PerformanceCounter m_cpuCounter;
        private PerformanceCounter m_ramCounter;
        private Downloader m_downloader;

        #endregion

        #region Properties

        // number of bytes downloaded
        private int nByteCount;
        private int ByteCount
        {
            get { return nByteCount; }
            set
            {
                nByteCount = value;
           

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        162  2010-01-05 10:27  win_NWebCrawler\bin\config.ini

     文件      36654  2010-01-05 10:40  win_NWebCrawler\bin\download\0003be8238c8302e17c799d9f5d65876.gif

     文件      73958  2010-01-05 10:40  win_NWebCrawler\bin\download\0718ad68487fa12de0cc75b20f7be03c.html; charset=utf-8

     文件      48666  2010-01-05 10:40  win_NWebCrawler\bin\download\082e9d970f371da4f6e74dbe2c97f6e2.html; charset=utf-8

     文件        317  2010-01-05 10:41  win_NWebCrawler\bin\download\132949602460dfebc35da092329cba0c.gif

     文件       4334  2010-01-05 10:47  win_NWebCrawler\bin\download\1695505243ceaa9c68e5a00061d1763f.javascript

     文件      15297  2010-01-05 10:40  win_NWebCrawler\bin\download\1df7133090a0d07c5cec8fccbf6fd8dd.html; charset=utf-8

     文件        164  2010-01-05 10:40  win_NWebCrawler\bin\download\203557adfb69f0b4da4e237df2c0899a.html; charset=gb2312

     文件      14650  2010-01-05 10:40  win_NWebCrawler\bin\download\23e5f50b0b42662c6694e574e74835cd.html; charset=utf-8

     文件      63579  2010-01-05 10:41  win_NWebCrawler\bin\download\24eebf7019dc355f064372d6a889c60a.html; charset=gb2312

     文件      54471  2010-01-05 10:41  win_NWebCrawler\bin\download\27439efce81b9ca84182d54aa411418e.html; charset=gb2312

     文件      36711  2010-01-05 10:40  win_NWebCrawler\bin\download\2a2f02ca86459cde185fc8e8e9045bed.html; charset=utf-8

     文件        287  2010-01-05 10:40  win_NWebCrawler\bin\download\349427e49e96cbca35651e55ef94353d.gif

     文件     108468  2010-01-05 10:40  win_NWebCrawler\bin\download\3891570720e771c847e5ac23e28aa6cc.html

     文件        322  2010-01-05 10:41  win_NWebCrawler\bin\download\3ff2932f670fc24203b1290df195dabf.gif

     文件         10  2010-01-05 10:46  win_NWebCrawler\bin\download\417d9e708c95da24b75705338598087f.html

     文件      47067  2010-01-05 10:41  win_NWebCrawler\bin\download\44b19dec343bee7540d2e563399518f6.html; charset=gb2312

     文件      22221  2010-01-05 10:40  win_NWebCrawler\bin\download\46e1c646c9965ce2581be0e2baa182cf.html; charset=utf-8

     文件       4962  2010-01-05 10:46  win_NWebCrawler\bin\download\48bfe5c4818bc6d7d0a86b7c5d5a963a.javascript

     文件      11484  2010-01-05 10:46  win_NWebCrawler\bin\download\4cef95f512517e118d0427cdf40d8d91.javascript

     文件      48471  2010-01-05 10:40  win_NWebCrawler\bin\download\54cd270476c08dc49137cc587d5420e7.html; charset=utf-8

     文件        305  2010-01-05 10:40  win_NWebCrawler\bin\download\5ae7c8b442091b3c740b5f89f2202977.gif

     文件      46870  2010-01-05 10:41  win_NWebCrawler\bin\download\5f194c03340af2c82af0806b4cd95f44.html; charset=gb2312

     文件      39917  2010-01-05 10:46  win_NWebCrawler\bin\download\6a78a05748d064e4491b674a391174c7.javascript

     文件      74477  2010-01-05 10:40  win_NWebCrawler\bin\download\6ba086f85f3602a364dae60f740138c5.html; charset=gb2312

     文件      93739  2010-01-05 10:29  win_NWebCrawler\bin\download\73e9259e079ac68519bd2cf67af06c13.html; charset=utf-8

     文件       1570  2010-01-05 10:46  win_NWebCrawler\bin\download\753a67d9417f20f83e1dce17d6146f85.gif

     文件       3440  2010-01-05 10:40  win_NWebCrawler\bin\download\767223508f1bd57304d84720065f9ee8.x-javascript

     文件     103862  2010-01-05 10:41  win_NWebCrawler\bin\download\7780c2d0134fad8b7a05a95d0f7b3378.html; charset=gb2312

     文件        205  2010-01-05 10:47  win_NWebCrawler\bin\download\7a6721fd05029de13a9df0e2a0948f25.html; charset=UTF-8

............此处省略250个文件信息

评论

共有 条评论