• 大小: 0.11M
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2020-12-26
  • 语言: C#
  • 标签: HtmlParser  采集  

资源简介

主要实现了通过HtmlParser 实现网页源文件的抓取以及分析,示例中包含了常用的几种操作,更多内容须大家一起完善,虽然本项目是用winform编写,但是其中的代码可以直接copy到web项目中 使用(已做过测试)。

asp.net采集网分析网页用它即可。

另注:需要添加这些引用(项目文件中已包含Winista.HtmlParser.dll的引用)

 

using Winista.Text.HtmlParser;
using Winista.Text.HtmlParser.Filters;
using Winista.Text.HtmlParser.Util;
using Winista.Text.HtmlParser.Tags;


资源截图

代码片段和文件信息

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using Winista.Text.HtmlParser;
using Winista.Text.HtmlParser.Filters;
using Winista.Text.HtmlParser.Util;
using Winista.Text.HtmlParser.Tags;
using System.Net;
using System.IO;

using System.Web;
using System.IO.Compression;
namespace HtmlParserDemo
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }

        private void button1_Click(object sender EventArgs e)
        {
            string strHTML = GetUrl(this.textBox1.Text);
            this.textBox2.Text = ““;
            //this.textBox2.Text = strHTML;

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2013-06-14 00:38  HtmlParserDemo\
     文件         932  2012-12-14 15:11  HtmlParserDemo.sln
     目录           0  2014-12-10 15:35  HtmlParserDemo\bin\
     文件        5703  2012-12-14 15:11  HtmlParserDemo\Form1.cs
     文件        5513  2012-12-14 15:06  HtmlParserDemo\Form1.Designer.cs
     文件        5817  2012-12-14 15:06  HtmlParserDemo\Form1.resx
     文件        4097  2012-12-14 11:47  HtmlParserDemo\HtmlParserDemo.csproj
     目录           0  2013-06-14 00:38  HtmlParserDemo\obj\
     目录           0  2013-06-14 00:38  HtmlParserDemo\obj\Debug\
     文件        1451  2012-12-14 11:36  HtmlParserDemo\obj\Debug\DesignTimeResolveAssemblyReferences.cache
     文件        7100  2012-12-14 11:46  HtmlParserDemo\obj\Debug\DesignTimeResolveAssemblyReferencesInput.cache
     文件         701  2012-12-14 15:22  HtmlParserDemo\obj\Debug\HtmlParserDemo.csproj.FileListAbsolute.txt
     文件         975  2012-12-14 15:11  HtmlParserDemo\obj\Debug\HtmlParserDemo.csproj.GenerateResource.Cache
     文件       12288  2012-12-14 15:11  HtmlParserDemo\obj\Debug\HtmlParserDemo.exe
     文件         180  2012-12-14 15:11  HtmlParserDemo\obj\Debug\HtmlParserDemo.Form1.resources
     文件       24064  2012-12-14 15:11  HtmlParserDemo\obj\Debug\HtmlParserDemo.pdb
     文件         180  2012-12-14 15:11  HtmlParserDemo\obj\Debug\HtmlParserDemo.Properties.Resources.resources
     目录           0  2012-12-14 10:52  HtmlParserDemo\obj\Debug\TempPE\
     目录           0  2013-06-14 00:38  HtmlParserDemo\obj\Release\
     文件        7104  2012-12-14 12:18  HtmlParserDemo\obj\Release\DesignTimeResolveAssemblyReferencesInput.cache
     文件         831  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.csproj.FileListAbsolute.txt
     文件         975  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.csproj.GenerateResource.Cache
     文件        9463  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.csprojResolveAssemblyReference.cache
     文件       11264  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.exe
     文件         180  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.Form1.resources
     文件       22016  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.pdb
     文件         180  2012-12-14 13:56  HtmlParserDemo\obj\Release\HtmlParserDemo.Properties.Resources.resources
     目录           0  2012-12-14 12:18  HtmlParserDemo\obj\Release\TempPE\
     文件         495  2012-12-14 10:52  HtmlParserDemo\Program.cs
     目录           0  2013-06-14 00:38  HtmlParserDemo\Properties\
     文件        1366  2012-12-14 10:52  HtmlParserDemo\Properties\AssemblyInfo.cs
............此处省略6个文件信息

评论

共有 条评论