资源简介

一个最简单的htmlcleaner扒网页内容,demo中以58种的一个页面为例,xpath请通过chrome浏览器控制台选中需要的内容后右击选择复制xpath 不喜勿喷,资源免费下载

资源截图

代码片段和文件信息

package com.space;

import java.net.URL;

import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;

public class HtmlCleanerDemo
{

public static void main(String[] args) throws Exception
{
try
{
HtmlCleaner cleaner = new HtmlCleaner();
URL url = new URL(
“http://haikou.58.com/baomu/23058539091978x.shtml?adtype=1&entinfo=23058539091978_0&adact=3&psid=118324118190869277073175706“);
// URL url = new URL(“http://haikou.58.com/baomu/21632367579150x.shtml?adtype=1&entinfo=21632367579150_0&adact=3&psid=101062395190937233949225183“);
// URL url = new URL(“http://www.hizw.gov.cn/data/news/2016/02/57095“);
TagNode node = cleaner.clean(url “utf-8“);
object[] tagNodes = node.evaluateXPath(“//*[@id=‘sub_1‘]/div“); // 找到

标签中id为nv的

标签


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件     107947  2012-10-08 15:25  htmlcleaner2.2\htmlcleaner-2.2.jar

     文件        383  2016-06-27 11:06  Test\.classpath

     文件        380  2016-06-27 11:03  Test\.project

     文件        598  2016-06-27 11:03  Test\.settings\org.eclipse.jdt.core.prefs

     文件       2391  2016-06-27 15:55  Test\bin\com\space\HtmlCleanerDemo.class

     文件       2652  2016-06-27 16:00  Test\src\com\space\HtmlCleanerDemo.java

     目录          0  2016-06-27 16:00  Test\bin\com\space

     目录          0  2016-06-27 16:01  Test\src\com\space

     目录          0  2016-06-27 16:00  Test\bin\com

     目录          0  2016-06-27 16:00  Test\src\com

     目录          0  2016-06-27 16:00  Test\.settings

     目录          0  2016-06-27 16:00  Test\bin

     目录          0  2016-06-27 16:00  Test\src

     目录          0  2016-06-27 16:00  htmlcleaner2.2

     目录          0  2016-06-27 16:00  Test

----------- ---------  ---------- -----  ----

               114351                    15


评论

共有 条评论