使用C#+XPath+HtmlAgilityPack轻松搞一个资源下载器

使用C#+XPath+HtmlAgilityPack轻松搞一个资源下载器2019-01-18 17:06 by 张子浩, ... 阅读, ... 评论, 收藏,编辑HtmlAgilityPack简介HtmlAgilityPack是一个开源的解析HTML元素的类库，最大的特点是可以通过XPath来解析HMTL，如果您以前...

qq_39110534

437人浏览 · 2019-01-18 17:06:00

qq_39110534 · 2019-01-18 17:06:00 发布

使用C#+XPath+HtmlAgilityPack轻松搞一个资源下载器

2019-01-18 17:06 by 张子浩, ... 阅读, ... 评论, 收藏, 编辑

HtmlAgilityPack简介

HtmlAgilityPack是一个开源的解析HTML元素的类库，最大的特点是可以通过XPath来解析HMTL，如果您以前用C#操作过XML，那么使用起HtmlAgilityPack也会得心应手。目前版本更新的是非常的快，最新更新时间还是19年的呢！

XPath介绍

XPath即为XML路径语言，它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。

具体代码

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using System.IO;
using System.Net;

namespace DataGridViewDemo
{
    public class HttpHelper
    {
        static readonly string urlTemplate = "http://yun.java1234.com/search?page={0}&q={1}";
        public static List<BDWPResource> Request(string key, string start)
        {
            string url = string.Format(urlTemplate, key, start);
            HttpWebRequest httpRequest = (HttpWebRequest)WebRequest.Create(url);
            httpRequest.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8";
            httpRequest.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36";
            try
            {
                HtmlWeb webClient = new HtmlWeb();
                HtmlDocument doc = webClient.Load(url);
                if (doc != null)
                {
                    //加载文档对象
                    {
                        var content = doc.DocumentNode.SelectSingleNode("/html/body/div[2]/div[3]/div/div/div[2]/ul");
                        if (content != null)
                        {
                            List<BDWPResource> list = new List<BDWPResource>();
                            var targetLi = content.SelectNodes(@"li");
                            foreach (var item in targetLi)
                            {
                                list.Add(new BDWPResource()
                                {
                                    title = item.SelectSingleNode("span[1]/a").InnerText,
                                    unescapedUrl = "http://yun.java1234.com/" + item.SelectSingleNode("span[1]/a").Attributes["href"].Value.Trim(),
                                    content = item.SelectSingleNode("span[2]").InnerText.Trim()
                                });
                            }
                            return list;
                        }
                    }
                    return null;
                }
                else
                {
                    return null;
                }
            }
            catch
            {
                return null;
            }
        }
    }
}

效果图

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

第二届openEuler生态大会（中国·湖南）成功举办

10月30日，第二届openEuler生态大会（中国·湖南）成功举办。

开放原子开发者工作坊

“小满”安全车控操作系统正式在AtomGit开源

10月24日，由中国汽车工业协会指导，普华基础软件股份有限公司主办的“小满”安全车控操作系统开源发布会暨共建计划说明会成功举行。普华基础软件宣布将安全车控操作系统“小满”（简称“小满”）V24.10源代码正式在开放原子开源基金会（简称“基金会”）旗下AtomGit开源协作平台开源，并在AtomGit平