专家坐堂-[免费开源]教你用狐表做爬虫获取网页元素。狐表HttpClient+第三方xPath分析工具HtmlAgilityPack。用主流的思路爬取网页，获取表格数据，配合狐表的定时器，快速多掌握一门工作业务技术Foxtable(狐表) - 新一代数据库软件，完美融合Access、Foxpro、Excel、vb.net之优势，人人都能掌握的快速软件开发工具!

以文本方式查看主题

-  Foxtable(狐表)  (http://foxtable.com/bbs/index.asp)
--  专家坐堂  (http://foxtable.com/bbs/list.asp?boardid=2)
----  [免费开源]教你用狐表做爬虫获取网页元素。狐表HttpClient+第三方xPath分析工具HtmlAgilityPack。用主流的思路爬取网页，获取表格数据，配合狐表的定时器，快速多掌握一门工作业务技术  (http://foxtable.com/bbs/dispbbs.asp?boardid=2&id=168836)

--  作者：chen37280600
--  发布时间：2021/5/24 10:52:00
--  [免费开源]教你用狐表做爬虫获取网页元素。狐表HttpClient+第三方xPath分析工具HtmlAgilityPack。用主流的思路爬取网页，获取表格数据，配合狐表的定时器，快速多掌握一门工作业务技术

(快速浏览杰哥分享过的所有经验汇总，点击跳转）

0需求

最近大宗材料价格变大大，客户想每天早上，系统根据贵金属的价格，自动更新采购单据的成本

然后我看了一下之前广为流传的2014年的帖子
[分享]自动获取网页中表数据，保存到狐表TABLE中方法，链接：http://foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=49278&skin=0

感觉有点问题：
1它利用了ie内核的WebBrowser去模拟打开网页。IE兼容性很差，稍微新型的网站都是各种js报错，而且IE已经明确被win10抛弃，不是很靠谱。（后来有不少帖子，说这个模拟打开出现报错，卡主了。）
2它利用了GetElementsByTagName("div")和GetElementById("list_elem")，如果页面有大量重名元素，那定位就困难了，不是很靠谱
3它需要开发者有很强的网页dom结构分析能力，才能定位元素，缺乏一种快速定位的方法。我翻了一下论坛，很多人在找元素的时候都迷惑，在发帖询问。
4代码有点冗长，我看到GetElementsByTagName和GetElementById时，想起来原生的JS开发，太痛苦了...这不科学...

解决：于是我重新整理了一下思路，网页爬虫其实是获取网页源码+dom结构解析，上面的思路是用Ie内核获取网页源码，然后GetElementsByXxx做dom结构解析。
受限于当时狐表没有HttpClient，只能用这种获取。其实在2017年后，多了HttpClient，这种爬虫方法应该升级：

第一步用HttpClient获取网页，第二步然后用xPath去做dom结构解析，效果如下图 (xPath是一种分析网页结构的方法，在python领域非常常见）

此主题相关图片如下：1.png

1简介
爬虫思路：获取网页然后根据dom分析xPath获取相应的元素
我们使用httpClient，获取网页
通过开源的HtmlAgilityPack工具解析Dom
通过浏览器F12的控制台快速得到xPath路径，提取元素，不需要高强度的网页分析能力了

HtmlAgilityPack网友总结的方法：https://www.cnblogs.com/mq0036/p/11705424.html
HtmlAgilityPack官网文档：https://html-agility-pack.net/parser

接下来用颜色表做案例
http://color.jmtianlu168.com/

此主题相关图片如下：4.png

2.添加dll

2.1下载dll
支持.net 4.0：

以下内容只有回复后才可以浏览

2.2狐表添加引用
把dll拷贝到狐表的程序根目录后，添加引用，并添加命名空间

此主题相关图片如下：5.png

命名空间：HtmlAgilityPack
别名：Hap

2.3重启狐表
重启后检查引用和命名空间是否还存在，存在的话新dll就开始生效了
有可能没添加成功的，认真检查！！

2.4更新代码精灵
用我提供的help.mdb覆盖到你的狐表，例如C:\\foxtable\\Professional，因为我为代码精灵增加了很多关于这个爬虫工具的方法和属性
代码精灵的用法，更多可以参考我之前的帖子：
[免费开源]狐表代码精灵管理器,自己改造狐表的官方代码编辑器，增加提示，自定义事件、方法、对象，非常简单，只需要2步！不用依赖任何第三方工具，永久跟着官方升级
http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=152491&replyID=&skin=1

3获取网页
3.1使用狐表的HttpClient
Dim hc As New HttpClient("http://color.jmtianlu168.com/")
hc.SkipError=True
hc.Resp \'如果中文乱码,请改为 gbk
Dim hd As new Hap.HtmlDocument
hd.LoadHtml(hc.GetData())

3.2从本地网页获取
Dim s As String = FileSys.ReadAllText("S:\\FoxDev\\爬虫监控\\网页.html",Encoding.UTF8)
Dim hd As new Hap.HtmlDocument
hd.LoadHtml(s)

4获取xPath
4.1基础获取
xPath就是根据dom结构，一层层解析路径，提取元素的方法，基础用法如下：（具体可以去w3cSchool看）

此主题相关图片如下：6.png

我们在谷歌浏览器按F12，打开控制台

此主题相关图片如下：2.png

得到有偏差的xPath
/html/body/table/tbody/tr[4]/td[4]

4.2路径修正
用F12获取的的xPath多数会有偏差，你可以右键看下源代码，dom结构是否真的如此

此主题相关图片如下：3.png

此主题相关图片如下：9.png

其实这里源代码界面能发现，并没有html和body，真实的xPath是
/table/tbody/tr[4]/td[4]

差异的原因：因为chrome会对页面进行一定的修正处理，加上现在很多是ajax异步获取，你用代码请求的dom和当前浏览器展示的dom不一定完全一致，所以这个xPath仅供调试参考，实际上都要进行修正的

调试方法：
可能你会问，我怎么分析啊？
第一步，必须右键查看页面源码，自己分析结构，判断问题出在哪里，最好配合HbuilderX之类的代码整理，更清晰的查看结构

此主题相关图片如下：9.png

第二步：你可以先到xPath在线小工具http://www.ab173.com/other/xpath.php
把网页源代码粘贴进去，测试下你的xPath，然后利用`步进逼近`
注意的坑：xPath的路径，是从1开始，而不是从0开始，例如div[1]

此主题相关图片如下：8.png

/html
/html/body
/html/body/form
/html/body/form/div[2]
//等等逼近你想要的...

5获取节点
5.1获取首个节点
Dim xPath As String = "/table/tbody/tr[4]/td[4]"
Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath)
If hn IsNot Nothing Then
Output.Show("InnerHtml:" & hn.InnerHtml)
End If

输出结果：InnerHtml:脸红的淡紫色

注意的坑：由于`xPath不一定正确`，所以获取回来的可能是`Nothing`，记得做判断

5.2获取某个节点的相关属性
基础用法：
Dim xPath As String = "/table/tbody/tr[4]/td[4]"
\'获取该节点的父节点
Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath)
If hn IsNot Nothing Then
hn = hn.ParentNode
Output.Show("Parent的OuterHtml:" & hn.OuterHtml)
End If

类似的用法，还有

FirstChild　：获取首个子节点
LastChild  ：获取最后一个子节点
OuterHtml  ：获取整个节点的html代码
InnerHtml  ：获取<>夹住的内部Html代码
InnerText  ：获取<>夹住的内部无html的纯文本
Name  ：获取Html元素名
Attributes 　：获取节点的属性集合（留意！这玩意很有用的！）

扩展获取class：获取class之类的属性值
Dim xPath As String = "/table/tbody/tr[4]/td[4]"
Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath)
If hn IsNot Nothing Then
Dim hars As Hap.HtmlAttributeCollection = hn.Attributes
Output.Show(hars.Count)

For Each har As Hap.HtmlAttribute In hars
Output.Show(har.Name & ":" & har.Value)
Next
End If

输出结果：
1
style:text-align: center;

5.3获取某节点的子节点的集合

Dim xPath As String = "/table/tbody/tr[4]/td[4]"
Dim hn As Hap.HtmlNode = hd.DocumentNode.SelectSingleNode(xPath)
Dim CNodes As Hap.HtmlNodeCollection = hn.ChildNodes
Output.Show(CNodes.Count)

For Each hn2 As Hap.HtmlNode In CNodes
Output.Show("InnerHtml:" & hn2.InnerHtml)
Next

5.4获取某个节点集合

Dim xPath As String = "/table/tbody/tr[4]/td[4]"
Dim CNodes As Hap.HtmlNodeCollection = hd.DocumentNode.SelectNodes(xPath)
Output.Show(CNodes.Count)

For Each hn As Hap.HtmlNode In CNodes
Output.Show("InnerHtml:" & hn.InnerHtml)
Next
6我要说几句

1爬虫有一定法律风险，请合理利用
2狐表不是专业的爬虫工具，建议只用在简单的网页，更复杂的交互网站，建议学习专业的python爬虫工具
3很多网站有反爬和ip监控，如果你想去爬淘宝、京东，尤其是美团，做梦！
4网站变动，xPath很大可能会变动，就会需要重新编写路径

===============================================================
顺便总结以前分享过的帖子，方便大家学习

【迈宝伦工作室】承接各种中小企业或个人的Foxtable项目，单机版exe3000元以下，多人版exe3000元起，web多人版10000元起步
联系QQ：2385350359

免费产品：
[杰哥的免费分享]A1迷你库存管理系统，网页版的纯库存管理，实现简单的多人协助出入库，库存统计，权限管理

[杰哥的免费分享]A2迷你产品报价系统，网页版的带图Excel报价单快速生成工具，外贸企业特别常用

[杰哥的免费分享]OA行政管理系统，网页版的OA审批工作流，开放式流程，包含固定资产管理、文具申领库存、报销申请、用印盖章申请、请假申请等常见行政模块

[杰哥的免费分享]造价项目资料和提成管理系统，应用于造价行业，把过程资料归档，设置每个项目的成员提成，一键统计绩效

经验分享：

[免费开源]cs端集成代码高亮框ICSharpCode.TextEditor(虽然它自称代码编辑器)，支持编辑，支持VB、SQL、JSON、XML等18种语法高亮，可自定义语法颜色和护眼绿背景色

[免费分享]给狐表的递归教程加上死循环判断，防止死递归导致内存溢出，软件退出。建议官方整合到帮助文档里，类似于增强版例子

[服务器安全汇总] 杰哥在云服务器8年的狐表实战的网络安全经验总结。让你看看遭遇比特币勒索的血泪教训。没有信息安全，再强大的功能都是白搭！

[免费开源]狐表集成Redis教程，三行代码搞定！使用CsRedis高分Git库，redis官方推荐的第三方库，简单易用！顺便分享Redis服务器安装和科普【缓存穿透、缓存击穿、缓存雪崩】

[免费开源]教你用狐表做爬虫获取网页元素。狐表HttpClient+第三方xPath分析工具HtmlAgilityPack。用主流的思路爬取网页，获取表格数据，配合狐表的定时器，快速多掌握一门工作业务技术

[分享]狐表帮助文档中【正确】的中英文颜色对照表。官方文档不够准确，导致调样式经常有色差

[总结分享]异步里里DataTable能用Find和不能用SqlFind，1小心被坑，2不要滥用异步！并附上实战项目里，BS前后端分离下的接口请求平均耗时统计

[免费分享]正则表达式的使用，含匹配验证、提取过滤，常见正则表达式，复制即可用。过滤中文、大小写英文、数字、标点符号、换行符...

[免费开源]狐表cs集成代码高亮Highlight.js，代码着色，毫秒级响应。你还在用黑白的文本框阅读后端web代码吗？来试试这个

[免费开源]狐表集成MQTT解决方案，MQTT是目前大热物联网领域最广泛使用的软硬件通讯协议。如果连MQTT都没听过，别说自己是做物联网项目的，会被人笑的....

[免费开源]狐表bs集成websocket方法，dll来源于github 3.5k高分数的C# Websocket库稳定性和兼容性非常好。相当于web bs领域的OpenQQ功能

[找图标的进来看一眼,包你开眼界！]一个国外黑马级别的图标网站，精美程度真秒杀国内那些fontawesome，关键是支持搜索！找图标的真正痛点：只能用肉眼遍历，上万个图，老子看到何年鸟月啊！

[免费分享]把组合统计结果的fxDataSource转json输出给前端，解决BS开发模式下此强大的多表联查工具只能用在C/S领域table组件的局限性

[免费开源]狐表代码精灵管理器,自己改造狐表的官方代码编辑器，增加提示，自定义事件、方法、对象，非常简单，只需要2步！不用依赖任何第三方工具，永久跟着官方升级

免费开源的wangEditor富文本框解决方案,粘贴自动上传图片（截图上传神器啊！）,可嵌入视频，vue和jquery的BS框架都能用，不能用在cs哦！

[免费分享]sqlBulkCopy批量插入大量数据总结分享（批量导入、快速导入）

[免费分享]从周老师的书里挖个Json部分的总结分享给大家。狐表官方没有细说这一块，在前后端分离开发亟需扎实json利用

[免费开源]基于vue框架，用d2admin+elementui做的PC前端FoxWeb，uniapp做移动端，狐表做后端漂亮美观狐表变美终极方案前后端分离(20201114追加贸易订单管理案例体验)

[免费分享]简单无脑3步实现！狐表做服务器端，开机自动启动的解决方案。解决云服务器重启后不会自动启动狐表的问题[亲测可用]

[免费分享]狐表结合阿里云Oss对象存储案例小结，引用官方SDK dll，亲测能用

[免费分享]狐表CS端集成Echarts总结，亲测能用（顺便基础扫盲）

[此贴子已经被作者于2024/6/5 18:06:08编辑过]