Foxtable(狐表)用户栏目专家坐堂 → [求助]如何提取网页数据中的文字,请大神指教


  共有2567人关注过本帖树形打印复制链接

主题:[求助]如何提取网页数据中的文字,请大神指教

帅哥哟,离线,有人找我吗?
智友软件工作室
  1楼 | QQ | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:四尾狐 帖子:912 积分:7445 威望:0 精华:0 注册:2013/2/25 13:10:00
[求助]如何提取网页数据中的文字,请大神指教  发帖心情 Post By:2016/10/19 14:45:00 [只看该作者]

网址:http://task.zbj.com/t-rjkf/?t=5
显示数据样式:

图片点击可在新窗口打开查看此主题相关图片如下:qq截图20161019144346.jpg
图片点击可在新窗口打开查看


需要提取标题和标题下面的详细内容两项。


主要是看不懂下面的网页结构

图片点击可在新窗口打开查看此主题相关图片如下:qq截图20161019144839.jpg
图片点击可在新窗口打开查看

[此贴子已经被作者于2016/10/19 14:49:17编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
智友软件工作室
  2楼 | QQ | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:四尾狐 帖子:912 积分:7445 威望:0 精华:0 注册:2013/2/25 13:10:00
  发帖心情 Post By:2016/10/19 15:23:00 [只看该作者]

自己顶一下吧,在线等

 回到顶部
帅哥,在线噢!
有点蓝
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107744 积分:548059 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2016/10/19 15:46:00 [只看该作者]


 回到顶部
帅哥哟,离线,有人找我吗?
智友软件工作室
  4楼 | QQ | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:四尾狐 帖子:912 积分:7445 威望:0 精华:0 注册:2013/2/25 13:10:00
  发帖心情 Post By:2016/10/19 16:03:00 [只看该作者]

您的网址中的内容正是我想学习好了解的内容,很感谢,我会好好学习。这是一个漫长的过程。
针对我提出的问题,您能否抛砖引玉给我写一段代码呢,我参考比照学习,先把这个迫切需要解决的问题,解决好,接下来我在系统学习网页中的内容。

 回到顶部
帅哥,在线噢!
有点蓝
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107744 积分:548059 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2016/10/19 16:41:00 [只看该作者]


 回到顶部
帅哥哟,离线,有人找我吗?
智友软件工作室
  6楼 | QQ | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:四尾狐 帖子:912 积分:7445 威望:0 精华:0 注册:2013/2/25 13:10:00
  发帖心情 Post By:2016/10/20 1:23:00 [只看该作者]

Dim url As String = "http://task.zbj.com/t-rjkf/?t=6"
Dim web As new System.Windows.Forms.WebBrowser
web.ScriptErrorsSuppressed = True
web.Navigate(url)
Do While web.ReadyState <> 4
    Application.DoEvents
Loop
Dim biaoti As String
Dim neirong As Single
Dim trs = web.Document.GetElementsByTagName("table")(0).GetElementsByTagName("tr")
For j As Integer = 1 To trs.count - 1
    Dim tr = trs(j)
    Dim tds = tr.GetElementsByTagName("td")(0).GetElementsByTagName("p")
    Dim tds1 = tds(0).GetElementsByTagName("a")
    biaoti = biaoti & "标题:" & tds1.innerText & vbcrlf
    biaoti = biaoti & "内容:" & tds(1).innerhtml & vbcrlf
Next

e.Form.Controls("TextBox1").value = biaoti


搞了一个晚上只能突出内容,不会读取标题,还请指教

 回到顶部
帅哥哟,离线,有人找我吗?
智友软件工作室
  7楼 | QQ | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:四尾狐 帖子:912 积分:7445 威望:0 精华:0 注册:2013/2/25 13:10:00
  发帖心情 Post By:2016/10/20 1:25:00 [只看该作者]

Dim url As String = "http://task.zbj.com/t-rjkf/?t=6"
Dim web As new System.Windows.Forms.WebBrowser
web.ScriptErrorsSuppressed = True
web.Navigate(url)
Do While web.ReadyState <> 4
    Application.DoEvents
Loop
Dim biaoti As String
Dim neirong As Single
Dim trs = web.Document.GetElementsByTagName("table")(0).GetElementsByTagName("tr")
For j As Integer = 1 To trs.count - 1
    Dim tr = trs(j)
    Dim tds = tr.GetElementsByTagName("td")(0).GetElementsByTagName("p")
    Dim tds1 = tr.GetElementsByTagName("td")(0).GetElementsByTagName("p")(0).GetElementsByTagName("a")
    biaoti = biaoti & "标题:" & tds1(0).innerText & vbcrlf
    biaoti = biaoti & "内容:" & tds(1).innerhtml & vbcrlf
Next

e.Form.Controls("TextBox1").value = biaoti

可以了


 回到顶部