Foxtable(狐表)用户栏目专家坐堂 → 这种网页数据如何抓取数据


  共有16339人关注过本帖树形打印复制链接

主题:这种网页数据如何抓取数据

帅哥哟,离线,有人找我吗?
小美菜
  11楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:650 积分:4935 威望:0 精华:0 注册:2016/1/16 22:42:00
  发帖心情 Post By:2018/7/22 23:05:00 [只看该作者]

有点甜老师,假定这个下面有5页,有上一页下一页的按钮,请问怎么实现遍历完这五页呢?

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  12楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/7/23 0:34:00 [只看该作者]

以下是引用小美菜在2018/7/22 23:05:00的发言:
有点甜老师,假定这个下面有5页,有上一页下一页的按钮,请问怎么实现遍历完这五页呢?

 

参考 http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=109179&skin=0

 


 回到顶部
帅哥哟,离线,有人找我吗?
ZJZK2018
  13楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:767 积分:6119 威望:0 精华:0 注册:2018/2/1 17:26:00
  发帖心情 Post By:2018/10/15 15:20:00 [只看该作者]

下面代码提取不到数据:

Dim web As New System.Windows.Forms.WebBrowser()
web.Navigate("http://www.hzctc.cn/OpenBidRecord/Index?id=36177CC9-5F91-473F-84E6-A2EFA35D6DD9&tenderID=969B1A8D-1A57-4A21-864F-A5E98F8288FB&ModuleID=486")
Do Until web.ReadyState = 4 AndAlso web.Document.GetElementById("Table1") IsNot Nothing
    Application.DoEvents
Loop

Dim elems As object = web.Document.GetElementsByTagName("div")
Dim Cols() As String = {"序号","投标企业","总监姓名","总报价","质量标准","中标工期","开标情况备注"}
'Dim elems As object = web.Document.GetElementsByTagName("table1")(1).GetElementsByTagName("tr")
elems = web.Document.GetElementById("Table1").GetElementsByTagName("tr")  '方法可返回对拥有指定 ID 的第一个对象的引用
Dim m As Integer = 0
For Each elem As object In elems
    Dim i As Integer = -1
    m = m + 1
    If m > 10 Then  '因为网页的表格有标题,如果不判断,就会增加出一个空行
        Tables("开标标录").AddNew
    End If
    Dim tdelems As object =  elem.GetElementsByTagName("td")   '可以根据你指定的参数,找出html源码中或xml内所有标签名称等于该参数的元素
    For Each tdelem As object In tdelems
        i = i + 1
        Tables("开标标录").Current(Cols(i)) = tdelem.Innertext
    Next
Next
Tables("开标标录").save

 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:读取pdf.zip




 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  14楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/10/15 15:25:00 [只看该作者]

要说多少次?

 

Dim web As New System.Windows.Forms.WebBrowser()
web.Navigate("http://www.hzctc.cn/OpenBidRecord/Index?id=36177CC9-5F91-473F-84E6-A2EFA35D6DD9&tenderID=969B1A8D-1A57-4A21-864F-A5E98F8288FB&ModuleID=486")
Do Until web.ReadyState = 4 AndAlso web.Document.GetElementById("Table1") IsNot Nothing
    Application.DoEvents
Loop

Dim elems As object = web.Document.GetElementsByTagName("div")
For Each elem As object In elems
    If elem.getattribute("classname") = "row cl" Then
        If elem.InnerText.contains("工程编号") Then
            msgbox(elem.GetElementsByTagName("span")(0).innerText)
        ElseIf elem.InnerText.contains("建设单位") Then
            msgbox(elem.GetElementsByTagName("span")(0).innerText)
        End If
    End If
Next

elems = web.Document.GetElementById("Table1").GetElementsByTagName("tr")
For i As Integer = 1 To elems.count-2
    Dim tds = elems(i).getelementsbytagname("td")
    msgbox(tds(0).InnerText & " " & tds(1).InnerText)
Next


 回到顶部
帅哥哟,离线,有人找我吗?
lihe60
  15楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:6883 积分:43585 威望:0 精华:0 注册:2009/3/2 14:07:00
  发帖心情 Post By:2018/10/15 15:58:00 [只看该作者]

重要的事要说三遍

 回到顶部
帅哥哟,离线,有人找我吗?
ZJZK2018
  16楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:767 积分:6119 威望:0 精华:0 注册:2018/2/1 17:26:00
  发帖心情 Post By:2018/10/15 16:10:00 [只看该作者]

谢谢有点甜老师,已解决


 回到顶部
帅哥哟,离线,有人找我吗?
lihe60
  17楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:6883 积分:43585 威望:0 精华:0 注册:2009/3/2 14:07:00
  发帖心情 Post By:2018/10/15 16:11:00 [只看该作者]

使用14楼的代码,有这个提示
图片点击可在新窗口打开查看此主题相关图片如下:无标题.png
图片点击可在新窗口打开查看

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  18楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/10/15 16:13:00 [只看该作者]

Dim web As New System.Windows.Forms.WebBrowser()
web.scripterrorssuppressed = True
web.Navigate("http://www.hzctc.cn/OpenBidRecord/Index?id=36177CC9-5F91-473F-84E6-A2EFA35D6DD9&tenderID=969B1A8D-1A57-4A21-864F-A5E98F8288FB&ModuleID=486")
Do Until web.ReadyState = 4 AndAlso web.Document.GetElementById("Table1") IsNot Nothing
    Application.DoEvents
Loop

Dim elems As object = web.Document.GetElementsByTagName("div")
For Each elem As object In elems
    If elem.getattribute("classname") = "row cl" Then
        If elem.InnerText.contains("工程编号") Then
            msgbox(elem.GetElementsByTagName("span")(0).innerText)
        ElseIf elem.InnerText.contains("建设单位") Then
            msgbox(elem.GetElementsByTagName("span")(0).innerText)
        End If
    End If
Next

elems = web.Document.GetElementById("Table1").GetElementsByTagName("tr")
For i As Integer = 1 To elems.count-2
    Dim tds = elems(i).getelementsbytagname("td")
    msgbox(tds(0).InnerText & " " & tds(1).InnerText)
Next

 


 回到顶部
帅哥哟,离线,有人找我吗?
ZJZK2018
  19楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:767 积分:6119 威望:0 精华:0 注册:2018/2/1 17:26:00
  发帖心情 Post By:2018/10/16 21:41:00 [只看该作者]

如何把网页中表“Table1”的表题转换成临时表的列名称??

http://www.hzctc.cn/OpenBidRecord/Index?id=36177CC9-5F91-473F-84E6-A2EFA35D6DD9&tenderID=969B1A8D-1A57-4A21-864F-A5E98F8288FB&ModuleID=486


图片点击可在新窗口打开查看此主题相关图片如下:qq截图20181016214057.png
图片点击可在新窗口打开查看


 回到顶部
帅哥哟,离线,有人找我吗?
有点蓝
  20楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:110333 积分:561507 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2018/10/16 21:47:00 [只看该作者]

elems = web.Document.GetElementById("Table1").GetElementsByTagName("th")
For i As Integer = 1 To elems.count-2
    Dim tds = elems(i).getelementsbytagname("td")
    msgbox(tds(0).InnerText)
    msgbox(Tables("表A").Cols(tds(0).InnerText))
Next

 回到顶部
总数 72 上一页 1 2 3 4 5 6 7 8 下一页