Foxtable(狐表)用户栏目专家坐堂 → [讨论]关于抓取网页~~~~~~~~(一直跟帖讨论,希望有此需要的朋友关注!)


  共有4946人关注过本帖树形打印复制链接

主题:[讨论]关于抓取网页~~~~~~~~(一直跟帖讨论,希望有此需要的朋友关注!)

帅哥哟,离线,有人找我吗?
lhpc120
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
[讨论]关于抓取网页~~~~~~~~(一直跟帖讨论,希望有此需要的朋友关注!)  发帖心情 Post By:2016/4/19 23:47:00 [显示全部帖子]

首先提供两个页面地址:
地址一:(淘宝店铺所有宝贝的页面)
https://isuddenlysneezed.taobao.com/search.htm?spm=2013.1.0.0.mJJPKY&search=y

地址二:(淘宝宝贝详细页的)
https://item.taobao.com/item.htm?id=527608686691

目的:首先获取地址一,淘宝宝贝的商品列表页内容!

代码如下:

Dim web As new windows.forms.webbrowser
web.Navigate("https://isuddenlysneezed.taobao.com/search.htm?spm=2013.1.0.0.mJJPKY&search=y")
Do Until web.ReadyState = 4
    Application.DoEvents
Loop
'output.show(web.document.body.innerhtml)

For Each dl As object In web.Document.GetElementsByTagName("dl")
    If dl.GetAttribute("ClassName") Like "item*"
        output.show(dl.outerhtml)
    End If
Next

获取的内容见二楼!


[此贴子已经被作者于2016/4/19 23:48:00编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/19 23:54:00 [显示全部帖子]

<dt class="photo">                                <a class="J_TGoldData" href="//item.taobao.com/item.htm?id=527608686691"
<img alt="ISS 烫金logo小羊皮鞋垫/增高鞋垫/后跟贴" src="//img.alicdn.com/bao/uploaded/i3/TB1_pdsLVXXXXcnXpXXXXXXXXXX_!!0-item_pic.jpg_240x240.jpg">                

因为单帖的字符限制,截取重要内容:

内容页地址:href="//item.taobao.com/item.htm?id=527608686691"
标题:alt="ISS 烫金logo小羊皮鞋垫/增高鞋垫/后跟贴"
图片地址:src="//img.alicdn.com/bao/uploaded/i3/TB1_pdsLVXXXXcnXpXXXXXXXXXX_!!0-item_pic.jpg_240x240.jpg

                                                    

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/20 15:22:00 [显示全部帖子]

按照楼上的做法,执行以后,没有任何内容啊!

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/20 15:30:00 [显示全部帖子]

授人与鱼不如授人与渔!
希望版主将上述代码备注一下意思!后来人都可以搜索到,并指导一下这类的函数资料哪里可以学习!

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/20 15:57:00 [显示全部帖子]

请问怎么分析页面的页数呢,我提供的列表页有2页内容,好像只采集了个,一个页是24个!
怎么连第二页一起采集啊!

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  6楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/20 16:17:00 [显示全部帖子]

代码能自己判断页数吗?然后进行遍历?
[此贴子已经被作者于2016/4/20 16:17:19编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  7楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/21 5:42:00 [显示全部帖子]

新学习了返回指定ID的内容

output.show(web.document.getElementById("J_DivItemDesc").innerHTML)

 回到顶部
帅哥哟,离线,有人找我吗?
lhpc120
  8楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:633 积分:6326 威望:0 精华:0 注册:2011/5/8 13:21:00
  发帖心情 Post By:2016/4/21 5:48:00 [显示全部帖子]

请问大红袍老师!怎么返回下面代码的title的值!

<ul class="attributes-list">


<li title="isuddenlysneezed">品牌:&nbsp;isuddenlysneezed</li>

<li title="羊皮(除羊反绒/羊猄)">帮面材质:&nbsp;羊皮(除羊反绒/羊猄)</li>

<li title="羊皮">内里材质:&nbsp;羊皮</li>
<li title="浅口">开口深度:&nbsp;浅口</li>

<li title="其他">鞋头款式:&nbsp;其他</li>

<li title="平跟(小于等于1cm)">后跟高:&nbsp;平跟(小于等于1cm)</li>
<li title="平底">跟底款式:&nbsp;平底</li>
<li title="黑色羊皮普通 黑色羊皮增高">颜色分类:&nbsp;黑色羊皮普通 黑色羊皮增高</li>
 
<li title="36 37 38 39">尺码:&nbsp;36 37 38 39</li>


</ul>
 

 回到顶部