隐藏列表页(栏目页)抓包分析教程

作者: 水淼 日期: 2016-12-06 11:19:48 人气: - 标签: 抓包

有时候从浏览器直接复制的列表页URL是假的,用水淼万能文章采集器读取不到列表,因此要通过抓包网页通信,获取到真实列表页URL

抓包工具:

抓包可选傲游浏览器或其他谷歌内核浏览器或任何抓包工具。
抓包时注意,在网页上鼠标右键-审查-网络(Network)才能进入抓包界面:

网页的访问方法(Method):有GET和POST两种,GET就是【一条网址】,而POST是【一条网址+投递参数】,一般都是GET方法,但是如果抓包列表页地址时碰到POST方法(比如百度百科)就需要特殊处理下才能使用到软件上进行采集

抓包过程:

下面是一个简单的抓包教程(GIF动图,可以新标签打开重新播放):

分页地址差异:

可以通过点下一页再下一页(没有分页点击的话就滚动条下拉刷新列表页),看看不同页抓取到的地址的差异,判断出页号在哪里。
有的页号是1、2、3、4,有的是数量0、20、40这样递增,灵活判断。
水淼文章组合工具集的比对-网址参数比对,可以判断出多个页面地址的参数差异:

找出分页地址:

有时可能会同时抓出很多个地址(因为有不同资源如图片、脚本、CSS、网页等的加载),那就要看每个地址的预览(Preview)或响应(Response)内容里是不是有文章地址(当然也可能是JSON数据,JSON数据中可能只包含文章地址的id):

样例分析:

比如这个列表页地址 http://buluo.qq.com/p/barindex.html?bid=17080 
抓包到的真实地址返回的就是JSON数据,并且数据里只是文章id而不是完整的文章地址。

该列表页抓包到的真实地址:http://buluo.qq.com/cgi-bin/bar/post/get_post_by_page?...
该真实地址直接用浏览器打开是无数据的,必须软件里访问才读取到数据,因为该网页要求来路,而软件有设置来路

可以用《水淼·Json解析助手》来直观显示Json数据树图,复制该地址后,在软件里右击【粘贴JSON数据到树】按钮,就会读取该网址的Json数据并解析到树。
在树中可以很方便阅览数据,你可以查找文章ID在哪里,本例则是在pid这个项里面:

最后用正则匹配来识别出文章ID:\d{5,}-\d{5,},这个正则的\d是代表数字,\d{5,}代表至少5位数字。更多正则学习和测试可以使用水淼·正则表达式助手

本来用数字通配*-*也是可以的,但是会匹配到一些不需要的内容(所以这个例子就需要正则匹配):

这些文章ID,都是在前面插入http://buluo.qq.com/p/detail.html?bid=17080&pid=,就构成一个文章地址了。
可以使用水淼多功能批量排版的行首尾插入功能(采集器的最新版本已支持设置文章URL的左边和右边补充,无需专门使用排版软件了):

继续学习

没有分页号而是动态加载的列表页怎么采集?

Copyright © 2009-2019 水淼软件技术 Inc. 保留所有权利。粤ICP备16013086号 霏凡软件站 转载文章如有侵权请联系删除