为了先填充好数据在上线,在本地搭建了一个网站,并用火车头采集数据填充到里面。
开始很上手,因为找的网站的分类中是有分页的。很快捷的找到页面标识。
但是问题来了,如今很多网站都是采用的Ajax加载数据,根本没有分页的URL。比如:CSDN,IT168等等,都是采用下拉到一定程度,自动加载数据出来。
在没有页码的情况下,直接采集当前首页的20-30篇文章,后面的都无法采集到。
经过在网上查找教程,总算有了 *** ,但是相对直接加入页码采集,多了一个步骤。
应该如何做?
1. 获取目标站API地址
在目标页面按F12或Ctrl+Shift+C打开审查元素,然后点Network选项卡,通过下滑的操作实时监控Network中出现的链接。
然后点击这个链接,查看规律后将他复制下来。
2.利用火车头采集这个API中的文章链接
这里做一个假设,实际填写的是上面的API地址。
采集内容规则的设置
从上图可以指导链接地址在:linkurl:"" 里,然后进入第二部采集内容
这里选择循环匹配,不然只会采集到一个链接。
数据处理一下编码和斜杠(因为采集的url有很多 \ 的转义,直接将这个剔除)
测试一下页面就可以获取到文章的URL链接。
获取到文章的链接后,如何采集它们?
当采集到这些文章的URL后,我们先要在 第三步:发布内容设置 ,将连接保存在桌面处理。
我将他保存在Excel文件(主要是我导出的TXT不完整),然后在Excel中处理好在复制到TXT中。
这个时候我们就要采集这些文字的链接了。
新建一个采集任务,然后将保存的TXT导入,然后依次进行采集,后面的工序就不说了,和分页采集的步骤是一样的。
本文由2号站长网 五车二原创,原文地址:https://www.zz2zz.com/19852.html 转载请注明出处。
扫描二维码推送至手机访问。
版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。
我是高三的时候才开始上网的,是不是很落伍 ,呵呵. 因为我们那里条件有点落后,加上平时学习很忙. 到高三的时候压力特别大,然后在同学的影响下 频繁出入网吧. 天天通宵,当时很傻,什么网络知识都没有 两个IC...
各位网友朋友大家好,看到admin5的(草根站长故事征集活动),无意之间就有心里一种冲动,看着网络上的故事真是太多了,大千世界,无奇不有。现在还是饿着肚子,也没有什么事情可做,天天添加内容,都快累死了,有太多的时候都是这样度过的,早上10点起床,来到公司一天就是2顿饭,天天关注自...
前言 &nb...
有个女孩叫君儿,男孩叫磊。他们通过QQ聊天认识了,然后经常写信聊天,到相识相知。03年的圣诞节他们见面了,彼此感觉应该还算 很不错,晚上在一起吃饭,在晚上一起去了我们学校过圣诞节。这一晚,君回学校宿舍了,2004年1月1日 元旦到了,磊磊非常想君儿,磊就打电话喊君一起出来玩,那一晚上我们都没有...
站长交流群讲座qq群 17770150 每天 晚8点30 邀请草根精英 演讲网站运营 推广盈利经验 ————————————————————————————————————傲雪(41567549) 20:31:20先综合分析一下这个站最高PR值:5 www.adm...
记得是在97年吧,好象是,记性并不是我的强项,当时有一款非常火爆促销机[联想同禧500]在全国发售,在这之前,我对于电脑的了解不比现在对神州六号的内部构造了解多多少。只是因为好象很便宜,很实惠,更多的还是因为老**一个朋友是卖这个的,[我也算是咱这一代比较早的见识“传销”的人了吧。呵呵。]其...