芭奇软件站群技术交流反馈

 找回密码
 注册账号
搜索
查看: 7270|回复: 0

[站群软件] 芭奇站群指定域名采集文字教程,举例说明

[复制链接]
bakii 发表于 lasttime | 显示全部楼层 |阅读模式
芭奇站群指定域名采集文字教程

右健网站节点,进入“指定域名采集”窗口,点中左上角一个栏目,然后,右边填写网址,如下教程:
首先,在你要采的页面,找出下面的网址,记在记事本上。

-----------------------------------------

要采的主列表地址:http://lvyou.elong.com/bbs/guilin/all/

列表翻页地址:(随便两个)
http://lvyou.elong.com/bbs/guilin/all/list-00-2.html
http://lvyou.elong.com/bbs/guilin/all/list-00-3.html

要采的文章内容地址:(随便两个)
http://lvyou.elong.com/bbs/guilin/tour/a1hfi138.html
http://lvyou.elong.com/bbs/guilin/tour/a1h0hkcf.html


------------------------------------------

然后,对应软件上的三个表单:

第一个"起始采集的文章列表的网址"肯定是填写主列表啦,也就是http://lvyou.elong.com/bbs/guilin/all/

第二个“其它列表地址都含有的字符”,也就是翻页的相同字符有什么,看上面刚才你记下的,除了网址相同不要填,其他相同的字符就有:list-00-和.html,那么就是合在一起,以|分开,就是list-00-|.html

第三个“每个文章地址都含有的字符”,也就是内容网址的相同字符是什么,看上面,除了网址相同不要填,其他相同的字符只有:a1h和.html,也就是说,这里填上a1h|.html

最后如图所示




这样基本就可以采集了,但这个网址,在实际采集中,会出现有部份文章是重复的,因为是他的网址不同
例如:http://lvyou.elong.com/bbs/guilin/tour/a1hfiiva.html
http://lvyou.elong.com/bbs/guilin/tour/a1hfiiva.html?only=4447695
这两个文章,内容是一样的,但是网址不同,软件不能判断为相同文章,于是,可以在软件参数上,加上
排除,就是在“单页文章”--“文章地址”--“每个文章地址都不含有字符”上,填“?only”,这样就
不会再有重复的网址。
如图:




其他的参数,就按你自己的要求来填了。。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册账号

x

芭奇软件

GMT+8, 2021-1-24 14:44

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表