芭奇软件站群技术交流反馈

 找回密码
 注册账号
搜索
查看: 3695|回复: 0

[指定采集] 新浪时政要闻指定域名采集规则例子

[复制链接]
bakii 发表于 lasttime | 显示全部楼层 |阅读模式
新浪时政要闻指定域名采集规则例子
三个表单依次填写:

1、起始采集的文章列表的地址:http://roll.news.sina.com.cn/news/gnxw/szyw/index_1.shtml
2、其它列表地址都含有的字符:index_|.shtml
3、每个文章地址都含有的字符:c/2012|.shtml



依次测试:

1、点“单页文章获取测试”,测试其中一条文章地址,如:http://news.sina.com.cn/c/2012-09-18/233425201988.shtml,内容显示,测试正常。
2、点“文章地址堆获取测试”,点“采集测试”,显示文章内容链接地址,无其他无用的地址出现,测试正常。
3、点“列表地址获取测试”,点“采集测试”,显示列表翻页链接地址,无其他无用的地址出现,测试正常。

所以,上面三个表单字符,填写正常,可以直接保存采集。。

芭奇软件

GMT+8, 2024-3-29 01:03

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表