新浪时政要闻指定域名采集规则例子
三个表单依次填写:
1、起始采集的文章列表的地址:http://roll.news.sina.com.cn/news/gnxw/szyw/index_1.shtml
2、其它列表地址都含有的字符:index_|.shtml
3、每个文章地址都含有的字符:c/2012|.shtml
依次测试:
1、点“单页文章获取测试”,测试其中一条文章地址,如:http://news.sina.com.cn/c/2012-09-18/233425201988.shtml,内容显示,测试正常。
2、点“文章地址堆获取测试”,点“采集测试”,显示文章内容链接地址,无其他无用的地址出现,测试正常。
3、点“列表地址获取测试”,点“采集测试”,显示列表翻页链接地址,无其他无用的地址出现,测试正常。
所以,上面三个表单字符,填写正常,可以直接保存采集。。 |