帝国cms自带采集功能使用方法

2014-07-30

一、给定的是列表页采集

以采集新浪文章为例：

1、添加节点；

2、选择要增加采集的栏目；

3、在节点名称框里起个名字，然后把要采集的新浪各地新闻列表地址copy过来：

4、下来发现好多选项,如“采集页面地址方式二，内容页地址前缀…”先不要理他，后面再一一详解，直接拉到 “信息链接区域正则”；

5、设置采集的列表信息链接区域正则,我们点击查看新浪各地新闻列表“源文件”：

6、得到信息链接区域正则：

7、得到信息页链接正则：

8、注意：如果信息页链接是相对地址，例如: 那么“内容页地址前缀”要加域名

9、现在要采集内容页的标题和内容

10、取得标题正则：

11、取得新闻内容正则：

（注意：新闻内容正则里的 d_id=’*’ 用了通配符，因为每一篇新闻的d_id值是不同的，所以可以用*来代替它，“*”可以代替任意字符。）

点击提交按钮就完成了整个采集节点：

12、预览采集节点是否正确

预览采集节点无误后，然后返回“管理节点”，点击“开始采集”链接就开始进行采集。

二、直接采集内容页面

1、在“栏目”选项下，选择左侧菜单“采集管理”-“采集管理节点(分页)”，点击“增加节点”；

2、选择要增加采集的栏目；

3、接下来最重要的就是对采集的规则进行设定：

“附加选项”-“页面编码转换”，这里设定的是页面的编码，如果原来的页面是编码为gb2312，采集后要转为utf-8的话，要选择“GB2312->UTF8”；

需要注意的是“采集内容正则(不采集项，请留空)” 选项下，对“内容页”选项下的几个正则输入框的填写。查看要采集的页面的源代码，把要采集的地方提取出来，填入相应的正则输入框内。

4、接下来就是开始采集了；

选择左侧“采集管理”-“管理采集节点”，点击“开始采集”。接下来就是等待采集。

采集完后显示本地临时入库的信息，预览如果没有问题的话就可以点击“入库全部信息”按钮，这样采集到的信息就全部录入进了选择的采集栏目中了。

发表评论取消回复