我们知道采集就是把别人网站上的信息直接照搬到我们自己的网站上,这样可为我们刚开起来的网站丰富下内容,看起来网站才像个网站。如何采集别人的内容呢?这是初学者都难操作,有的更难理解的一个问题。
火车采集器是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网 页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、 信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。
火车头采集器使用说明教程:什么是采集规则?
采集规则,所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再次导入到任意火车采集器软件里。任务规则文件的后缀名为:.ljobx。
在采集器中设置第一步:采集网址规则和第二步:采集内容规则,就是我们说的采集规则。
什么是采集任务?
任务规则就是采集规则和发布模块之和,也就是我们经常说的规则;
这里就是任务规则了,后面有采集网址,采集内容,发布,3个操作,只能勾选相应的选项才会执行对应的操作。
现在就采集采集规则的一些操作做下说明。
1,运行任务
右击任务,选择开始任务:
在运行任务的过程中也可以暂停或者停止任务:
2, 新建任务
右击分组,选择新建任务:
3, 导出任务
右击规则,弹出如下界面选择导出任务:
4, 编辑任务
右击规则,弹出如下:
5, 删除任务
同样右击任务,选择删除任务。
6, 复制任务
右击任务,选择复制任务到剪贴板如下图:
7, 粘贴任务
把复制的任务粘贴到分组里面,右击分组,粘贴任务到该分组下:
粘贴后的任务是没有把之前的采集数据粘贴过来的,是全新的规则。
8, 重新下载未成功下载的文件
在运行任务后,发现有下载文件没有成功下载,在运行界面没有关闭的情况下,右击任务,就可以重新下载未成功下载的文件如下图:
9, 重新上传未成功FTP上传的文件
在使用了采集器内置ftp工具上传文件的情况下,任务运行完后发现有文件为上传成功,在运行界面没有关闭的情况下,右击任务,可以重新上传未成功FTP上传的文件如图:
10, 标记内容的发布状态
可以通过右击任务,设置任务下的内容发布状态为未发布或者已发布如下图:
11, 编辑查看采集的数据
采集器有查看编辑采集数据的界面,右击任务选择本地编辑任务采集数据,如下图:
右侧显示编辑查看界面如下图:
12, 打开数据库文件夹
如果采集器本地保存数据库选择的是access或者sqlite,可以通过以下方式,打开任务数据文件。
13, 清空任务采集数据或者任务的网址库
如果你需要从新采集,必须把采集的数据和任务网址库都清空,不然会提示重复,或者你不勾选判读重复也是可以的。
14, 导入任务
把导出的规则文件再次导入到采集器里面,右击分组,选择导入任务至该分组
什么是发布模块?
发布模块是用来把本地采集好的信息发布到网站需要做的软件设置。 (发布模块根据您的后台发布页面制作)2者配合才能成功采集发布到网站。
discuz x3.1 门户文章、论坛帖子发布模块使用:
本模块是三次元软件世界小编亲测其有效性之后才发布的,希望对于一些用discuz做站的朋友有些帮助,此模块可用于门户的文章采集发布,以及论坛帖子的采集发布!使用方法如下:
1、将文件夹中的发布模块(后缀是.wpm的文件拷贝到火车头的安装目录Module文件下即可)
2、或者在软件界面点击【发布】按钮,然后 选择 【更多】——【导入】以上发布模块~~~
3、请注意 论坛模块 只适合发布论坛帖子用,门户模块用于发布 门户文章的!!!!
相关文件下载地址:
适用平台:discuz x3.1
来自@奇芳阁软件 | 下载Discuz X3.1web在线发布模块