八爪鱼采集器数据采集分享
项目数据采集中,一些Ajax或者翻页路径是同一个的站点,使用系统采集功能,分页规则不匹配,无法采集到所需的全部数据。可以是使用八爪鱼采集器(https://www.bazhuayu.com)。操作简单,上手快。
下载安装后,点开界面需要简单注册登录。
第一步:新建任务,如果多个任务采集,可以创建任务组,便于管理。在网址处输入需要采集的列表页地址,保存设置。
第二步:保存设置后,会进入一个自动识别内容的界面,自动分析出是翻页采集还是加载采集,如果形式正确(一般都是对的),点击生产采集设置。
第三步:设置详细内容的采集字段,可以在标题链接右边的菜单按钮点击进入到下一级页面,进入页面等待程序自动识别完整,点击生成设置;
生成采集设置后,在下面会有识别出来的各项字段,在下列字段中,可以筛选出需要的字段保留,并修改部分字段规则,修改规则方式,可以在系统后台导出一个内容导入的表格模板,对比需要的数据格式。例如正文字段,采集的默认格式是文本的,不带html标记,所以需要修改一下采集的格式(点击正文右侧的三个小点菜单,在下拉处选择元素抓取方式,选择元素内部网站源码格式)。然后可以看到,格式加载了带标记样式的内容。
再如,发布时间字段格式不对,也可以细化时间字段的规则设置,添加步骤,例如选择正则匹配等;
可以在范围1直接输入正则规则,也可以在2处点击,进入前后字段替换规则,筛选出所需纯内容,都确定无误后,点击右上角的 采集 按钮,把数据采集到本地,选择Execl格式,打开采集到本地的数据表格,把所需要的字段内容复制到系统下载表格中(记得用格式刷,把数据保持成后台支持的表格格式),最后把表格数据导入到对应的栏目就可以了。
用户登录
还没有账号?
立即注册