1. 常见问题
1.1. 分页怎么使用
答:首先观察被采集页面分页情况,特别是地址栏上页数参数的规律,将分页参数替换成通配符如%s,采集器会根据起止页范围替换通配符进行循环遍历采集
1.2. 编写的规则采集作业没有效果
答:主要从以下几个方面进行检查 1、列表页地址 地址是否能够访问,若选择了分页测试采集的打印的链接是否能够访问
2、内容链接 内容链接需要使用正则表达式来匹配列表页上的链接,可以通过在线正则表达式检测进行检查填写的表达式是否正确
3、站群项目需要手动添加站点编号 安装了站群的用户如果采集数据导入的表涉及到站点编号(如文章内容表),需要在字段匹配手动添加appid默认值一列, 默认值填写需要导入数据站点的站点编号,如果导入的数据表不涉及到站群业务则不需要添加。
涉及到站群业务的表在"关联表列名"Select选择器会有app_id选项。
4、字段匹配 检查字段匹配规则是否选择正确,表达式是否生效,映射类型需要与导入的表字段类型对应。
[!tip] 有问题可以通过评论方式提交,如果没有看到评论列表请尝试刷新页面
1.3. 定时自动采集
默认提供了采集任务对应的方法 TaskBizImpl.job(采集任务名称) 开发者如果系统有定时任务调度功能,直接配置调用就可以使用。 如果没有定时任务调度需要手动增加一个类来做定时任务。
代码示例
@EnableScheduling
public class SpiderJob extends BaseJob{
@Autowired
ITaskBiz taskBiz
@Scheduled(cron="* 0/5 * * * ?") //5分钟采集一次
public void task() {
List<TaskEntity> list = taskBiz.list();
list.forEach(t -> {
taskBiz.job(t.getTaskName());
});
}
}