1. 常见问题

1.1. 分页怎么使用

答:首先观察被采集页面分页情况,特别是地址栏上页数参数的规律,将分页参数替换成通配符如%s,采集器会根据起止页范围替换通配符进行循环遍历采集

1.2. 编写的规则采集作业没有效果

答:主要从以下几个方面进行检查 1、列表页地址 地址是否能够访问,若选择了分页测试采集的打印的链接是否能够访问

2、内容链接 内容链接需要使用正则表达式来匹配列表页上的链接,可以通过在线正则表达式检测进行检查填写的表达式是否正确

3、站群项目需要手动添加站点编号 安装了站群的用户如果采集数据导入的表涉及到站点编号(如文章内容表),需要在字段匹配手动添加appid默认值一列, 默认值填写需要导入数据站点的站点编号,如果导入的数据表不涉及到站群业务则不需要添加。

涉及到站群业务的表在"关联表列名"Select选择器会有app_id选项。

4、字段匹配 检查字段匹配规则是否选择正确,表达式是否生效,映射类型需要与导入的表字段类型对应。

[!tip] 有问题可以通过评论方式提交,如果没有看到评论列表请尝试刷新页面

1.3. 定时自动采集

默认提供了采集任务对应的方法 TaskBizImpl.job(采集任务名称) 开发者如果系统有定时任务调度功能,直接配置调用就可以使用。 如果没有定时任务调度需要手动增加一个类来做定时任务。

代码示例


@EnableScheduling
public class SpiderJob extends BaseJob{

    @Autowired
    ITaskBiz taskBiz

    @Scheduled(cron="* 0/5 * * * ?") //5分钟采集一次
    public void task() {
        List<TaskEntity> list = taskBiz.list();
    list.forEach(t -> {
        taskBiz.job(t.getTaskName());
    });
    }
}

Copyright © mingsoft.net 2012-2022 all right reserved,powered by Gitbook该文件修订时间: 2022-10-26 14:45:22

results matching ""

    No results matching ""

    results matching ""

      No results matching ""