常见问题

列表图片采集示例

Alt text

这是图文列表结构的一部分，通过xpath匹配对应内容链接的缩略图

注意 {} 中的地址自动取内容链接匹配的group(1)
//a[@href="{}"]/img/@src

提示javax.net.ssl.SSLException: Received fatal alert: protocol_version

是因为我们启动服务的TLS版本不符合采集网站的要求，从而抛出了拒绝连接的异常；

一般通过修改jdk版本解决，jdk与tls版本参考

通过浏览器查看网站的tls版本

采集没反应，控制台提示 WebSocket connection to 'ws://...'

使用了nginx代理，但是代理中没有配置ws协议

参考博文，nginx支持webSocket ws请求

分页怎么使用

答：首先观察被采集页面分页情况，特别是地址栏上页数参数的规律，将分页参数替换成通配符如%s，采集器会根据起止页范围替换通配符进行循环遍历采集

编写的规则采集作业没有效果

Alt text

主要从以下几个方面进行检查

1、列表页地址 地址是否能够访问，若选择了分页测试采集的打印的链接是否能够访问

2、内容链接 内容链接需要使用正则表达式来匹配列表页上的链接，可以通过在线正则表达式检测进行检查填写的表达式是否正确

3、站群项目需要手动添加站点编号 安装了站群的用户如果采集数据导入的表涉及到站点编号（如文章内容表），需要在字段匹配手动添加appid默认值一列，默认值填写需要导入数据站点的站点编号，如果导入的数据表不涉及到站群业务则不需要添加。

涉及到站群业务的表在关联表列名Select选择器会有app_id选项。

4、字段匹配 检查字段匹配规则是否选择正确，表达式是否生效，映射类型需要与导入的表字段类型对应。

Tip

注意：编写的正则、xpath是针对网页的源代码，而不是浏览器渲染后的(元素)结构

定时自动采集

默认提供了采集任务对应的方法 TaskBizImpl.job(采集任务名称) 开发者如果系统有定时任务调度功能，直接配置调用就可以使用。如果没有定时任务调度需要手动增加一个类来做定时任务。

代码示例


@EnableScheduling
public class SpiderJob extends BaseJob{
 
    @Autowired
    ITaskBiz taskBiz

    @Scheduled(cron="* 0/5 * * * ?") //5分钟采集一次
    public void task() {
        List<TaskEntity> list = taskBiz.list();
	list.forEach(t -> {
		taskBiz.job(t.getTaskName());
	});
    }
}

修改采集的图片存储目录

源码位置：net/mingsoft/spider/biz/impl/TaskBizImpl.java 中的 startCollect

Keyboard shortcuts

MS插件手册