1. 铭飞采集器
包含采集任务、采集规则、采集日志、导入数据、自动导入等功能
1.1. 依赖
1.1.1. Apache Maven
<dependency>
<groupId>net.mingsoft</groupId>
<artifactId>ms-spider</artifactId>
<version>当前版本</version>
</dependency>
依赖 webmagic-core 开源项目 感谢 https://github.com/code4craft/webmagic
2. 动图展示
字段匹配名称: 在采集(测试)时,显示值的名称,用于标注当前列的值的含义;
字段匹配规则:
映射类型: 根据采集内容类型选择
字段匹配:字段匹配规则选择的是"默认",此处填写默认值;否则填写对应匹配方案的匹配规则
关联表列名:此列配置对应当前采集任务导入表中的哪个字段
结果替换规则:对采集到的结果使用freemarker语法做二次处理;
内置参数:${content} 为当前列采集匹配到的内容;${app} 获取app实体的属性;
二次处理演示:
截取采集内容50的长度eg:<#if content?has_content>${content[0..50]}..</#if>
输出yyyy-MM格式的时间eg:<#if content?has_content><#assign content=content?date("yyyy-MM-dd")/> ${content?string("yyyy-MM")}</#if>
freemarker语法请参考freemarker文档
列表规则:开启后,此列的规则只能使用xpath匹配规则,并且只作用于列表
html内容:开启后,会检测当前匹配的内容是否满足html格式,不满足不会采集
3. 版本更新说明
每天都在改变、从未停止过....