1. 铭飞采集器

包含采集任务、采集规则、采集日志、导入数据、自动导入等功能

1.1. 依赖

1.1.1. Apache Maven

<dependency>
    <groupId>net.mingsoft</groupId>
    <artifactId>ms-spider</artifactId>
    <version>当前版本</version>    
</dependency>

依赖 webmagic-core 开源项目 感谢 https://github.com/code4craft/webmagic

2. 动图展示

创建采集 测试采集 编辑采集规则

  • 字段匹配名称: 在采集(测试)时,显示值的名称,用于标注当前列的值的含义;

  • 字段匹配规则:

    • 正则: 使用正则表达式匹配需要采集的内容,可参考文档
    • xpath:使用xpath匹配需要采集的内容,可参考文档
    • css选择器:使用css选择器匹配需要采集的内容
    • 默认:设置一个默认值,比如 设置文章的审核状态为终审通过
  • 映射类型: 根据采集内容类型选择

  • 字段匹配:字段匹配规则选择的是"默认",此处填写默认值;否则填写对应匹配方案的匹配规则

  • 关联表列名:此列配置对应当前采集任务导入表中的哪个字段

  • 结果替换规则:对采集到的结果使用freemarker语法做二次处理;

    • 内置参数:${content} 为当前列采集匹配到的内容;${app} 获取app实体的属性;

    • 二次处理演示:

      截取采集内容50的长度eg:<#if content?has_content>${content[0..50]}..</#if>
      输出yyyy-MM格式的时间eg:<#if content?has_content><#assign content=content?date("yyyy-MM-dd")/> ${content?string("yyyy-MM")}</#if>
      freemarker语法请参考freemarker文档

  • 列表规则:开启后,此列的规则只能使用xpath匹配规则,并且只作用于列表

  • html内容:开启后,会检测当前匹配的内容是否满足html格式,不满足不会采集

采集日志 采集匹配规则 导入采集数据

3. 版本更新说明

每天都在改变、从未停止过....

Copyright © mingsoft.net 2012-2022 all right reserved,powered by Gitbook该文件修订时间: 2024-12-25 17:13:07

results matching ""

    No results matching ""

    results matching ""

      No results matching ""