新2官方网址采集软件帮助系统目录列表 帮助目录 词典
  • 一、项目设置
  • 基础设置
    1. 项目名称
    2. 项目位置
    3. 所属类别
    4. 网站编码
    5. 项目备注
    6. 参与下载的线程数量
    7. 页面访问间隔毫秒数
    8. 数据存入已有的数据库表内
    9. 自动生成当前项目的数据库表单
    10. 直接存入本机文件内(text/Excel)
    11. 临时缓存,并自动发布到网站
    12. 模拟登录(设置cookie)
    13. 登陆页面url
    14. 模拟登录的cookie值代码
    15. Cookie的来源
    16. 启用定期更新功能
    17. 完全覆盖已有数据
    18. 检查补充新增的内容
    19. 不处理,废弃新数据
  • 数据库设置
    1. 数据库类别:ACCESS
    2. 数据库类别:SQL Server(MS SQL)
    3. 数据库类别:MY SQL
    4. 数据库类别:Oracle
    5. 选择ACCESS数据库文件
    6. 数据库IP
    7. (数据库)库名称
    8. 数据库登录用户名
    9. 数据库登录密码
    10. 主表(父表)
    11. 选择主表主键
    12. 启用子表
    13. 指向父表主键的字段
    14. 子表列表
    15. 确认入选的子表集合
  • 文件下载及FTP上传设置
    1. 图片类文件的存储目录
    2. flash动画文件的存储目录
    3. 其它类文件的存储目录
    4. 将下载的文件同步上传到服务器
    5. FTP服务器IP(FTP设置)
    6. FTP用户名
    7. FTP登录密码
    8. FTP端口
    9. FTP被动模式
    10. 默认FTP根目录
    11. 直接存储在默认FTP根目录下
    12. 由系统自动生文件上传目录
    13. 人工指定文件上传目录
    14. FTP图片类文件的目录名称
    15. FTPflash文件的目录名称
    16. FTP其它类文件的目录名称
  • 标题列表页设置
    1. (标题)列表页起始网址
    2. 指定列表页的访问方式:get
    3. 指定列表页的访问方式:post
    4. 直接指定翻页的链接
    5. 直接指定翻页的链接的列表
    6. 标题列表页面翻页访问时的最大页数
    7. 更新访问时该翻页访问的最大页数
    8. 自定义翻页参数的设置
    9. 自定义翻页参数的列表
    10. (翻页参数的)参数名称
    11. (翻页参数的)自动动态取值
    12. 数值增减
    13. 初始值
    14. 目标值
    15. 更新运行时的目标值
    16. 值变化步长
    17. 字符串长度补缺的位数
    18. 参数值列表
    19. 恒定值(常量)
  • 列表页引导设置
    1. 直接指定内容页面
    2. 普通模式
    3. 内容页面的名称或关键字符
    4. 中介方式
    5. 网页源码中出现地址参数关键值的源代码
    6. (中介方式)内容页面地址
  • 内容页面的设置
    1. 内容页模板种类列表
    2. 内容页面的参考模板Url

  • 二、项目高级设置:
  • 综合
    1. 使用动态cookie
    2. 详尽输出日志
  • 文件下载
    1. 限定后缀名
    2. 排除后缀名
    3. 无后缀名的文件不下载
  • 页面解析
    1. 依据冒号进行分段
    2. 依据斜杠对数值进行分段
    3. 对日期字符串的前后进行修剪
    4. 图片实际地址的转换
  • 采集匹配
    1. 中介模式下区分网页代码的大小写
    2. 严格限制数据库父子表的逻辑关系
    3. 不进行纠错操作
    4. 不采集复合语句内的隐藏内容
    5. 自动检查并优先使用最合适的模板
    6. 过滤掉单个采集对象所属的某单一子表下的重复采集内容
  • 代理访问 (暂无)
  • 三、内容页面模板的学习定制:
  • 网页的解析
    1. 用于学习的内容页面的典型模板的url
    2. 当前模板页面的网页编码
    3. 模板页面内容的分解与指定
    4. 网页元素的类型
    5. 网页元素的链接属性
    6. 前缀标题字符的确认
    7. 网页元素属性:时间格式
    8. 网页元素属性:整数
    9. 网页元素属性:浮点数
    10. 网页元素属性:邮箱
  • 入选采集 (入选为采集对象,选择数据库表的对应字段(或者下载文件))
    1. 存入数据库表
    2. 数据库"表"列表
    3. 字段名列表
    4. 为多语句/或段落
    5. 下载该文件
    6. 下载当前文件
    7. 下载链接指向的文件
    8. (下载文件)存储在本地目录
    9. (下载文件)默认目录
    10. (下载文件)默认目录列表
    11. (下载文件)FTP上传到服务器指定目录
    12. (下载文件)FTP上传到服务器指定目录列表
    13. (下载文件)使用第三方软件下载该文件
    14. (下载文件)使用第三方下载软件的列表
  • 采集选项
    1. 该项必须命中
    2. 比对内容的CSS
    3. 比对标题的CSS
    4. 自动重命名下载文件名
    5. 结果内容保留CSS属性
    6. 不采集内含的隐藏内容
    7. 对该项进行分页归并
  • 采集选项-对字段采集结果的修缮
    1. 当前字段的原文
    2. 修缮方法的列表
    3. 修缮的位置:字段全部
    4. 修缮的位置:字段头部
    5. 修缮的位置:字段尾部
    6. 修缮的方式:删除
    7. 修缮的方式:添加
    8. 修缮的方式:修改替换
    9. 修缮的方式:近义词替换(伪原创)
    10. 修缮的方式:时间提前
    11. 区分大小写
    12. 原内容(支持正则表达式)
    13. 新内容

  • 分页访问与合并 (该链接为指向“当前页的分页”的链接)
    1. 更新访问时该分页访问的最大深度页

  • 下级子页面 (该链接为指向“下级子页面”的链接(直接或间接链接))
    1. 该子页面(在当前页面内)具有多个重复并列子项
    2. 该下级页面必须有命中
    3. (指向具有重复子项的下级页面)高级设定
    4. (指向具有重复子项的下级页面)重定范围
    5. 子页面的多模板列表
    6. 新增子模板页面的url网址

  • 添加中介链接 (利用中介方式添加新的链接指向)
    1. 包含地址参数关键值的代码
    2. 内容页面地址

  • 四、项目的运行与管理:
  • 新建项目前的必要准备
    1. 明确需要采集什么内容,从哪儿采。
    2. 明确采集的结果数据需要存储在哪儿,用什么存储。
    3. 熟悉被采集网站的逻辑架构,找到标题列表页面内容页面
  • 开始新建采集项目
    1. 点击软件主界面菜单:“项目管理”-“新建项目”,新建一个采集项目。并依次设置
    2. 项目基础设置(新手指引)(少数项目在此处需要打开设置界面下方的“高级设置”对话框。配置高级属性,新手略)
    3. 数据库设置(新手指引)
    4. 文件下载(新手指引)设置(默认情况下不用设置此项)
    5. 设置标题列表页页面(新手指引)翻页的方式和方法
    6. 设置标题列表页面向内容页面(新手指引)过度方式和方法
    7. 设置内容页面(新手指引),配置需要采集的网页内容。并在内容页面模板管理(新手指引)窗口对定义的内容页面模板进行管理。
    8. 保存设置。完成采集项目的配置。
  • 试运行采集项目
    1. 在软件主界面左侧项目列表中点选刚才新设置的项目。
    2. 勾选软件主界面右侧的“试运行”复选按钮。
    3. 点击“立即运行”项目按钮(“试运行”复选按钮上方),开始试运行当前项目
    4. 查看运行结果数据,据此判断项目的设置是否是您想要的结果。
    5. 如果需要调整该项目的采集设置,请在软件主界面左侧的项目列表框内双击该项目,打开修改窗口。
    6. 再试运行无误后,可以开始执行采集运行。