当前位置:首页 > 软件下载 > 网络工具

后羿采集器liunx版v3.5.4官方版

点此纠错

  • 平台:linux
  • 大小:73.1M
  • 语言:简体
  • 类别:网络工具
  • 授权:免费软件
  • 更新:2021-03-09
4.0
0% 0%

情介绍

Houyi Collector liunx版是Houyi Collector的liunx版本。适合使用liunx系统的个人博主和站长。该软件可以轻松收集网站群并上架。软件支持后台运行。如有需要,您可以下载并使用。

Houyi Collector liunx版是Houyi Collector的liunx版本。适合使用liunx系统的个人博主和站长。该软件可以轻松收集网站群并上架。软件支持后台运行。如有需要,您可以下载并使用。

后羿采集器liunx版

软件特点

1.可视化定制采集流程

全程问答引导、可视化操作、定制采集流程

自动记录并模拟网页操作序列

高级设置满足更多采集需求

2.点击提取网页数据

用鼠标点击选择要抓取的网页内容,操作简单

您可以选择提取文本、链接、属性、html 标签等。

3. 运行批量数据采集

软件根据采集流程和提取规则自动采集批次。

快速稳定,实时显示采集速度和进程

软件可以切换到后台运行,不影响前台工作。

4. 导出并发布收集的数据

收集的数据会自动制成表格,并且可以自由配置字段。

支持数据导出到Excel等本地文件

并一键发布到CMS网站/数据库/微信公众号等媒体

指示

在安装包所在文件夹中,按住shift并单击鼠标右键。会弹出如下界面。单击以在终端中打开。

16f5f437ae729a94_600_0.png

输入以下命令,-i 后面是您的文件名。如果权限不够,则在前面输入sudo,然后回车,然后输入密码。

16f5f437ae754599_600_0.png

常见问题

1、XX 网站能不能采集?XX 数据能不能采集?

我们在官网视频教程中已经介绍过,后羿采集器是一款通用的网页采集软件。只要有网站地址,就可以通过网页进行浏览。大部分你能看到的内容都可以收集(视频比较特殊,具体情况要具体分析)。

为了保护您的隐私,您的所有任务和配置都以加密形式存储在云端。除您之外任何人都无法查看具体内容。您在采集过程中输入的账户密码以及您的采集结果均存储在您的本地计算机中。但请严格遵守相关法律法规。如果后羿收藏家官方收到任何非法收藏的举报,将尽快封锁该账户。

  2、为什么采集数据提前停止了?

如果您遇到提早停止收款的问题,请按照以下步骤自行排查:

第1 步:确认您可以在浏览器中看到多少内容

有时搜索显示的数字与你最终看到的数字并不一致。请确认您能看到多少条数据,然后确定采集是提前停止还是正常停止。

第二步:采集到的结果数量与浏览器中看到的数量不一致

在采集过程中,如果遇到这个问题,有两种可能:

第一种可能是采集速度太快,网页加载时间太慢,导致无法采集网页中的数据。

遇到这种情况,请增加请求等待时间。等待较长时间后,网页就有足够的时间加载内容。

请求等待时间在启动设置—智能策略中设置,如下图:

第二种可能是你还有其他问题

我们在操作过程中点击“查看网页”可以观察当前网页内容是否正常、是否无法正常显示、是否有异常提示等。

如果出现上述情况,我们可以降低采集速度、切换代理IP、手动编码等,至于哪种方法有效,需要测试才知道。不同的网站有不同的问题,并且没有统一的解决方案。

如果您尝试上述解决方案后仍然无法解决问题,您可以在帮助中心向我们反馈,我们将为您提供支持。

  3、为什么采集字段不全?

字段不完整一般出现在以下两种情况:

首先,由于列表元素的结构不同,某些元素具有其他元素中没有的字段。这是正常现象。请先确认您想要的字段是否存在于网页对应的元素中。

其次,页面结构发生了变化。这种情况通常发生在同一个搜索结果包含多个页面结构时,例如搜索引擎的搜索结果(包含多种类型的网站)。

这种情况需要具体问题具体分析。您可以将采集任务导出并发至我们的官方帮助中心,我们的客服会帮您进行测试和分析。

变更日志

3.5.4

更新日期:2020-11-02

增加

导出csv时支持制表符分隔符

新增API接口退出软件

优化

优化文件下载的各种兼容性问题

维修

修复按组运行的问题

修复处理后的链接无法深度收集的bug