最新推荐
-
齐鲁银行网银助手3.0.0.5官方版 安全软件 / 3.0M
-
360安全卫士U盘病毒专杀(Autorun.inf专杀)13.0.0.213简体中文绿色免费版 安全软件 / 86.1M
-
360安全卫士U盘病毒专杀工具v13.0.0.213绿色免费版 安全软件 / 86.1M
-
360安全卫士修复工具v13.0.0.213免费版 安全软件 / 86.1M
-
360安全卫士超强查杀V13.0.0.213安装版 安全软件 / 86.1M
精品推荐
-
Nimbus Web Clipper(浏览器插件)v4.4.1官方版 网络工具 / 441KB
查看 -
You123浏览器v5.10.12.116官方版 网络工具 / 57.9M
查看 -
迅雷Thunder 5.0.5.97 正式版 网络工具 / 3.3M
查看 -
5866游戏商城上号器v9.7.1.10310官方版 网络工具 / 99.6M
查看 -
盘它云v1.0.2官方 网络工具 / 158.9M
查看
本类排行
详情介绍
章鱼收集器是任何需要从网络获取信息的孩子的必备神器。这是一个可以让你的信息收集变得非常简单的工具。八达通改变了人们对互联网数据的传统思考方式。它使用户能够更简单、更容易地在互联网上捕获和编译数据。
章鱼收集器是任何需要从网络获取信息的孩子的必备神器。这是一个可以让你的信息收集变得非常简单的工具。八达通改变了人们对互联网数据的传统思考方式。它使用户能够更简单、更容易地在互联网上捕获和编译数据。
软件特点
满足各种业务场景
适合产品、运营、销售、数据分析、政府机构、电商从业者、学术研究等多种职业。
全面监测公共信息,提前掌握舆情动态
市场分析
获取真实的用户行为数据,充分掌握客户的真实需求
产品开发
大力支持用户研究,准确获取用户反馈和偏好
风险预测
高效的信息收集和数据清洗,及时应对系统风险
特征
简单收藏
简易采集模式内置了上百个主流网站数据源,如京东、天猫、大众点评等热门采集网站。您只需根据模板简单设置参数,即可快速获取网站公开数据。
智能采集
八达通采集可根据不同网站提供多种网页采集策略及配套资源,可定制、配置、组合使用、自动处理。这有助于整个收集过程实现数据的完整性和稳定性。
云收藏
超过5000台云服务器支持云采集,24/7运行,无需专人值守即可实现定时采集。灵活贴合业务场景,帮助您提高采集效率,保证数据时效。
API接口
通过Octopus API,您可以轻松获取Octopus任务信息和采集数据,灵活调度任务,例如远程控制任务启动和停止,高效实现数据采集和归档。基于强大的API系统,还可以无缝连接公司内部的各种管理平台,实现各种业务自动化。
定制系列
针对不同用户的采集需求,八达通可以提供自动生成爬虫的自定义模式,可以批量精准识别各种网页元素。它还具有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站的采集,满足多种采集应用场景。
方便的定时功能
只需点击几下设置,即可实现采集任务的定时控制。无论是单次采集的定时设置、预设的日期还是每周或每月的定时采集,您都可以同时自由设置多个任务。根据需要对选定的时间进行多种组合,灵活分配自己的采集任务。
全自动数据格式化
Octopus拥有强大的内置数据格式化引擎,支持字符串替换、正则表达式替换或匹配、空格去除、前缀或后缀添加、日期和时间格式化、HTML转码等多种功能。收集过程是全自动的。处理时,无需人工干预即可获取所需格式的数据。
多级采集
很多主流新闻和电商网站都包含一级商品列表页面、二级商品详情页面、三级评论详情页面。无论网站有多少级别,八达通都可以收集数据,不受级别限制。满足各种业务采集数据需求。
支持网站登录后采集
Octopus内置了收藏登录模块。您只需配置目标网站的账号和密码,登录后即可使用该模块进行数据采集。同时,八达通还具有收集cookie的自定义功能。首次登录后,可以自动记住cookie。免去多次输入密码的繁琐,支持更多网站的采集。
指示
首先我们新建一个任务--进入流程设计页面--在流程中添加循环步骤--选择循环步骤--勾选软件右侧的URL列表复选框--打开URL列表文本框--将准备好的URL 列表填入文本框
接下来,将打开网页的步骤拖入循环中- 选择打开网页的步骤- 选中使用当前循环中的URL 作为导航地址- 单击保存。系统会在界面下方的浏览器中打开循环选择的URL对应的网页。
至此,循环打开网页的流程配置完成。运行该进程时,系统会一一打开循环中设置的URL。最后,我们不需要配置收集数据的步骤,这里就不赘述了。您可以参考文章从入门到精通系列一:采集单个网页。下图是最终的和过程
以下是该流程最终运行结果
变更日志
迭代函数
优化数据预览刷新机制
优化所有现场面板
Bug修复
修复了复制粘贴步骤的问题
修复数据预览副面板点击按钮异常的问题
修复自动识别后登录显示异常的问题
修复修改循环步模式时页面跳转异常的问题
修复字段预览显示排序不正确的问题