最新推荐
-
齐鲁银行网银助手3.0.0.5官方版 安全软件 / 3.0M
-
360安全卫士U盘病毒专杀(Autorun.inf专杀)13.0.0.213简体中文绿色免费版 安全软件 / 86.1M
-
360安全卫士U盘病毒专杀工具v13.0.0.213绿色免费版 安全软件 / 86.1M
-
360安全卫士修复工具v13.0.0.213免费版 安全软件 / 86.1M
-
360安全卫士超强查杀V13.0.0.213安装版 安全软件 / 86.1M
精品推荐
-
Nimbus Web Clipper(浏览器插件)v4.4.1官方版 网络工具 / 441KB
查看 -
You123浏览器v5.10.12.116官方版 网络工具 / 57.9M
查看 -
迅雷Thunder 5.0.5.97 正式版 网络工具 / 3.3M
查看 -
5866游戏商城上号器v9.7.1.10310官方版 网络工具 / 99.6M
查看 -
盘它云v1.0.2官方 网络工具 / 158.9M
查看
本类排行
详情介绍
Houyi Collector是Google原技术团队打造的一款网页数据采集软件。可以可视化点击,一键采集网页数据。它适用于所有平台和Win/Mac/Linux。收集和导出是免费且无限制的。放心使用,可以后台运行,速度实时显示。
Houyi Collector是Google原技术团队打造的一款网页数据收集软件。可以可视化点击,一键采集网页数据。它适用于所有平台和Win/Mac/Linux。收集和导出是免费且无限制的。放心使用,可以后台运行,速度实时显示。
软件特点
1.可视化定制采集流程
全程问答引导、可视化操作、定制采集流程
自动记录并模拟网页操作序列
高级设置满足更多采集需求
2.点击提取网页数据
用鼠标点击选择要抓取的网页内容,操作简单
您可以选择提取文本、链接、属性、html 标签等。
3. 运行批量数据采集
软件根据采集流程和提取规则自动采集批次。
快速稳定,实时显示采集速度和进程
软件可以切换到后台运行,不影响前台工作。
4. 导出并发布收集的数据
收集的数据会自动制成表格,并且可以自由配置字段。
支持数据导出到Excel等本地文件
并一键发布到CMS网站/数据库/微信公众号等媒体
指示
自定义采集百度搜索结果数据的方法
第一步:创建采集任务
1)启动后羿采集器,进入主界面,选择自定义采集,点击创建任务按钮,创建“自定义采集任务”
2)输入百度搜索的网址,包括三种方法
1.手动输入:直接在输入框中输入网址。如果有多个URL,则需要用换行符分隔。
2. 单击从文件中读取:用户选择一个文件来存储URL。文件中可以有多个URL地址,地址之间需要用换行符分隔。
3、批量添加方式:通过添加、调整地址参数,生成多个常规地址
第2 步:定制收集流程
1)点击创建后,会自动打开第一个URL,然后进入自定义设置页面。默认情况下,已经创建了开始、打开网页、结束的流程块。底部模板区域用于拖放到画布中生成新的流程块;点击打开网页中的属性按钮可以修改打开的URL
2) 添加输入文本流块:将底部模板区域中的输入文本块拖至打开的网页块后面附近。当出现阴影区域时,可以松开鼠标。此时会自动连接,添加完成。
3)生成完整流程图:按照上面添加输入文本流程块的拖放过程添加新块:如下图:
关键步骤块设置介绍
第二步:定时等待,用于等待之前打开的网页完成。
第三步:点击输入框Xpath属性按钮,点击属性菜单中的图标选择网页中的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。
第四步:设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页上的百度点击按钮。
步骤5:用于设置循环加载下一个列表页面。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮,选择单个元素,然后单击属性菜单中该元素的xpath 属性按钮。执行与上述相同的操作,然后单击网页中的下一页按钮。循环次数属性按钮可以默认为0,即下一页的点击次数没有限制。
步骤6:用于设置一个循环以从列表页面提取数据。在循环块内的循环条件块中设置详细条件。单击此处的“操作”按钮,选择“未连接的元素列表”,然后单击属性菜单中元素的XPath属性按钮,然后在网页上连续单击两次以提取第一个块和第二个元素。周期时间属性按钮可以默认为0,这意味着要在列表中收集的字段数没有限制。
步骤7:要执行单击“下一页”按钮操作,请单击元素XPath属性按钮,然后在当前循环中选择该元素的使用XPath选项。
步骤8:使用相同的方法来设置网页加载的等待时间。
步骤9:要设置列表页面上提取的字段规则,请单击“属性”按钮中的循环按钮中的使用元素,然后在循环选项中选择“使用元素”。单击元素模板属性按钮,然后单击字段表中的添加或减去添加或删除字段。使用单击操作添加字段,也就是说,单击加号,然后将鼠标移至网页元素,然后单击以选择。
4)单击“开始收集”以开始收集
步骤3:数据收集和导出
1)收集任务正在运行
2)集合完成后,选择“导出数据”以将数据导出到本地文件。
3)选择“导出方法”以导出收集的数据。在这里,您可以选择Excel作为导出格式。
4)收集的数据被导出,如下所示