GeneralNewsExtractor(新闻网页正文通用抽取器)v0.2.6官方版
最新推荐
-
齐鲁银行网银助手3.0.0.5官方版 安全软件 / 3.0M
-
360安全卫士U盘病毒专杀(Autorun.inf专杀)13.0.0.213简体中文绿色免费版 安全软件 / 86.1M
-
360安全卫士U盘病毒专杀工具v13.0.0.213绿色免费版 安全软件 / 86.1M
-
360安全卫士修复工具v13.0.0.213免费版 安全软件 / 86.1M
-
360安全卫士超强查杀V13.0.0.213安装版 安全软件 / 86.1M
精品推荐
-
Nimbus Web Clipper(浏览器插件)v4.4.1官方版 网络工具 / 441KB
查看 -
5866游戏商城上号器v9.7.1.10310官方版 网络工具 / 99.6M
查看 -
迅雷Thunder 5.0.5.97 正式版 网络工具 / 3.3M
查看 -
You123浏览器v5.10.12.116官方版 网络工具 / 57.9M
查看 -
VG浏览器v9.7.3.10官方版 网络工具 / 184.8M
查看
本类排行
详情介绍
GeneralNewsExtractor是基于论文《基于文本和符号密度的网页文本提取方法》用Python实现的文本提取器。它可用于提取HTML 文本的内容、作者和标题。
GeneralNewsExtractor(通用新闻网页文本通用提取器)是基于论文《基于文本和符号密度的网页文本提取方法》用Python实现的文本提取器。它可用于提取HTML 文本的内容、作者和标题。
发展介绍
项目起源
这个项目的开发源于我在CNKI上发现一篇关于新闻网站文本自动提取的算法论文——《基于文本和符号密度的网页文本提取方法》)
本文描述的算法看起来简洁、清晰、逻辑性强。但由于论文只讲了算法原理,没有具体的语言实现,所以我根据论文使用Python来实现这个提取器。分别使用今日头条、网易新闻、友民星空、观察者网、凤凰网、腾讯新闻、阅达网、新浪新闻进行测试,发现提取效果非常好,准确率几乎达到100%。
项目状况
在论文中描述的文本提取的基础上,我添加了标题、发表时间和文章作者的自动检测和提取功能。
目前这个项目是一个非常非常早期的demo。发布出来是希望尽快得到大家的反馈,以便更好、更有针对性的开发。
本项目命名为extractor而不是crawler,以避免不必要的风险。因此,这个项目的输入是HTML,输出是字典。请使用适当的方法获取目标网站的HTML。
该项目现在不会也不会提供主动请求网站HTML 的功能。