新闻正文信息在线提取方法研究

　　文献标识码：A（文章编号BP）文章编号：16727800（2017）004000905
　　0引言当前，互联网资源丰富，如何从海量信息中获取所需信息已经成为Web智能信息处理研究领域面临的重大问题之一。由于实际的新闻网页往往包含很多与主题无关的导航区、超链接、广告信息、版权信息等噪声信息，设计搜索引擎按主题搜索相关信息的工具时，应采用新闻信息抽取技术剔除网页中的噪声信息，从而获取整个新闻的正文信息。新闻信息抽取技术是将Web作为信息源的一类信息抽取，即从新闻页面所包含的无结构或半结构化的信息中识别用户所需的数据。为了提高Web新闻信息抽取的准确度和效率，许多学者提出了各自的方法而且不断加以完善，主要可以分为4类：基于统计理论的技术、基于文档对象模型的技术、基于模板的技术和基于视觉特征的技术。
　　（1）基于统计理论的方法利用统计方法和规律，将网页HTML文档作为一个整体或去除网页标签，获取网页正文信息。该方法克服了数据源的限制，具有通用性。Arias等
　　[1]从网页标签序列中找出对应的文本序列，由于网页正文与非正文长度和标签数量存在差异，可以此为基础构建网页文本密度图，以统计的方法识别出网页正文部分；而参考文献[2]提出了一种基于行块分布的方法，该方法摆脱了网页结构的限制，可高效准确地抽取网页正文，但需要人工干预，且对网页上其它信息的提取不够。
　　（2）基于文档对象模型的方法，通过将HTML文档解析成一棵DOM树，利用节点特征来制定相应的抽取规则。目前已有许多成型的系统和经典算法，如 RoadRunner系统、DSE算法、MDR算法等
　　[3]。很多学者在此基础上进行了深入研究。如王琦等
　　[4]基于DOM规范，将HTML文档转换为含有语义信息的STU-DOM树，进行基于结构的过滤和基于语义的剪枝，提取网页主题；Gupta等
　　[5]使用启发式规则来构造过滤器，以对DOM树中的无用节点进行过滤删除，对于广告的过滤使用的是黑名单策略。该方法依靠文档本身的结构优势，不需要复杂技术和人工干预，但通用性不好。
　　（3）基于网页模板的提取算法。这类算法可以大致分为两类，一类是从同种结构的网页集中提取出模板作为参考，这种模板一般从同一网站的不同网页中提取；另一类是从各种不同的网页中归类，并分别提取抽象层次更高、归纳性更强的通用模板。Reis等
　　[6]使用一种树的类正则表达式pe-pattern，以RTDM算法对样本网页进行聚类，并从聚类结果的DOM树中提取出ne-pattern作为该聚类的模板；Vieira等
　　[7]对RTDM算法进行拓展，使用树的最小编辑距离，实现对DOM树模板的检测和删除。这些方法从模板角度提供了比较新颖的思路，但是计算量非常大，在处理海量数据时效率较低。
　　（4）基于视觉分块的提取算法。这类算法从用户对网页的视觉感受出发，依照网页中节点的样式特点对页面分块，再从分块结果中找出正文所在的块来达到提取正文的目的。黄文蓓等
　　[8]以TVPS算法为参考，??建DOM树，以

等容器标签为基准，寻找最低层容器节点的各个文本节点进行合并，计算信息量并比较最低层容器节点与其兄弟节点、父节点的信息量，从而选择出能够构成文本块的节点。该方法考虑到了DOM中包含文本节点的结构性，相比于原有算法，准确率得到了一定提升，但算法的运算量依然较大。这些方法抽取正文信息的前提是所有正文信息都在网页内，但新闻图片网页的正文信息一般不是全部在网页内，例如：腾讯、搜狐、新浪、凤凰等新闻图片频道，大多需要用户点击翻页获取更多信息，因而传统方法很难准确地获取这种新闻网页信息。因此本文在研究现有抽取技术的基础上，利用动态网页信息抽取方法、行块分析算法和DOM技术，实现了针对大型新闻门户的新闻网页正文信息抽取系统。该系统不仅解决了正文信息在网页上的正文抽取问题，而且解决了正文信息不全在网页上的正文抽取问题。
　　1系统概述
　　本系统总体分为3部分：预处理模块（Pretreatment）、动态型网页信息抽取模块（Dywebextract）、新闻普通网页信息抽取模块（Stwebextract）。系统总体框架如图1所示。预处理模块（Pretreatment）：Pretreatment模块是正文信息提取预处理模块，可提前获取新闻标题、发布时间等信息；对不同的新闻网页进行分类，对于动态型网页则采用动态型网页抽取模块，对于新闻普通网页则采用静态型网页信息抽取模块。动态型网页信息抽取模块（Dywebextract）：该模块的主要功能是对新闻图片网页进行解析、识别翻页符和获取正文信息。新闻普通网页信息抽取模块（Stwebextract）：该模块是对普通新闻网页进行解析，其基于行分块分布算法来提取正文信息，通过中文语法规范来减少噪声。
　　2各模块算法设计与实现
　　2.1预处理模块在新闻正文信息抽取系统中，为保证新闻正文信息的抽取质量和抽取效率，在抽取相关信息时应按照网页类型采用不同的抽取方法（即大部分新闻图片网页采用动态抽取方法，新闻普通网页采用行块分布方法）。由此可以看出，在抽取信息之前应对网页进行分类，根据抽取目的，采用预处理模块完成新闻网页分类工作。又由于行块分布算法不依赖于网页结构本身，对于新闻标题等信息提取明显不足，因此需要在预处理模块中利用DOM技术提取新闻标题、发布时间等信息，并将新闻标题、新闻网页HTML文档、新闻URL等信息打包分别传给下级模块。因此，预处理模块的功能是网页分类和利用文档对象模型提取新闻标题等信息。　　2.1.1Web新闻分类新闻网页一般分为两种类型：导航型网页、主题型网页。主题型网页通常通过成段的文字、图片等信息描述新闻主题，为了便于处理又可将其分为两小类：①新闻普通网页。这类网页类似静态网页，当网页加载完之后，要采集的信息都在网页上，大部分新闻网页属于这一类；②动态型网页。即图片新闻（指有相同事件主题的图片及简短文字描述的数据集合），当网页加载完之后，要采集的信息不都在网页中，需要翻页才能更新网页内容，大量新闻图片网页属于这一类，如图2所示。通常，网络上的每一种资源，例如网页、图片、视频等，都有一个唯一的URL，其信息包含了文件位置和浏览器对其如何处理。URL的一般格式为：协议类型：//服务器地址（一般情况下，默认不写端口号）/路径名/[？查询][#信息片段]，其中方括号[]为可选项，例如：http：//news.qq.com/a/20160714/048155.htm#p=1 通过观察验证，属于同一新闻网站动态网页的内容布局与样式外观比较相似。与此同时，同一网站的动态网页的URL相似度也高，这一点从网页开发和网站管理的高效性和便捷而言也是十分合理的，因此利用URL相似度进行新闻网页分类。Qi等
　　[9]在计算URL相似度上使用了Dice系数并结合使用了统计方法完成URL的相似度量。这种方法从字符串处理的角度出发，又由于URL的格式特点，在协议、服务器名、域名相同的情况下，本文利用新闻URL特征来判断动态型网页，详细介绍如下：①若新闻url字符串中，其路径中包含有“pic”、“photo”等关于图片的英文字符串，则表示该新闻URL为动态型网页。例如：人民网、新华网等网站中的URL包含这些关于图片的字符串；②若新闻url其后缀符合数字递增或字母递增，则该新闻网页是动态型网页，例如：腾讯、新浪、搜狐、网易、凤凰等网站中的URL后缀有极强的规律，为数字递增。2.1.2〓文档对象模型文档对象模型（DOM）是一种处理HTML和 XML文档的标准应用程序接口（API），它将文档表示为一个树形结构，HTML标签、属性或文本都被作为树的一个节点。基于DOM的信息抽取技术利用网页的结构特点，能够简单、高效地从网页中提取所需内容，其克服了行分块算法对新闻标题、发布时间等信息提取不足的缺点。因此本文在正文信息抽取之前，使用HtmlUnit
　　[10]渲染新闻网页获取HTML源码，然后使用Jsoup中的DOM对象抽取新闻标题、发布时间等信息。例如：新闻标题抽取时，首先提取标签中的标签内容，然后截取‘―’、‘_’、‘/’等标记（<TITLE>内容常常用来分割标题与新闻来源）之前的内容为新闻标题。2.2动态型网页信息抽取模块 Dywebextract模块接受了Pretreatment模块的数据，其主要功能是动态型网页翻页识别和正文信息抽取。对于动态型网页翻页识别，采用两种策略：①若该新闻网页有本地url pattern模板（系统在初始化时根据各大新闻网站动态型网页url的特点，添加url pattern）或者XPath模板（有效元素路径），则按照url pattern模板自行翻页（url后缀数字递增或者字母递减）或触发点击XPath。在新闻网页标题相同的情况下，循环翻页直到抓取不到有效页面（出现重复页面或者死链接）；②若本地没有相应的url pattern模板或者XPath，则获取HTML中的备选有效元素，然后将其触发，最后通过触发有效性来筛选出有效元素。对于正文信息提取，本文利用同一个新闻门户里的动态型网页结构高度相似的特点，采用两个策略：①若本地有XPath pattern模板?欤?则按照XPath pattern模板提取正文信息；②若没有，则利用布局相似性的网页正文内容提取方法<br /> 　　[11]提取正文信息。对于XPath pattern模板库的管理采用计时的管理方式，若XPath pattern模板库中的一个XPath连续一个星期没用到，则认为该模板为失效XPath，将其删去。本模块算法流程如图3所示，下面重点介绍其中的几个主要环节。<br /> 　　2.2.1备选有效元素集合动态型网页中含有有效元素，有效元素触发之后会异步生成动态信息，而静态型网页不需要触发有效元素来获取信息。但动态型网页中含有很多触发元素（比如按钮、文本框、链接等），有效元素触发生成的动态信息为有价值的动态信息，而无效元素触发生成的动态信息为无效信息，比如触发元素仅改变了网页的字体颜色或其它噪声部分。在动态型网页中，、<div>、<span>等标签代表的元素可能导致页面发生变化<br /> 　　[12]，从而产生有价值的动态信息，因此本系统将有效元素筛选仅限于、<DIV>、<SPAN>标签。为进一步缩小有效元素的搜索范围，提高页面信息的获取效率，需要在搜索有效元素之前确定有效元素的标签集合。对于本系统而言，有效元素是可以点击下一页获取下一页正文信息的元素。因此，本文统计了腾讯等8个大型新闻门户网站，从这些新闻门户中随机抽取各100个新闻网页，发现绝大部分有效元素的属性值里都包含有“next”、“right”、“下一张（页）”等字眼。有效元素一般绑定了有效事件，通过用户点击元素执行脚本程序或者网页跳转，以获取更多网页信息，因此其属性值里包含有JavaScript或者一个URL。对于标签，若其子标签里没有<IMG>，则认为其是有效标签。综上所述，本系统将属性里包含有“next”、“下一张”等字眼的、<DIV>、<SPAN>标签定义为备选有效标签。<br /> 　　2.2.2触发元素动态型网页采用异步加载技术，当用户点击触发有效元素时，会激发有效元素绑定的特定事件，浏览器会执行该事件相应的JavaScript动态脚本程序。因此，需要一个工具来模拟用户点击操作，HtmlUnit恰恰能解决此模拟问题。HtmlUnit是一款开源的Java页面分析工具，采用了Rhinojs引擎，可以模拟浏览器运行，且运行速度很快。本系统采用全探测扫描算法　　[13]，将有效元素集合中的所有元素进行点击操作。2.2.3触发有效性判断动态型网页在触发有效元素时，会改变DOM树的结构，触发有效性判断也可以表示为DOM树结构的变化，因此可以通过比较DOM树结构相似性作为触发有效性的标识。由于每次获取下一页，网页里只有图片和正文信息变动，其它噪声、链接等部分基本不变，因此在判断DOM树相似性之前，通过正则表达式过滤获取中文文字信息。何昕等<br /> 　　[14]利用简单树匹配算法来判断DOM树相似性，它是一个受限的匹配算法，采用动态规划来计算两棵树的最大匹配结点个数，得到两棵树结构的相似度；Roest等<br /> 　　[15]提出了比较页面的方法，该方法比较每个模块首先定位到该模块所针对的DOM树结构的特点部位，若判定其内容相同，则过滤掉该部分信息，将剩余内容传递给下一比较模块，否则便可以直接判定两个DOM树不相似。以上两种方法更多的是从DOM树结构出发，考虑到新闻网页有效信息都在中文文字里，在网页标题的情况下，本系统对比新得到的网页中文信息与触发之前的网页中文信息，若只有极少数发生变化，则认为新得到的网页无效，该触发无效；否则，认为得到的网页有效，将有效元素XPath存入XPath模板库中。2.3新闻普通网页信息抽取模块新闻普通网页信息抽取模块的目标是抽取新闻普通网页的正文信息。新闻普通网页的正文结构通常比较紧凑，网页内图片较少，正文代码的一行大都是文字，超链接长度所占比率不大。又由于行块分布算法对主题网页有很好的通用性和较高的准确率，因此使用行块分布算法。行块分析算法的思想是哈尔滨工业大学信息检索中心的陈鑫等研究提出的，其网页正文块起始行块号Xstart和结束行块号Xend的确定，必须同时满足以下几个条件，这里定义 Y（X）为以行号 X 为轴的行块长度值。（1）Ystart> Y（Xt），其中Y（Xt）是行块长度的第一个骤升点，骤升点的行块长度必须大于预先定义的阈值。<br /> 　　（2）Y（Xn）不等于0（其中n属于[start+1，start+n]），紧跟在骤升点的行块长度不能为0，以消除噪声。<br /> 　　（3）Y（Xm）=0（其中m属于[end，end+1]），骤降点以及紧跟在骤降点后面行的行块长度为 0，以保证正文提取结束。本文根据行块分布算法的思想，利用Java中的JFreeChart绘图工具，可得如图4所示的行块分布函数折线图。从图4可看出，有很多内容块[start=743，end=745]、[start=749，end=773]、[start=1160，end=1165]、[start=1198，end=1205]，而且内容块中可能还有噪声部分没有清除。因此，根据新闻网页噪声的特点，添加了第4个约束条件。<br /> 　　（4）Ystart<Y（Xn）<Y（Xend），其中n属于[start，end]，在这区域内也可能存在噪声，其噪声一般由分散的句子或词语组合而成，这些一般不符合现代语句语法，句子之间基本没有标点符号。因此在n属于[start，end]中，句子末尾不含标点符号或特殊字符串，只含有空格，本文通过正则表达式将噪声部分去掉。<br /> 　　3实验测试<br /> 　　3.1实验准备<br /> 　　测试系统的机器环境为：1台台式机（CPU为Intel四核2.93GHz，4G内存，硬盘为7 200r/min，操作系统为Win7，10兆网速）。本系统采用纯Java实现，有效元素路径存储选用MySQL5.5数据库存储。为了使结果更具说服力，本文设计了一个轻量级的主题爬虫，从知名的新闻网站（如腾讯新闻、网易新闻、搜狐新闻、新浪新闻等）中爬取网页，以此作为实验网页集。实验主要测试新闻正文信息提取的正确率和提取速度，而新闻标题则是由网页采集器提取（一般导航网页里，新闻标题和新闻URL在一起），这里不作处理。对于动态新闻，提取出的正文完全覆盖真正的含义，而且没有过滤干净的噪声占正文的比例不大于5%时才算合格。对于静态网页，本文采用准确率来表示提出正文信息的准确性：准确率=正确过滤的网页数/总网页个数×100%<br /> 　　3.2实验结果表1给出了系统网页正文抽取准确率以及在线抽取正文信息速率，其中每个网站动态网页和静态网页各100个，总共1 600个网页。表1的试验结果表明：本系统抽取静态型网页的准确率高于93%，对原新闻网页正文内容提取比较完整，但动态型网页的准确率都在80%以上。出现误差的原因是不同专题的设计风格不尽相同，以及人们对于网页中正文的界定差异等因素存在，本文算法的结果或多或少会受到一定影响。对于正文内容为纯文本的网页，本文算法的准确率很高。对于影响本系统正确率的几个主要因素总结如下：①动态型网页和普通新闻网页的区分是根据URL相似度和URL是否含有标识符来判断的；②对于普通新闻网页中正文内容和噪声部分的比例，如果网页内以图片或视频为主要内容，过短的正文内容会被作为噪声，从而降低提取结果的正确率；③普通新闻网页中若嵌入图片，将使正文各部分之间距离相差较大。<br /> 　　4实验结论本文提出的新闻网页正文抽取系统除了利用行分块算法抽取网页信息以及DOM技术之外，还利用动态型网页结构上的相似性特点，实现了大型新闻网站新闻正文信息的提取。本系统不依靠大量的训练集，能够较准确地抽取新闻正文信息，实验结果验证了其有效性。然而，对英文网页以及结构复杂的网页抽取效果不是很理想，尤其是嵌入图文信息的普通新闻网页。此方法只能抽取文字信息，不能获得网页图片，下一步可以对英文网页优化、复杂网页抽取算法和网页图片获取方法等进行深入研究。<br /> </div> </div> </div> <div style="margin-top:10px;"> <script type="text/javascript"> (function() { var s = "_" + Math.random().toString(36).slice(2); document.write('<div style="" id="' + s + '"></div>'); (window.slotbydup = window.slotbydup || []).push({ id: "u3617256", container: s }); })(); </script>  <script type="text/javascript" src="//cpro.baidustatic.com/cpro/ui/cm.js" async="async" defer="defer" ></script> </div> <div class="cbox box-sha"> <h2 class="banTit"> <p class="Tit1"><span class="fc2">相关论文</span></p> <p class="banlink"></p> </h2> <div class="classlist"><a href="https://m.lunwendata.com/32774.html">方法研究</a><a href="https://m.lunwendata.com/86.html">方法</a><a href="https://m.lunwendata.com/3660.html">研究</a><a href="https://m.lunwendata.com/28111.html">在线</a><a href="https://m.lunwendata.com/395.html">信息</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161328">宏观经济学对市场经济的影响研究</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161335">乡村生态治理共同体建设的农民主体性</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161337">图书馆图书资料信息化管理研讨</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161341">新农村建设中强化农村经济经营管理的</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161347">课程思政融入“保险学”教学的路径及</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161352">辅导员视角下新闻传播学类专业学生就</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161353">人事档案管理信息化建设创新路径研究</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161358">河南打造具有国际影响力的黄河文化旅</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161361">数字媒体时代辽宁老字号企业品牌运营</a></div> <div class="neiRon2"><a href="https://m.lunwendata.com/show.php?id=161367">大数据时代拼多多盈利模式研究</a></div> </div> <div class="footer txtsha1"> <p>Copyright © LunwenData. All Rights Reserved.</p> </div> </body> </html>