广东工业大学学报 ›› 2018, Vol. 35 ›› Issue (02): 51-56.doi: 10.12052/gdutxb.170152

• • 上一篇    下一篇

基于文本块密度与标签路径等特征的正文提取

杨贤1, 唐超兰1, 李航2   

  1. 1. 广东工业大学 艺术与设计学院, 广东 广州 510090;
    2. 广东工业大学 计算机学院, 广东 广州 510006
  • 收稿日期:2017-10-16 出版日期:2018-03-09 发布日期:2018-03-13
  • 通信作者: 唐超兰(1969-),女,教授,主要研究方向为交互设计.E-mail:tangchl@gdut.edu.cn E-mail:tangchl@gdut.edu.cn
  • 作者简介:杨贤(1982-),男,助理研究员,主要研究方向为数据挖掘、人机交互.
  • 基金资助:
    广东省部产学研专项资金企业创新平台资助项目(2013B090800042)

Text Extraction Based on Text Block Density with Tag Path and Other Features

Yang Xian1, Tang Chao-lan1, Li Hang2   

  1. 1. School of Art and Design, Guangdong University of Technology, Guangzhou, 510090, China;
    2. School of computers, Guangdong University of Technology, Guangzhou 510006, China
  • Received:2017-10-16 Online:2018-03-09 Published:2018-03-13
  • Supported by:
     

摘要: 为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.

关键词: 正文抽取, 文本块, 标签路径, 文本密度

Abstract: Most of web pages contain content information as well as a lot of noisy information. In order to address this problem and improve the accuracy of web page extraction, a web page extraction method is proposed via text block density with tap path and other features. The proposed method mostly combines the advantages of text block extraction method and label path extraction method. First, the block of the text is determined according to the density feature of the text block, and then the tag path method is used to remove the noisy node in the block, the text node in the text block is extracted from the content finally. This solution effectively solves the problem that the noisy information in the text block is difficult to filter and the tag path method is easy to extract the long text from the noisy block. In the end, experiments show that the solution is better than CETR and CETD in most cases.

Key words: content extraction, text block, tag path, text density

中图分类号: 

  • TP391
[1] 谢国波, 林立, 林志毅, 贺笛轩, 文刚. 基于YOLOv4-MP的绝缘子爆裂缺陷检测方法[J]. 广东工业大学学报, 2023, 40(02): 15-21.
[2] 陈靖宇, 吕毅. 基于脉冲神经网络的冷链制冷机结霜检测方法[J]. 广东工业大学学报, 2023, 40(01): 29-38.
[3] 叶文权, 李斯, 凌捷. 基于多级残差U-Net的稀疏SPECT图像重建[J]. 广东工业大学学报, 2023, 40(01): 61-67.
[4] 邹恒, 高军礼, 张树文, 宋海涛. 围棋机器人落子指引装置的设计与实现[J]. 广东工业大学学报, 2023, 40(01): 77-82,91.
[5] 谢光强, 许浩然, 李杨, 陈广福. 基于多智能体强化学习的社交网络舆情增强一致性方法[J]. 广东工业大学学报, 2022, 39(06): 36-43.
[6] 刘信宏, 苏成悦, 陈静, 徐胜, 罗文骏, 李艺洪, 刘拔. 高分辨率桥梁裂缝图像实时检测[J]. 广东工业大学学报, 2022, 39(06): 73-79.
[7] 熊武, 刘义. 粒子滤波算法在BDS高铁铁轨静态形变监测中的应用研究[J]. 广东工业大学学报, 2022, 39(04): 66-72.
[8] 易闽琦, 刘洪伟, 高鸿铭. 电商平台产品共同购买网络的影响因素研究[J]. 广东工业大学学报, 2022, 39(03): 16-24.
[9] 丘展春, 费伦科, 滕少华, 张巍. 余弦相似度保持的掌纹识别算法[J]. 广东工业大学学报, 2022, 39(03): 55-62.
[10] 郑佳碧, 杨振国, 刘文印. 基于细粒度混杂平衡的营销效果评估方法[J]. 广东工业大学学报, 2022, 39(02): 55-61.
[11] Gary Yen, 栗波, 谢胜利. 地球流体动力学模型恢复的长短期记忆网络渐进优化方法[J]. 广东工业大学学报, 2021, 38(06): 1-8.
[12] 李光程, 赵庆林, 谢侃. 去中心化的数据处理方案设计[J]. 广东工业大学学报, 2021, 38(06): 77-83.
[13] 谢光强, 赵俊伟, 李杨, 许浩然. 基于多集群系统的车辆协同换道控制[J]. 广东工业大学学报, 2021, 38(05): 1-9.
[14] 张巍, 张圳彬. 联合图嵌入与特征加权的无监督特征选择[J]. 广东工业大学学报, 2021, 38(05): 16-23.
[15] 邓杰航, 袁仲鸣, 林好润, 顾国生. 协同超像素和视觉显著性的图像质量评价[J]. 广东工业大学学报, 2021, 38(05): 33-39.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!