基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.介绍了HTMLParser的原理和iava正则表达式相关知识,基于HTMLParser包和正则表达式.以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用.
推荐文章
基于网格的Web信息抽取系统的设计与实现
Web信息抽取
网格
Globus
调度
基于HTMLParser的Web文献信息提取
HTMLParser
Web文献
信息提取
Web信息抽取系统的设计
Web信息抽取
主题精选
DOM树
XPath
XSLT
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于HTMLParser的Web信息抽取系统的设计与实现
来源期刊 辽宁石油化工大学学报 学科 工学
关键词 信息抽取 正则表达式 HTMLParser包 Java
年,卷(期) 2006,(2) 所属期刊栏目 计算机与自动化
研究方向 页码范围 83-86
页数 4页 分类号 TP311.1
字数 2786字 语种 中文
DOI 10.3969/j.issn.1672-6952.2006.02.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 魏海平 辽宁石油化工大学计算机与通信工程学院 55 352 10.0 17.0
2 李彦刚 辽宁石油化工大学计算机与通信工程学院 1 42 1.0 1.0
3 侯兴华 辽宁石油化工大学计算机与通信工程学院 2 42 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (249)
参考文献  (8)
节点文献
引证文献  (42)
同被引文献  (11)
二级引证文献  (57)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(6)
  • 参考文献(0)
  • 二级参考文献(6)
2000(5)
  • 参考文献(1)
  • 二级参考文献(4)
2001(6)
  • 参考文献(0)
  • 二级参考文献(6)
2002(4)
  • 参考文献(1)
  • 二级参考文献(3)
2003(4)
  • 参考文献(4)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(3)
  • 引证文献(3)
  • 二级引证文献(0)
2008(9)
  • 引证文献(5)
  • 二级引证文献(4)
2009(2)
  • 引证文献(2)
  • 二级引证文献(0)
2010(12)
  • 引证文献(7)
  • 二级引证文献(5)
2011(15)
  • 引证文献(8)
  • 二级引证文献(7)
2012(17)
  • 引证文献(5)
  • 二级引证文献(12)
2013(9)
  • 引证文献(0)
  • 二级引证文献(9)
2014(11)
  • 引证文献(5)
  • 二级引证文献(6)
2015(8)
  • 引证文献(2)
  • 二级引证文献(6)
2016(7)
  • 引证文献(4)
  • 二级引证文献(3)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
信息抽取
正则表达式
HTMLParser包
Java
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
辽宁石油化工大学学报
双月刊
1672-6952
21-1504/TE
大16开
辽宁省抚顺市望花区丹东路西段1号
8-257
1981
chi
出版文献量(篇)
2263
总下载数(次)
3
总被引数(次)
12790
论文1v1指导