-
公开(公告)号:CN101782998A
公开(公告)日:2010-07-21
申请号:CN200910045619.3
申请日:2009-01-20
Applicant: 复旦大学
Abstract: 本发明涉及搜索引擎和在线产品信息的智能判断方法和计算机系统实现方法,基于元搜索技术得到在线产品信息页面,利用基于语义分析和网页结构分析技术抽取产品详细属性信息,利用预定义的在线产品信息发布规范,通过智能比对判断产品信息的规范性。本发明可以通过互联网,以电子邮件的方式,提供及时、精确、直观的特定产品监测结果报表,辅助互联网管理部门、电子商务监管部门等进行违规在线产品信息的跟踪和追查。
-
公开(公告)号:CN102662969B
公开(公告)日:2013-11-27
申请号:CN201210061434.3
申请日:2012-03-11
Applicant: 复旦大学
Abstract: 本发明属于互联网技术领域,具体为一种基于网页结构语义的互联网信息对象定位方法。本发明方法首先将检索到的相关网页的HTML代码转换为DOM树结构;然后根据互联网信息对象语义词典为每个文本节点进行语义匹配,分配不同的语义角色,对每一个DOM树的内部节点(非叶节点)计算其结构语义熵值,以衡量其语义丰富程度;最后综合熵值与网页的层次结构关系,反映某个节点内语义信息的聚集程度,在大量网页中判断指定信息对象所在的网页区域,进而抽取出所需数据。本发明的一种应用实例是互联网药品信息搜索和分析。
-
公开(公告)号:CN102662969A
公开(公告)日:2012-09-12
申请号:CN201210061434.3
申请日:2012-03-11
Applicant: 复旦大学
Abstract: 本发明属于互联网技术领域,具体为一种基于网页结构语义的互联网信息对象定位方法。本发明方法首先将检索到的相关网页的HTML代码转换为DOM树结构;然后根据互联网信息对象语义词典为每个文本节点进行语义匹配,分配不同的语义角色,对每一个DOM树的内部节点(非叶节点)计算其结构语义熵值,以衡量其语义丰富程度;最后综合熵值与网页的层次结构关系,反映某个节点内语义信息的聚集程度,在大量网页中判断指定信息对象所在的网页区域,进而抽取出所需数据。本发明的一种应用实例是互联网药品信息搜索和分析。
-
-