Patent search ap:("中国科学院计算技术研究所") AND inv:"王之威" Page 1

1.

发明公开
一种基于语义的网页信息抽取方法及系统审中-实审

公开(公告)号：CN114528459A

公开(公告)日：2022-05-24

申请号：CN202210044347.0

申请日：2022-01-14

Applicant: 中国科学院计算技术研究所

Inventor： 郭岩 , 王之威 , 刘杨昊 , 刘悦 , 薛源海 , 俞晓明 , 沈华伟 , 程学旗

IPC: G06F16/951 , G06F16/958 , G06F16/35 , G06F40/30 , G06F40/146

Abstract: 本发明提出一种基于语义的网页信息抽取方法，包括：获取目标网页的目标DOM树，对该目标DOM树的目标骨架节点按句进行分裂，得到该目标DOM树的目标骨架子节点；以分类模型按目标任务语义对所有该目标骨架子节点进行分类，获得该目标DOM树的目标信息子节点；对所有该目标信息子节点形成的节点路径进行聚类，获得该目标网页的目标信息树，对该目标信息树中包含的网页信息进行抽取。本发明还提出一种基于语义的网页信息抽取系统，以及一种用于实现基于语义的网页信息抽取的数据处理装置。

2.

发明公开
一种基于语义的开放域网页知识抽取方法及系统审中-实审

公开(公告)号：CN117131189A

公开(公告)日：2023-11-28

申请号：CN202310294820.5

申请日：2023-03-23

Applicant: 中国科学院计算技术研究所

Inventor： 郭岩 , 王之威 , 刘悦 , 沈华伟 , 程学旗

IPC: G06F16/35 , G06F16/31 , G06F16/332 , G06F40/35 , G06N3/0499 , G06N3/08

Abstract: 本发明提出一种基于语义的开放域网页知识抽取方法，包括：获取开放域网页的骨架树，对该骨架树的骨架节点进行分裂，得到该骨架节点的骨架子节点，生成骨架子节点序列；对该骨架子节点和该骨架节点标注分类标签，根据该分类标签对该骨架树进行关系抽取，获得抽取任务的关系子节点序列，并生成关系片段；基于该关系片段对该骨架树进行客体抽取，以抽取到的骨架子节点序列为客体片段；以该关系片段和其对应的客体片段为该抽取任务的抽取结果。本发明还提出一种基于语义的开放域网页知识抽取系统，以及一种用于开放域网页知识抽取的数据处理装置。

Patent Agency Ranking