Patent search ap:("北京计算机技术及应用研究所") AND inv:"董毅" Page 1

1.

发明公开
基于语义相似度对文本提取数据相似度匹配方法审中-实审

公开(公告)号：CN119720991A

公开(公告)日：2025-03-28

申请号：CN202411699658.6

申请日：2024-11-26

Applicant: 北京计算机技术及应用研究所

Inventor： 段翠翠 , 刘耀 , 韩翠红 , 张宏 , 董毅 , 韦明韬 , 俞靓 , 高峰

IPC: G06F40/194 , G06F16/353 , G06F40/279 , G06F40/186 , G06F40/30 , G06F40/12 , G06F40/216 , G06F18/22 , G06N3/045

Abstract: 本发明涉及一种基于语义相似度对文本提取数据相似度匹配方法，属于自然语言处理领域。本发明获取并处理实体数据作为实体数据的标准词库，初始语义相似度模型训练，选取文档中的候选文本，获得文档主题及其分布，计算文档主题和各个事件领域的主题相似度来确定文档的类别，利用标准的事件领域划分方法，创建事件抽取模板，根据文档主题类别抽取文档数据至对应的事件抽取模板，将非结构化数据转化为结构化数据，从结构化数据中，识别实体数据作为待匹配文本，利用语义相似度模型确定待匹配文本和目标文本之间的相似度。本发明实现了对非结构化文档中的名词类文本与标准实体文本的自动匹配。

Patent Agency Ranking