-
公开(公告)号:CN119067120A
公开(公告)日:2024-12-03
申请号:CN202411193791.4
申请日:2024-08-28
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06F40/216 , G06N3/0442
Abstract: 本公开提供了一种实体识别方法,其包括:使用预训练语言模型处理该威胁情报序列,获得与该威胁情报序列对应的语义特征矩阵;其中,所述语义特征矩阵包括多个元素;采用增强模型对所述语义特征矩阵进行处理,获得每个语义特征矩阵中的每个元素的最终隐藏状态;以及获得全局句子表示;将每个元素的最终隐藏状态与全局句子表示进行融合,获得对应于每个元素的全局向量;根据每个元素的全局向量与不同的权重矩阵的运算结果,获得全局向量的不同权重;根据全局向量的不同权重对每个元素的最终隐藏状态与全局句子表示进行运算融合,获得融合后的全局特征表示;基于融合后的全局特征表示,获得标签序列概率;并输出最大概率值的实体类型。
-
公开(公告)号:CN116204609A
公开(公告)日:2023-06-02
申请号:CN202310257340.1
申请日:2023-03-09
Applicant: 北京信息科技大学
IPC: G06F16/33 , G06F16/35 , G06F40/30 , G06F40/284
Abstract: 本公开提供了一种事件元素的抽取方法,包括:对原始文本中各个词语进行多维度向量化处理,以获得用于表征词语的独立语义的基础语义向量;对基础语义向量进行相关性加权,获得用于表征词语的文本关联语义的加强语义向量;以及确定加强语义向量在原始文本的事件类型中所对应的元素角色,以获取包括元素角色的事件元素。本公开还提供一种事件元素的抽取装置、电子设备及存储介质。
-
公开(公告)号:CN105446956B
公开(公告)日:2018-08-28
申请号:CN201510863734.7
申请日:2015-12-02
IPC: G06F17/27
Abstract: 本发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。
-
公开(公告)号:CN116757196A
公开(公告)日:2023-09-15
申请号:CN202310172213.1
申请日:2023-02-27
Applicant: 北京信息科技大学
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06N7/01 , G06N3/0442 , G06N3/045 , G06N3/048 , G06N3/08
Abstract: 本公开提供了一种事件触发词抽取方法及装置,该方法在预训练阶段引入事件元素角色与中文事件专用术语等向量信息,采用了词语级别的掩码语言模型处理机制,构建出更符合中文事件触发词抽取特点的EBERT模型,使得模型获得更可靠的中文语言表示。在EBERT预训练模型的基础上拼接双向长短期记忆网络,通过该网络来提取中文新闻长文本的上下文关键特征,增强向量表达,得到全局序列信息。将全局序列信息输入条件随机场,使用条件随机场校验序列标签,输出中文事件触发词抽取结果,提升了触发词的识别效果和抽取效果。
-
公开(公告)号:CN106407168A
公开(公告)日:2017-02-15
申请号:CN201610803388.8
申请日:2016-09-06
Abstract: 本发明涉及一种应用文自动生成方法,包括以下步骤:步骤1)建立语料库;步骤2)选择多个适用实体并输入其对应的具体内容;步骤3)建立模板库并从中选择一个模板;步骤4)对所选择的模板进行润色。本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105446956A
公开(公告)日:2016-03-30
申请号:CN201510863734.7
申请日:2015-12-02
IPC: G06F17/27
CPC classification number: G06F17/271
Abstract: 本发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。
-
公开(公告)号:CN116663545A
公开(公告)日:2023-08-29
申请号:CN202310315234.4
申请日:2023-03-28
Applicant: 北京信息科技大学
IPC: G06F40/289 , G06F40/126 , G06N3/08 , G06N3/084 , G06F16/36 , G06F40/295 , G06F16/35 , G06N3/04
Abstract: 本公开提供了一种事件抽取方法及装置,该方法首先依据小样本数据对通用信息抽取模型进行微调,然后将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据,之后将小样本数据和新增样本数据作为训练数据对ERNIE模型进行训练,依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量,最后依据Global Pointer模型对特征向量进行解码,得到事件元素,该方法基于UIE、ERNIE和Global Pointer进行事件元素的抽取,可以针对领域事件抽取标注数据样本较少的问题,通过自动化的方式对训练样本进行扩充,将准确率、召回率和F1作为评价指标,提高了事件识别任务上和论元识别任务上的F1值,能有效提升小样本下的抽取性能,并且还解决了论元重叠的问题。
-
-
-
-
-
-