-
公开(公告)号:CN111897908B
公开(公告)日:2023-05-02
申请号:CN202010398752.3
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04
Abstract: 本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
-
公开(公告)号:CN115934953A
公开(公告)日:2023-04-07
申请号:CN202211199328.1
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/30 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。
-
公开(公告)号:CN110502742B
公开(公告)日:2021-11-05
申请号:CN201910625736.0
申请日:2019-07-11
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。
-
公开(公告)号:CN109992629A
公开(公告)日:2019-07-09
申请号:CN201910149696.7
申请日:2019-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F16/28
Abstract: 本发明涉及一种融合实体类型约束的神经网络关系抽取方法及系统,包括对实体类型施加注意力机制,该机制对实体的多种类型分配了不同权重,从而凸显了影响最大的类型标签;在损失函数中添加实体类型约束函数,该约束函数在更新过程中使实体词向量学习到实体类型信息,从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。
-
公开(公告)号:CN103605789A
公开(公告)日:2014-02-26
申请号:CN201310645868.2
申请日:2013-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/3089
Abstract: 本发明提供一种获取KAD网络上热门检索资源的方法及系统。所述方法包括:构造模拟节点并加入KAD网络,使得所述模拟节点在KAD网络空间中均匀分布;由所述模拟节点监听所述KAD网路中其他节点的请求消息。所述方法还包括由所述模拟节点将从资源检索请求消息中获取的资源ID发送至热门资源统计服务器进行统计。本发明能够比较全面、准确地获得KAD网络中的热门检索资源,能够为网络信息挖掘及网络信息安全等工作提供帮助。
-
公开(公告)号:CN115759103A
公开(公告)日:2023-03-07
申请号:CN202211527749.2
申请日:2022-11-30
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295
Abstract: 本发明提供一种小样本命名实体识别模型训练方法,包括:S1、获取训练集、训练集类型描述集合以及支持集、支持集类型描述集合;S2、分别在训练集和支持集上挖掘每个样本中的线索词并进行线索词标注以分别获得包含命名实体标签和线索词标签的训练集和支持集;S3、采用经步骤S2处理后的训练集和训练集类型描述集合对基础命名实体识别模型进行多轮迭代训练至收敛;S4、采用经步骤S2处理后的支持集和支持集类型描述集合对经步骤S3训练后的基础命名实体识别模型进行迁移训练直至收敛,获得由编码器和最近邻分类器组成的小样本命名实体识别模型。
-
公开(公告)号:CN110502742A
公开(公告)日:2019-11-26
申请号:CN201910625736.0
申请日:2019-07-11
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。
-
公开(公告)号:CN103533048B
公开(公告)日:2018-01-26
申请号:CN201310475961.3
申请日:2013-10-12
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BT网络中热门种子文件获取方法,包括下列步骤:1)构造多个虚拟BT客户端,所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间;2)各虚拟BT客户端监听BT网络中的get_peers消息,统计所收到的对应于每个infohash的get_peer消息的数目;3)定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目,并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。
-
公开(公告)号:CN116595407A
公开(公告)日:2023-08-15
申请号:CN202310388963.2
申请日:2023-04-12
Applicant: 中国科学院计算技术研究所
IPC: G06F18/24 , G06F18/214 , G06F18/25 , G06F40/289 , G06N3/0455 , G06N3/08
Abstract: 本发明提出一种基于标签序列一致性建模的事件论元检测方法及系统。主要包括词序列语义编码、词标签序列标注、易错标签序列生成、对比学习正则化。词序列语义编码对预处理后的词采用BERT与训练语言模型进行语义表示学习,并将事件类型信息融入表示向量中;词标签序列标注使用全连接网络来对每个词对应的标签概率分布做出预估;易错标签序列生成则是根据一定策略按照词标签序列概率分布生成易错标签序列;对比学习正则化则是基于易错标签序列和正确标签序列的对比学习构建正则化损失,提高词序列标签的一致性。
-
公开(公告)号:CN115687638A
公开(公告)日:2023-02-03
申请号:CN202211199819.6
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
-
-
-
-
-
-
-
-
-