-
公开(公告)号:CN118709688A
公开(公告)日:2024-09-27
申请号:CN202410746400.0
申请日:2024-06-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/242 , G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/082
Abstract: 本发明公开一种基于问答机制的文本变体词识别方法、装置及设备,属于文本信息识别领域。所述方法包括:构建变体词库,并通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强;在数据增强后的变体词库上训练一变体词推理模型,所述变体词推理模型的网络结构包括:一语言表征模型和两个独立的全连接层;将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率;基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果。本发明不仅能够提高变体词识别的准确性,还能够有效地降低模型的维护成本,增强其在实际应用中的适应性和鲁棒性。
-
公开(公告)号:CN118708728A
公开(公告)日:2024-09-27
申请号:CN202410746389.8
申请日:2024-06-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F16/33 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于难度序列推理的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明根据文档上下文选择对应的提示学习模板,对上下文和提示学习模板进行编码,得到上下文表示和提示表示,该提示表示包含论元角色的向量表示;根据每个论元角色的向量表示计算每个论元角色的预测困难分数,根据预测困难份数对论元角色进行排序,得到预测的推理路径;按照预测的推理路径的顺序进行信息推理,得到每个论元角色的推理概率分布;根据得到的每个论元角色的推理概率分布,预测每个论元角色的位置并抽取论元。本发明能够利用简单论元的信息来帮助抽取困难的论元。
-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN118760745A
公开(公告)日:2024-10-11
申请号:CN202410736214.9
申请日:2024-06-07
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种面向知识图谱复杂逻辑推理的生成式方法。本发明包括查询转换模块和扩散推理模块,逻辑查询转换模块将一阶逻辑查询转换为输入序列,扩散推理模块展示了前向和后向的双向生成过程,并设计了一个结构增强自注意力机制的变换器。查询转换模块将符号化的一阶逻辑查询转换为自然语言输入序列,扩散推理模块通过前向过程和后向过程的多步生成过程来捕捉复杂逻辑查询的复合分布;同时,在扩散模型的转换器中设计了一个结构增强的自注意力机制,以有效地融合知识图谱中重要的结构特征。本发明通过对扩散中间过程的多粒度控制进一步保证了模型的可控性和可解释性;相较于其他基线方法实现了更好的知识图谱推理结果。
-
公开(公告)号:CN118503775A
公开(公告)日:2024-08-16
申请号:CN202410499002.3
申请日:2024-04-24
Applicant: 中国科学院信息工程研究所
IPC: G06F18/241 , G06N3/042 , G06N3/082
Abstract: 本发明公开了基于属性图表示的用户网络节点或边的分类方法及系统,属于图数据处理领域,针对用户网络的属性信息构建属性图,计算所有邻居节点的属性信息和拓扑信息对目标节点的全局表示产生的影响;再将这两种影响与目标节点的全局表示进行融合,迭代得到目标节点最终的低维表示;输入到多层感知器中进行分类预测。本发明能够解决现有基于图神经网络的属性图表示学习方法中存在的属性扰动、过平滑问题以及属性、拓扑信息影响差异未被充分建模等问题,以及这些问题对最终分类预测造成的不良影响。
-
公开(公告)号:CN110688479B
公开(公告)日:2022-06-17
申请号:CN201910764862.4
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F16/33 , G06F16/35 , G06F40/295
Abstract: 本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。
-
公开(公告)号:CN111597330A
公开(公告)日:2020-08-28
申请号:CN201910129637.3
申请日:2019-02-21
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种基于支持向量机的面向智能专家推荐的用户画像方法,其步骤包括:1)利用设定专家的个人信息,获取一专家信息数据集;2)对该专家信息数据集中的每一条专家信息处理为一个由词语序列构建而成的句子;3)计算每篇文档中的每个词语的TF-IDF值,构成TF-IDF权重矩阵tdm;4)利用该TF-IDF权重矩阵tdm生成TF-IDF特征空间;然后在该TF-IDF特征空间中构建并训练支持向量机模型;5)根据待构建画像专家的文本信息生成对应TF-IDF值,然后在该TF-IDF特征空间中利用训练后的支持向量机模型对该TF-IDF值进行分类,生成该待构建画像专家的用户画像。本方法用户画像准确性高。
-
公开(公告)号:CN110704606A
公开(公告)日:2020-01-17
申请号:CN201910764261.3
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于图文融合的生成式摘要生成方法,其步骤包括:1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。本发明生成的摘要可以有效地调整文本中实体的权重,在一定程度缓解未登录词的问题。
-
公开(公告)号:CN105630884A
公开(公告)日:2016-06-01
申请号:CN201510957634.0
申请日:2015-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/3087 , G06F17/30705
Abstract: 本发明公开了一种微博热点事件的地理位置发现方法。本方法为:1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典,然后将该简称词词典与全称词词典进行关联;2)根据事件关键字,获取包含该事件关键字的微博信息;3)对获取的微博信息进行分词处理,得到该微博的分词集合,然后判断该分词集合中每一名词是否在该简称词词典或全称词词典中,如果存在则将该名词作为候选地理位置词保留;当该微博中出现多个候选地理位置词时,则选取一候选地理位置词作为该微博的地点;4)获取确定的每一地点的地理位置经纬度信息,然后对得到的地理位置经纬度信息进行聚类,根据聚类中心判断出事件爆发地点。本方法可更好的了解突发事件。
-
公开(公告)号:CN118332101B
公开(公告)日:2025-05-16
申请号:CN202410400400.5
申请日:2024-04-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F40/30 , G06N3/0442 , G06N3/08 , G06F16/353
Abstract: 本发明属于文本信息抽取领域,涉及一种基于分层迭代的长文本抽取式摘要生成方法和装置。该方法包括:获取文本中字符的词向量、位置向量以及结构子标题向量,将其相加作为语义编码的输入,采用长文本预训练语言模型作为语义编码器,进行语义编码;将语义编码之后的向量送入各个层级编码器中,将语义信息沿着文本结构路线由句子层级至文档层级进行分层传递,然后从文档层级至句子层级再次进行分层传递,实现迭代更新,得到各个层级的隐层表示;通过融合各个层级的隐层表示全面地对每个句子进行评价,选出最优的摘要句。本发明能够克服现有抽取式摘要面向长文本时计算资源消耗大,存在语义损失以及长文本结构建模缺失的问题。
-
-
-
-
-
-
-
-
-