-
公开(公告)号:CN111966826B
公开(公告)日:2023-01-24
申请号:CN202010709070.X
申请日:2020-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F18/2415
Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。
-
公开(公告)号:CN111967258A
公开(公告)日:2020-11-20
申请号:CN202010667443.1
申请日:2020-07-13
Applicant: 中国科学院计算技术研究所
IPC: G06F40/289 , G06F40/216
Abstract: 本发明实施例提供了一种构建共指消解模型的方法、共指消解的方法和介质,所述方法包括A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。本发明实施例的技术方案可以提升共指消解过程对于长距离依赖的共指关系的判断性能。
-
公开(公告)号:CN119066217A
公开(公告)日:2024-12-03
申请号:CN202310643813.1
申请日:2023-06-01
Applicant: 中国科学院计算技术研究所
IPC: G06F16/53 , G06N3/0455 , G06N3/084
Abstract: 本发明提供了一种基于模态对比学习的跨模态实体召回方法和装置,所述方法包括以下步骤:T1、获取待查询实体,利用经训练的多模态编码神经网络和预设的归一化方式提取待查询实体的多维待查询实体向量,其中,多模态编码神经网络包括用于对文本模态的输入实体提取向量的文本编码模型以及用于对图像模态的输入实体提取向量的图像编码模型并且根据同模态的对比学习和跨模态的对比学习得到;T2、计算多维待查询实体向量与索引库中存储的各库内实体的多维库内实体向量的相似度,所述各库内实体的多维库内实体向量预先基于所述经训练的多模态编码神经网络和预设的归一化方式提取得到;T3、基于相似度,从索引库中召回多个库内实体作为候选实体。
-
公开(公告)号:CN116541569A
公开(公告)日:2023-08-04
申请号:CN202310539720.4
申请日:2023-05-15
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9035 , G06Q50/00 , G06F16/901
Abstract: 本发明提供了一种社交网络图的处理方法,包括:获取包括第一社交网络图和第二社交网络图的待处理网络图,以及两个图对应的初始锚点对集合;针对所述第一社交网络图和所述第二社交网络图分别提取两个图的节点结构信息;根据所述两个图的节点结构信息采用启发式的过滤规则基于多种相似度计算方式从所述初始锚点对集合中筛选出满足预设相似性要求的初始锚点对,得到经过滤的初始锚点对集合,其中,至少部分相似度计算方式依据两个图中能表征邻居结构的相关特征来计算相似度;基于所述节点结构信息和所述经过滤的初始锚点对集合确定所述第一社交网络图和所述第二社交网络图中节点间的关联关系。
-
公开(公告)号:CN111738003B
公开(公告)日:2023-06-06
申请号:CN202010541415.5
申请日:2020-06-15
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06N3/0464 , G06N3/08
Abstract: 本发明实施例提供了命名实体识别模型训练方法、命名实体识别方法和介质,本发明考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练,基于第一训练模型的参数设置第二训练模型,再用目标领域标记数据集对第二训练模型进行微调,从而得到最终的命名实体识别模型,由此,避免了需要大量标记目标领域的样本用于训练的问题。
-
公开(公告)号:CN112883171B
公开(公告)日:2023-02-03
申请号:CN202110142917.5
申请日:2021-02-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F16/953 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。
-
公开(公告)号:CN111738004B
公开(公告)日:2023-10-27
申请号:CN202010546972.6
申请日:2020-06-16
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295
Abstract: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT‑CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。
-
公开(公告)号:CN111967258B
公开(公告)日:2023-07-21
申请号:CN202010667443.1
申请日:2020-07-13
Applicant: 中国科学院计算技术研究所
IPC: G06F40/289 , G06F40/216
Abstract: 本发明实施例提供了一种构建共指消解模型的方法、共指消解的方法和介质,所述方法包括A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。本发明实施例的技术方案可以提升共指消解过程对于长距离依赖的共指关系的判断性能。
-
公开(公告)号:CN115658881A
公开(公告)日:2023-01-31
申请号:CN202211215316.3
申请日:2022-09-30
Applicant: 中国科学院计算技术研究所
IPC: G06F16/34 , G06N3/0455 , G06N3/08
Abstract: 本发明提出一种基于因果关系的序列到序列文本摘要生成方法和系统,属于自然语言处理和自动文本摘要生成领域。本方法受到因果理论的启发,从数据生成的角度研究了摘要任务中各要素的因果关系。该方法首先引入两个不可观测变量,得出摘要任务的结构因果模型;然后根据结构因果模型得出相应的序列到序列生成框架,用于建模原文和摘要的生成过程。该框架包含三个核心模块:双隐变量变分编码器、原文重构解码器和摘要预测解码器。此方法不仅比现有的端到端深度文本摘要方法具备更强的可解释性,还具备更好的摘要性能和更强的泛化能力。该方法是一个具备强适用性的序列到序列框架,因此可以迁移到更多模型主体、生成任务和不同数据集上。
-
公开(公告)号:CN115577068A
公开(公告)日:2023-01-06
申请号:CN202210974839.X
申请日:2022-08-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明实施例提供一种实体召回方法,包括:S1、获取待查询实体,利用预先训练的第一编码神经网络对待查询实体进行编码,得到待查询实体的多维浮点值查询向量;S2、将多维浮点值查询向量中每个维度的浮点值按照预设规则映射为非浮点的第一数值或者第二数值,得到多维二值查询向量;S3、根据待查询实体的多维二值查询向量在实体知识库选取部分规范实体生成召回的候选实体集合,其中所述实体知识库包括规范化命名的多个规范实体及按照与每个规范实体对应的多维二值实体向量。本发明将浮点值形式的向量转换为二值形式的向量,降低存储空间占用并提高计算效率。
-
-
-
-
-
-
-
-
-