一种融合上下文知识的远程监督关系抽取方法

    公开(公告)号:CN118395974A

    公开(公告)日:2024-07-26

    申请号:CN202410576682.4

    申请日:2024-05-10

    Abstract: 本申请提供一种融合上下文知识的远程监督关系抽取方法包括:根据篇章级别关系抽取数据集中特有的证明句和具有上下文的篇章信息,将句子级别的远程监督关系抽取数据集中的每个句子作为证明句,构造含有实例包内上下文信息的篇章级数据;针对不含实例包内上下文的句子,构造含有实例包外上下文信息的篇章级数据;将每个句子的篇章信息进行向量化表示,作为文本编码器的信息;抽取出知识图谱的编码信息;将编码之后融合上下文信息的文本信息与知识图谱信息共享,更新各自的隐藏层信息。本申请提供的方法为单个句子增加上下文信息,并将文本编码信息与知识图谱编码信息相结合,提升句子级远程监督关系抽取的准确性。

    一种兴趣感知的双通道图对比学习会话推荐方法

    公开(公告)号:CN117194765A

    公开(公告)日:2023-12-08

    申请号:CN202310674698.4

    申请日:2023-06-08

    Abstract: 本发明公开了一种兴趣感知的双通道图对比学习会话推荐方法,属于会话推荐技术领域。该方法包括构建项目集、会话集与会话;根据会话数据,构建兴趣‑项目交互超图和全局兴趣‑项目转换图;将构建的兴趣‑项目交互超图和全局兴趣‑项目转换图输入双通道兴趣‑项目嵌入学习模块;根据获得的项目嵌入聚合成为会话表示嵌入,并使用位置信息与时间信息对会话表示进行增强;使用对比学习对两个图中得到的兴趣嵌入进行增强;以及计算候选物品的推荐概率,给出损失函数。本发明通过融合位置信息和时间信息,并为不同项目分配权重,得到会话嵌入,很好地解决了会话推荐系统中的数据稀疏和噪声干扰问题,显著地提高了推荐的准确性。

    一种基于记忆网络语义融合的长文档检索方法

    公开(公告)号:CN113962228A

    公开(公告)日:2022-01-21

    申请号:CN202111246473.6

    申请日:2021-10-26

    Abstract: 本发明涉及一种基于记忆网络语义融合的长文档检索方法,解决长文档检索中面临的如何在有限的输入中最大可能地保留并融合不同段落的语义表示的技术问题,属于信息检索技术领域。本方法利用预训练语言模型强大的上下文语义建模能力,丰富用户查询向量表示和候选文档向量表示的语义信息,更好地实现语义匹配。本方法使用记忆网络存储文档各分段的向量表示作为记忆单元,针对用户查询,利用注意力机制动态读取记忆单元,融合不同段落间的语义向量,能够有效从长文档中抽取相关信息,摆脱了序列模型的遗忘问题,提升了长文档任务下的用户检索质量。

    一种深度协同交互的情感原因联合抽取方法

    公开(公告)号:CN113947074A

    公开(公告)日:2022-01-18

    申请号:CN202111188307.5

    申请日:2021-10-12

    Abstract: 本发明涉及一种深度协同交互的情感原因联合抽取方法,属于自然语言处理情感分析技术领域。本方法采用预训练的单词特征向量表示文本序列中的每个单词的向量化表示,使用双向长短时记忆网络对融合外部知识的单词表示进行句子层面的文本编码。通过注意力机制决定每个词语在表示学习过程中的重要性,从而得到浅层情感表示与候选原因表示。采用多层协同注意力网络堆叠建模情感表示和原因表示的关联,输出得到深层交互情感表示与原因表示。最后采用联合学习的方式同时计算情感概率向量与原因概率向量。本方法能够更好地捕获文本情感、原因特征,且能够同时应用于显式情感文本及隐式情感文本的情感原因抽取场景,实现情感及其原因的同步联合抽取。

    一种利用语义信息检索文档的方法

    公开(公告)号:CN103744984B

    公开(公告)日:2017-01-25

    申请号:CN201410018112.X

    申请日:2014-01-15

    Abstract: 本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。

    一种面向知识管理的自定义知识分类方法

    公开(公告)号:CN103793474B

    公开(公告)日:2017-01-11

    申请号:CN201410003685.5

    申请日:2014-01-04

    Abstract: 本发明属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。

    一种基于协同训练的双语命名实体识别方法

    公开(公告)号:CN103853710B

    公开(公告)日:2016-06-08

    申请号:CN201310593746.3

    申请日:2013-11-21

    Abstract: 本发明公开了一种基于双语协同训练的命名实体的识别方法,属于计算机科学中的自然语言处理技术领域。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记,在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标。本方法对比现有技术,降低了命名实体识别的领域依赖性,融合了双语识别的优势,解决了单语识别中的部分识别歧义问题,尤其适合用于大规模语料的双语命名实体同步识别。

    一种双语最大名词组块分离-融合的翻译方法

    公开(公告)号:CN103942192A

    公开(公告)日:2014-07-23

    申请号:CN201310593728.5

    申请日:2013-11-21

    Abstract: 本发明公开了一种双语最大名词组块分离-融合的翻译方法,属于计算机科学中的自然语言处理技术领域。在基于树的统计机器翻译模型的中引入了BMNCs分离-融合翻译的思想,把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。本方法降低了翻译难度和翻译时间,提升了翻译准确率,尤其适合在即时翻译中针对较长句子的翻译。

    一种基于数字指纹的代码相似度检测方法

    公开(公告)号:CN101976318A

    公开(公告)日:2011-02-16

    申请号:CN201010543747.3

    申请日:2010-11-15

    Abstract: 本发明涉及一种基于数字指纹的代码相似度检测方法,属于计算机应用技术领域。本发明的检测方法包括代码预处理、分词、格式化、采用数字指纹技术进行数值化、计算数字指纹序列和相似度计算六个步骤。本发明计算过程简单,代码相似度检测结果可信度高,能够选取出较有效的代码特征,降低了误判的概率,能够识别多种代码抄袭掩饰手段,采用数字指纹的方法,有效地提高了整体计算速度。

    一种基于平衡化标签的文档级关系抽取方法

    公开(公告)号:CN119692329A

    公开(公告)日:2025-03-25

    申请号:CN202411529322.5

    申请日:2024-10-30

    Inventor: 史树敏 杨崇盛

    Abstract: 一种基于平衡化标签的文档级关系抽取方法,属于自然语言处理领域中的关系抽取领域。本发明实现方法为:收集应用领域的文档数据和领域关注的实体间的关系。基于实体类型和实体在关系语义中的位置,排列组合得到平衡化关系标签加入关系标签集,标注文档数据集实体间存在的关系标签。搭建文档级关系抽取模型,选取基座编码模型,增加三线性池化模块融合主语实体、宾语实体和相关上下文的表示,提高上下文在推理时占的权重。构建改进文档级关系抽取模型训练的损失函数,提高文档级关系抽取模型推理得到的关系标签的置信分数。训练文档级关系抽取模型,选取表现最好的文档级关系抽取模型用于实际应用,提高文档级实体关系抽取的准确率。

Patent Agency Ranking