一种基于结构信息与文本描述的知识图谱表示学习方法

    公开(公告)号:CN109299284A

    公开(公告)日:2019-02-01

    申请号:CN201811011812.0

    申请日:2018-08-31

    Abstract: 本发明一种基于结构信息与文本描述的知识图谱表示学习方法的目的是将三元组中的实体和关系映射到低维连续的实值空间中。本发明旨在提高知识表示中实体的向量表示;从现有知识库Freebase中得到实体的对应文本描述信息,采用word2vec对每个描述进行词向量表示,然后用词加和均值向量作为该描述的向量表示,还采用doc2vec的句向量生成方式对描述进行向量表示,然后将词向量作为CNN文本编码器的输入,得到每个实体的基于描述文本的表示向量;然后在联合表示中利用权值来评估知识库中基于符号的表示向量、基于网络结构的表示向量和基于描述文本的表示向量对实体的最终表示向量的影响,完成结构信息和文本信息的融合,提高知识图谱表示的准确性。

    一种面向案情的关键词提取方法及系统

    公开(公告)号:CN109145293A

    公开(公告)日:2019-01-04

    申请号:CN201810883678.7

    申请日:2018-08-06

    CPC classification number: G06F17/2775 G06F17/2715 G06F17/274

    Abstract: 本发明涉及一种面向案情的关键词提取方法,首先根据用于训练模型的案情描述获取用于训练模型的案情描述的词向量矩阵和词法特征矩阵;然后采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将这个模型运用keras中的fit功能来训练模型;最后将待预测关键词的案情描述输入到模型中,进行关键词的提取,提取所需的关键词。利用本发明的这种方法可以大大提高关键词提取的准确性,并减少断案工作量。

    一种基于混合数据库的知识图谱组织查询方法

    公开(公告)号:CN109241078B

    公开(公告)日:2021-07-20

    申请号:CN201811005179.4

    申请日:2018-08-30

    Abstract: 本发明一种基于混合数据库的知识图谱组织查询方法,包括:获取预设数据集中的三元组集合;从三元组集合中区分出实体三元组集合和关系三元组集合;在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;针对带实体的知识库构建索引,得到带索引和实体的知识库;在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;在MySQL上进行实体歧义信息的存储,构建实体歧义词表;将构建的实体歧义词表存储到带索引、实体和关系的知识库,得到完整的知识库。本发明结合关系型数据库和图数据库各自的优点,提出基于混合数据库的知识图谱组织方法,适用于一般的大规模开放领域知识图谱,在优化知识图谱存储结构的同时改善了知识图谱的查询效率。

    一种面向案情的关键词提取方法及系统

    公开(公告)号:CN109145293B

    公开(公告)日:2021-05-28

    申请号:CN201810883678.7

    申请日:2018-08-06

    Abstract: 本发明涉及一种面向案情的关键词提取方法,首先根据用于训练模型的案情描述获取用于训练模型的案情描述的词向量矩阵和词法特征矩阵;然后采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将这个模型运用keras中的fit功能来训练模型;最后将待预测关键词的案情描述输入到模型中,进行关键词的提取,提取所需的关键词。利用本发明的这种方法可以大大提高关键词提取的准确性,并减少断案工作量。

    一种基于社交媒体的用户活动类型识别方法

    公开(公告)号:CN111191099A

    公开(公告)日:2020-05-22

    申请号:CN201911392834.0

    申请日:2019-12-30

    Abstract: 本发明提供了一种基于社交媒体的用户活动类型识别方法,通常情况下一张图由结点和边构成。首先将所有的用户评论和构成评论的词看做图中的多个结点,并定义不同词与词之间,词与评论之间的边的权重和关系,形成最基本的图;然后将发表评论的用户看做另一类结点,根据用户与评论之间的发表关系,定义用户和评论间边的权重,向已经形成的图中添加用户结点;然后将发表评论的用户的其他好友看做新一类的结点,定义用户和他们对应的好友结点间的关系权重,形成一张包含评论的文本信息和结构信息的大图。最后利用图卷积网络对形成的大图进行结点分类,得到用户活动分类的准确性。

    一种基于张量的知识图谱表示学习方法及系统

    公开(公告)号:CN109947948A

    公开(公告)日:2019-06-28

    申请号:CN201910148591.X

    申请日:2019-02-28

    Abstract: 本发明公开了一种基于张量的知识图谱表示学习方法及系统,本发明针对现有的知识图谱表示学习方法只考虑三元组本身信息、实体文本描述信息、实体图片信息、实体层次结构信息,而忽略了图谱的局部网络结构信息导致知识表示学习效果不佳的问题,本发明在知识图谱的表示学习中,考虑了每个实体的局部网络结构信息。首先,根据知识图谱的数据集,生成每个实体的掩码矩阵;其次,训练张量R,表示整个数据集的语义信息,每个实体可以通过掩码矩阵和R作用,得到每个实体的语义张量表达;然后,训练向量r,表示将每个实体语义张量映射至特定语义空间中的映射向量;最后在特定的语义空间进行训练,提高知识图谱表示学习的准确性。

    基于分层知识图谱注意力模型的文本关系抽取方法及系统

    公开(公告)号:CN109902171A

    公开(公告)日:2019-06-18

    申请号:CN201910090408.5

    申请日:2019-01-30

    Abstract: 本发明提供了一种基于分层知识图谱注意力模型的文本关系抽取方法及系统,其方法包括:首先根据待处理文本选取训练文本集和知识图谱,并对训练文本集和知识图谱分别进行预处理;然后构建分层知识图谱注意力模型,并利用预处理后的训练文本及对该模型进行训练;最后将所述待处理文本中所有句子的头实体和尾实体进行标注,并将标注后的待处理文本输入所述训练后的分层知识图谱注意力模型,得到关系结果。本发明的有益效果是:本发明所提出的技术方案提出一种分层知识图谱注意力模型,利用知识图谱表示帮助模型分配句子和词的权重,提高了模型的关系预测的准确率和召回率,进而提高了文本关系的抽取准确度。

    基于多粒子群优化算法的给水管网传感器布置优化方法

    公开(公告)号:CN105426984A

    公开(公告)日:2016-03-23

    申请号:CN201510704752.0

    申请日:2015-10-26

    Abstract: 本发明公开了一种基于多粒子群优化算法的给水管网传感器布置优化方法,包括:建立给水管网的管网拓扑结构,获取给水管网中每个管网节点的复杂度,并对所述管网拓扑结构进行水力模拟和水质模拟,得到每个管网节点的可达度和污染物浓度;在主计算节点进行多粒子群优化算法的种群初始化,在MAP阶段进行全局搜索;在Reduce阶段进行局部搜索,得到最新全局最优个体;判断最新全局最优个体的适应度是否满足预设收敛条件,如果不满足预设收敛条件,则转入任务分发步骤继续进行迭代演化。有效解决了现有技术中给水管网传感器布置优化时间长的技术问题最大化监测效果(比如最快的时间检测污染事件),防范饮用水因污染而引发的安全风险。

    一种模型训练方法、命名实体识别方法、介质及设备

    公开(公告)号:CN117952109A

    公开(公告)日:2024-04-30

    申请号:CN202410105933.0

    申请日:2024-01-24

    Abstract: 本发明公开了一种模型训练方法、命名实体识别方法、介质及设备,涉及水文地质命名实体识别领域,所述模型训练方法,主要包括以下步骤:获取生成式PLM,获取源序列、目标序列,将源序列送入编码器,将目标序列依次送入解码器;获取解码器输出的第c个词的条件概率;获取损失函数,调整模型参数比较不同模型参数下损失函数的值,在损失函数收敛时确定模型参数,得到训练模型。实施本发明提供的模型训练方法、命名实体识别方法、介质及设备,可以克服当前的命名实体识别方法在水文地质领域效率低、精度差等缺陷。

    一种基于神经网络的司法领域关系抽取方法及系统

    公开(公告)号:CN109933789B

    公开(公告)日:2021-04-13

    申请号:CN201910145396.1

    申请日:2019-02-27

    Abstract: 一种基于神经网络的司法领域关系抽取方法及系统,本发明在原有的开放式神经网络关系抽取框架基础上,构建司法领域专用数据集,并形成司法领域罪名特征集,通过优化神经网络提高关系抽取准确率的方法:首先,从中国裁判文书网获取大量司法领域相关非结构化文本,并用Word2Vec模型,Bert模型等向量转换模型得到文本的向量表示;其次,通过对非结构化文本进行TF‑IDF词频统计,得到不同罪名及案由的特征集,并得到向量表示;然后优化OpenNRE模型及JointNRE模型,得到准确性更高的JudNRE模型;最后,利用JudNRE模型对文本向量,罪名特征向量向量进行处理,得到司法领域关系抽取模型,用于对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

Patent Agency Ranking