一种领域本体构建方法及系统

    公开(公告)号:CN103218362A

    公开(公告)日:2013-07-24

    申请号:CN201210017772.7

    申请日:2012-01-19

    Abstract: 本发明公开一种领域本体构建方法,包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o;本发明还提供一种领域本体构建系统。根据本发明的技术方案,提供一种面向本体检索的关键词查询的构建方法,具有良好的定义和可操作性,可取得较高的本体复用率。

    一种领域本体构建方法及系统

    公开(公告)号:CN103218362B

    公开(公告)日:2016-12-14

    申请号:CN201210017772.7

    申请日:2012-01-19

    Abstract: 本发明公开一种领域本体构建方法,包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o;本发明还提供一种领域本体构建系统。根据本发明的技术方案,提供一种面向本体检索的关键词查询的构建方法,具有良好的定义和可操作性,可取得较高的本体复用率。

    一种搜索方法及系统
    3.
    发明公开

    公开(公告)号:CN103425697A

    公开(公告)日:2013-12-04

    申请号:CN201210164223.2

    申请日:2012-05-24

    Abstract: 本发明提供一种搜索方法及系统,该方法包括:接收到查询的关键词集合后,根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率;根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换;根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则,对所述可行的查询转换进行排序;按照排序后的查询转换搜索对应的数据项。本发明可以实现完全自动化并具有较高的准确率;可实现转换排序的自动演化以不断提升准确率;可增强候选转换的多样性。

    一种搜索方法及系统
    4.
    发明授权

    公开(公告)号:CN103425697B

    公开(公告)日:2017-09-26

    申请号:CN201210164223.2

    申请日:2012-05-24

    Abstract: 本发明提供一种搜索方法及系统,该方法包括:接收到查询的关键词集合后,根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率;根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换;根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则,对所述可行的查询转换进行排序;按照排序后的查询转换搜索对应的数据项。本发明可以实现完全自动化并具有较高的准确率;可实现转换排序的自动演化以不断提升准确率;可增强候选转换的多样性。

    基于检索的机器阅读理解系统的实现方法及装置

    公开(公告)号:CN112445887A

    公开(公告)日:2021-03-05

    申请号:CN201910808954.8

    申请日:2019-08-29

    Applicant: 南京大学

    Abstract: 基于检索的机器阅读理解系统的实现方法及装置,包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块,文本初步检索模块被配置为事先构造领域文档集合,提取文档集合特征,将用户提出的问题和领域文档集合中的文档计算相似度,返回相似度最高的前x个文档给检索结果重排序模块,检索结果重排序模块根据所得x个文档与问题重新计算相关性,并将相关性最高的文档传导至机器阅读理解模块,机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明针对用户的问题找到最相关的文档,将得到的文档和用户的问题交给机器阅读理解模型,最终得到问题对应的答案,构成了一个基于检索的机器阅读理解系统,提高问题类搜索的效率。

    一种面向共指消解的多语义网实体对比表自动生成方法

    公开(公告)号:CN105260457A

    公开(公告)日:2016-01-20

    申请号:CN201510662906.4

    申请日:2015-10-14

    Applicant: 南京大学

    CPC classification number: G06F17/3089 G06F17/30876

    Abstract: 本发明公开了一种面向共指消解的多语义网实体对比表自动生成方法,包括以下步骤:给定一组候选共指实体,首先根据结构和文本信息来合并这组实体中语义相近的属性。接下来,基于合并后的属性及实体在属性上的取值分布对属性评分,并计算待选属性与已选属性的冗余度,从中挑选出一个高评分且低冗余的属性加入关键属性集合,重复本步骤直到选完预定数目的属性或无属性可选。最后,基于关键属性组织实体在关键属性上的取值,生成可视化实体对比表供用户参与实体共指消解。应用本发明能够提高用户参与多语义网实体共指消解的准确率和效率。

    基于全局关键属性的语义网对象共指的自动消解方法

    公开(公告)号:CN103077237A

    公开(公告)日:2013-05-01

    申请号:CN201310007682.4

    申请日:2013-01-09

    Applicant: 南京大学

    Inventor: 胡伟 杨睿 瞿裕忠

    Abstract: 本发明提供一种基于全局关键属性的语义网对象共指自动消解方法,包括下列步骤:1)语义网对象样本分类,将具有相同类型和付费域名的对象样本归类在一起;2)全局关键属性识别,针对具有相同类型和付费域名的一组语义网对象样本,识别出其中共指的对象样本集合和不共指的对象样本集合,计算上述两个集合中对象样本所含数据样本中属性间的相似度,统计识别全局关键属性;3)语义网对象共指消解,给定任意一个语义网对象,基于它的类型和付费域名,重用已识别出的全局关键属性,寻找具有相似关键属性值的其它对象,实现对象共指消解。本发明能够准确高效的自动识别出语义网对象的全局关键属性,并以此为基础,实现语义网对象共指的自动消解,此外已识别的全局关键属性在今后的消解过程中可以重用。

    一种基于神经网络的知识库问答中的属性匹配方法

    公开(公告)号:CN112445899B

    公开(公告)日:2024-05-03

    申请号:CN201910808206.X

    申请日:2019-08-29

    Applicant: 南京大学

    Abstract: 一种基于神经网络的知识库问答中的属性匹配方法,包含以下步骤:替换问句中的实体并根据实体生成候选属性,将其分词送入神经网络中的词嵌入层;利用双向LSTM学习上下问语义表示;根据问句和属性的词向量表示计算得到词义相似度矩阵,同理根据语义表示得到语义相似度矩阵;分别从问句方向和属性方向取两个相似度矩阵的最大值得到四个向量后,通过全联接层得到问句和属性的相似度;选择最高相似度及其对应的属性,若该相似度大于阈值,则加入属性,并替换问句中的文本进行下一轮属性匹配。本发明结合考虑问句和属性的上下文语义表示和词义表示来计算最终的相似度,提高了属性匹配的准确性;可以定位到问句中对应的谓词文本,迭代的处理多跳问题。

    一种基于联合学习模型的细粒度数值信息抽取方法

    公开(公告)号:CN111309849B

    公开(公告)日:2023-06-23

    申请号:CN202010083902.1

    申请日:2020-02-10

    Applicant: 南京大学

    Abstract: 本发明公开了利用一种基于联合学习模型的细粒度数值信息抽取方法,包括如下步骤:对输入文本进行预处理;根据数值相关正则表达式识别候选的数值,以数值为触发词,与其前后词例拼接,作为联合学习模型的输入;联合学习模型的底层接入词嵌入层,并对词嵌入层的输出加入数值触发词的位置信息,得到每个词例最终的分布式表示;基于分布式表示接入后续的特征提取网络,并在高层分别接入具体任务的网络:接入分类网络得到数值信息的语义类型,接入序列标注网络得到数值触发词相关的数个语义角色;合并具体任务的输出得到数值信息单元;针对多个数值信息单元,基于统计方法判断它们之间的复合关系。本发明无需人工设计特征、准确性高、泛化能力强。

    一种生成式对话状态追踪模型的实现方法及装置

    公开(公告)号:CN114841069A

    公开(公告)日:2022-08-02

    申请号:CN202210509258.9

    申请日:2022-05-11

    Applicant: 南京大学

    Inventor: 瞿裕忠 彭德家

    Abstract: 一种生成式对话状态追踪模型的实现方法及装置,对对话状态追踪构建生成模型,包括两个子任务,(1)针对槽位信息多标签分类,将对话语句输入到编码器获得对话的表示,再输入多标签分类模块获得每个槽位对应的logitmc;(2)生成对话状态任务,同时将对话的表示,输入到对话状态的解码器使用束搜索方式生成对话状态对应的logitgen;训练生成模型时将logitmc分别与正确的槽位分类结果计算二元交叉熵损失、logitgen和对话状态结果计算交叉熵损失,将二元交叉熵损失和交叉熵损失结合起来对生成模型进行训练优化。本发明使用单数据集训练即可,提高了对话状态生成的准确率,且训练效率高,资源利用率高。

Patent Agency Ranking