-
公开(公告)号:CN107480125A
公开(公告)日:2017-12-15
申请号:CN201710543849.7
申请日:2017-07-05
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组 列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。
-
公开(公告)号:CN107480125B
公开(公告)日:2020-08-04
申请号:CN201710543849.7
申请日:2017-07-05
Applicant: 重庆邮电大学
IPC: G06F40/211 , G06F40/30 , G06F16/35 , G06F16/36
Abstract: 本发明请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组 列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。
-
公开(公告)号:CN109472020B
公开(公告)日:2022-07-01
申请号:CN201811185491.6
申请日:2018-10-11
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06F40/242 , G06K9/62
Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
-
公开(公告)号:CN109472020A
公开(公告)日:2019-03-15
申请号:CN201811185491.6
申请日:2018-10-11
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
-
-
-