-
公开(公告)号:CN109783806B
公开(公告)日:2023-05-02
申请号:CN201811570080.9
申请日:2018-12-21
Applicant: 众安信息技术服务有限公司
IPC: G06F40/30 , G06F16/35 , G06F40/295
Abstract: 本发明公开了一种利用语义解析结构的文本匹配方法,该方法包括:定义初始语料集Cqa和补充语料集Cq;利用语义依存解析方法,定义文本对应的语义结构DP‑tree;基于此语义结构,定义文本的核函数,以及文本相似度的度量函数;对文本进行核聚类,得到聚合的文本类函数:i=1,2,...,M;其中,q′ij为每个聚类中选取的ni个最靠近类中的样本点;通过人工审核,给Ci类核准并标记上特定的标签Ti。本发明采用了以句法结构等语法分析结构为比较基础,结合了卷积核函数理论,以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数,引入了句法相似性、词向量、词义网等的内、外部知识,能够精确判断文本之间的相似度。
-
公开(公告)号:CN109992772A
公开(公告)日:2019-07-09
申请号:CN201910191756.1
申请日:2019-03-13
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种文本相似度计算方法及装置,该方法包括:S1:利用预先训练的词向量模型对待计算文本分别进行向量化,获取待计算文本的词向量;S2:计算获取待计算文本之间的第一相似度;S3:根据预先构建的预测模型、待计算文本的词向量以及第一相似度,获取待计算文本之间的第二相似度。本发明一方面利用监督学习技术,融合中文分词,Tf‑Idf,LSA,LDA,Word2Vec等多种自然语言特征提取技术,Jaccard,WMD等多种文本相似度(距离)的计算方法,提高文本相似度计算的准确性,另一方面利用模型融合技术,将深度学习和传统特征学习结合起来,进一步提高了文本相似度计算的准确性。
-
公开(公告)号:CN109783806A
公开(公告)日:2019-05-21
申请号:CN201811570080.9
申请日:2018-12-21
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种利用语义解析结构的文本匹配方法,该方法包括:定义初始语料集Cqa和补充语料集Cq;利用语义依存解析方法,定义文本对应的语义结构DP-tree;基于此语义结构,定义文本的核函数,以及文本相似度的度量函数;对文本进行核聚类,得到聚合的文本类函数:i=1,2,...,M;其中,q′ij为每个聚类中选取的ni个最靠近类中的样本点;通过人工审核,给Ci类核准并标记上特定的标签Ti。本发明采用了以句法结构等语法分析结构为比较基础,结合了卷积核函数理论,以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数,引入了句法相似性、词向量、词义网等的内、外部知识,能够精确判断文本之间的相似度。
-
公开(公告)号:CN108959396A
公开(公告)日:2018-12-07
申请号:CN201810562789.8
申请日:2018-06-04
Applicant: 众安信息技术服务有限公司
IPC: G06F17/30
Abstract: 本发明公开了机器阅读模型训练方法及装置、问答方法及装置,属于自然语言处理领域。该机器阅读模型训练方法包括:获取训练样本,训练样本包括样本问题及其对应的样本文章,以及样本文章中对应答案的真实初始位置和真实终止位置;提取出样本问题的问题特征向量和样本文章的文章特征向量,并使用神经网络结构将问题特征向量和文章特征向量进行融合并处理,形成融合结果;将融合结果输入到分类器中进行答案的初始位置和终止位置的预测;对预测出的初始位置和终止位置与答案的真实初始位置和真实终止位置进行误差计算,并根据误差计算结果优化所述神经网络结构。本发明实施例通过端到端的深度学习,能够直接从关联整篇文章中抽取对应答案。
-
公开(公告)号:CN108959396B
公开(公告)日:2021-08-17
申请号:CN201810562789.8
申请日:2018-06-04
Applicant: 众安信息技术服务有限公司
IPC: G06F16/332 , G06F16/36 , G06N3/04 , G06N3/08 , G06K9/62 , G06F40/284 , G06F40/30
Abstract: 本发明公开了机器阅读模型训练方法及装置、问答方法及装置,属于自然语言处理领域。该机器阅读模型训练方法包括:获取训练样本,训练样本包括样本问题及其对应的样本文章,以及样本文章中对应答案的真实初始位置和真实终止位置;提取出样本问题的问题特征向量和样本文章的文章特征向量,并使用神经网络结构将问题特征向量和文章特征向量进行融合并处理,形成融合结果;将融合结果输入到分类器中进行答案的初始位置和终止位置的预测;对预测出的初始位置和终止位置与答案的真实初始位置和真实终止位置进行误差计算,并根据误差计算结果优化所述神经网络结构。本发明实施例通过端到端的深度学习,能够直接从关联整篇文章中抽取对应答案。
-
-
-
-