-
公开(公告)号:CN109992772A
公开(公告)日:2019-07-09
申请号:CN201910191756.1
申请日:2019-03-13
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种文本相似度计算方法及装置,该方法包括:S1:利用预先训练的词向量模型对待计算文本分别进行向量化,获取待计算文本的词向量;S2:计算获取待计算文本之间的第一相似度;S3:根据预先构建的预测模型、待计算文本的词向量以及第一相似度,获取待计算文本之间的第二相似度。本发明一方面利用监督学习技术,融合中文分词,Tf‑Idf,LSA,LDA,Word2Vec等多种自然语言特征提取技术,Jaccard,WMD等多种文本相似度(距离)的计算方法,提高文本相似度计算的准确性,另一方面利用模型融合技术,将深度学习和传统特征学习结合起来,进一步提高了文本相似度计算的准确性。
-
公开(公告)号:CN109783806A
公开(公告)日:2019-05-21
申请号:CN201811570080.9
申请日:2018-12-21
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种利用语义解析结构的文本匹配方法,该方法包括:定义初始语料集Cqa和补充语料集Cq;利用语义依存解析方法,定义文本对应的语义结构DP-tree;基于此语义结构,定义文本的核函数,以及文本相似度的度量函数;对文本进行核聚类,得到聚合的文本类函数:i=1,2,...,M;其中,q′ij为每个聚类中选取的ni个最靠近类中的样本点;通过人工审核,给Ci类核准并标记上特定的标签Ti。本发明采用了以句法结构等语法分析结构为比较基础,结合了卷积核函数理论,以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数,引入了句法相似性、词向量、词义网等的内、外部知识,能够精确判断文本之间的相似度。
-
公开(公告)号:CN108959250A
公开(公告)日:2018-12-07
申请号:CN201810679125.X
申请日:2018-06-27
Applicant: 众安信息技术服务有限公司
IPC: G06F17/27
CPC classification number: G06F17/273 , G06F17/2705 , G06F17/2775
Abstract: 本发明公开了一种基于语言模型和词特征的纠错方法,所述方法包括以下步骤:S1:获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;S2:将所得嫌疑词输入至候选词推荐系统中,利用至少两种不同的相似度算法结合选出候选词并输出;S3:将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。所述系统包括检测模块、推荐模块和打分模块。通过本技术方案,能够提高纠错准确性。
-
公开(公告)号:CN108959396B
公开(公告)日:2021-08-17
申请号:CN201810562789.8
申请日:2018-06-04
Applicant: 众安信息技术服务有限公司
IPC: G06F16/332 , G06F16/36 , G06N3/04 , G06N3/08 , G06K9/62 , G06F40/284 , G06F40/30
Abstract: 本发明公开了机器阅读模型训练方法及装置、问答方法及装置,属于自然语言处理领域。该机器阅读模型训练方法包括:获取训练样本,训练样本包括样本问题及其对应的样本文章,以及样本文章中对应答案的真实初始位置和真实终止位置;提取出样本问题的问题特征向量和样本文章的文章特征向量,并使用神经网络结构将问题特征向量和文章特征向量进行融合并处理,形成融合结果;将融合结果输入到分类器中进行答案的初始位置和终止位置的预测;对预测出的初始位置和终止位置与答案的真实初始位置和真实终止位置进行误差计算,并根据误差计算结果优化所述神经网络结构。本发明实施例通过端到端的深度学习,能够直接从关联整篇文章中抽取对应答案。
-
公开(公告)号:CN109377980A
公开(公告)日:2019-02-22
申请号:CN201811009619.3
申请日:2018-08-31
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种音节切分方法和装置,属于自然语言处理技术领域。方法包括:预先构造音节表的双数组Trie树结构;基于双数组Trie树结构,从输入的拼音序列中匹配出合法音节,并基于匹配出的合法音节,对拼音序列按照音节同权和音节优先的策略进行切分,以获取多种音节切分方案;对多种音节切分方案进行存储。本发明实施例提供的方法实现了能够在不影响结果准确性的情况下,达到快速、合理地进行音节切分的目的。
-
公开(公告)号:CN108920500A
公开(公告)日:2018-11-30
申请号:CN201810507457.X
申请日:2018-05-24
Applicant: 众安信息技术服务有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种时间解析方法,所述方法包括以下步骤:S1:构建时间表达集并存储于系统中;S2:获取语音信息,将所述语音信息转换成文本数据;对所述文本数据进行预处理的前或后提取所述文本数据中的第一时间特征;提取所述文本数据中的介词特征和代词特征;S3:对上述所得的代词特征进行指代消解;根据所述指代消解的结果与第一时间特征恢复所述代词特征对应的第二时间特征;S4:根据所得时间特征进行解析处理。通过本技术方案,能解析多轮语音对话中时间;进一步地,还能解决提高时间解析的解析效率;更进一步地,还能解决提高时间解析的解析准确率。
-
公开(公告)号:CN109783806B
公开(公告)日:2023-05-02
申请号:CN201811570080.9
申请日:2018-12-21
Applicant: 众安信息技术服务有限公司
IPC: G06F40/30 , G06F16/35 , G06F40/295
Abstract: 本发明公开了一种利用语义解析结构的文本匹配方法,该方法包括:定义初始语料集Cqa和补充语料集Cq;利用语义依存解析方法,定义文本对应的语义结构DP‑tree;基于此语义结构,定义文本的核函数,以及文本相似度的度量函数;对文本进行核聚类,得到聚合的文本类函数:i=1,2,...,M;其中,q′ij为每个聚类中选取的ni个最靠近类中的样本点;通过人工审核,给Ci类核准并标记上特定的标签Ti。本发明采用了以句法结构等语法分析结构为比较基础,结合了卷积核函数理论,以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数,引入了句法相似性、词向量、词义网等的内、外部知识,能够精确判断文本之间的相似度。
-
公开(公告)号:CN108920500B
公开(公告)日:2022-02-11
申请号:CN201810507457.X
申请日:2018-05-24
Applicant: 众安信息技术服务有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本发明公开了一种时间解析方法,所述方法包括以下步骤:S1:构建时间表达集并存储于系统中;S2:获取语音信息,将所述语音信息转换成文本数据;对所述文本数据进行预处理的前或后提取所述文本数据中的第一时间特征;提取所述文本数据中的介词特征和代词特征;S3:对上述所得的代词特征进行指代消解;根据所述指代消解的结果与第一时间特征恢复所述代词特征对应的第二时间特征;S4:根据所得时间特征进行解析处理。通过本技术方案,能解析多轮语音对话中时间;进一步地,还能解决提高时间解析的解析效率;更进一步地,还能解决提高时间解析的解析准确率。
-
公开(公告)号:CN108874878B
公开(公告)日:2021-02-26
申请号:CN201810415531.5
申请日:2018-05-03
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种知识图谱的构建系统及方法,属于自然语言处理、计算机信息处理技术领域。所述系统包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。本发明实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。
-
公开(公告)号:CN109377980B
公开(公告)日:2022-06-07
申请号:CN201811009619.3
申请日:2018-08-31
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种音节切分方法和装置,属于自然语言处理技术领域。方法包括:预先构造音节表的双数组Trie树结构;基于双数组Trie树结构,从输入的拼音序列中匹配出合法音节,并基于匹配出的合法音节,对拼音序列按照音节同权和音节优先的策略进行切分,以获取多种音节切分方案;对多种音节切分方案进行存储。本发明实施例提供的方法实现了能够在不影响结果准确性的情况下,达到快速、合理地进行音节切分的目的。
-
-
-
-
-
-
-
-
-