-
公开(公告)号:CN108874878B
公开(公告)日:2021-02-26
申请号:CN201810415531.5
申请日:2018-05-03
Applicant: 众安信息技术服务有限公司
Abstract: 本发明公开了一种知识图谱的构建系统及方法,属于自然语言处理、计算机信息处理技术领域。所述系统包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。本发明实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。
-
公开(公告)号:CN108959396A
公开(公告)日:2018-12-07
申请号:CN201810562789.8
申请日:2018-06-04
Applicant: 众安信息技术服务有限公司
IPC: G06F17/30
Abstract: 本发明公开了机器阅读模型训练方法及装置、问答方法及装置,属于自然语言处理领域。该机器阅读模型训练方法包括:获取训练样本,训练样本包括样本问题及其对应的样本文章,以及样本文章中对应答案的真实初始位置和真实终止位置;提取出样本问题的问题特征向量和样本文章的文章特征向量,并使用神经网络结构将问题特征向量和文章特征向量进行融合并处理,形成融合结果;将融合结果输入到分类器中进行答案的初始位置和终止位置的预测;对预测出的初始位置和终止位置与答案的真实初始位置和真实终止位置进行误差计算,并根据误差计算结果优化所述神经网络结构。本发明实施例通过端到端的深度学习,能够直接从关联整篇文章中抽取对应答案。
-
公开(公告)号:CN108874878A
公开(公告)日:2018-11-23
申请号:CN201810415531.5
申请日:2018-05-03
Applicant: 众安信息技术服务有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种知识图谱的构建系统及方法,属于自然语言处理、计算机信息处理技术领域。所述系统包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。本发明实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。
-
公开(公告)号:CN108959250A
公开(公告)日:2018-12-07
申请号:CN201810679125.X
申请日:2018-06-27
Applicant: 众安信息技术服务有限公司
IPC: G06F17/27
CPC classification number: G06F17/273 , G06F17/2705 , G06F17/2775
Abstract: 本发明公开了一种基于语言模型和词特征的纠错方法,所述方法包括以下步骤:S1:获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;S2:将所得嫌疑词输入至候选词推荐系统中,利用至少两种不同的相似度算法结合选出候选词并输出;S3:将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。所述系统包括检测模块、推荐模块和打分模块。通过本技术方案,能够提高纠错准确性。
-
公开(公告)号:CN108959396B
公开(公告)日:2021-08-17
申请号:CN201810562789.8
申请日:2018-06-04
Applicant: 众安信息技术服务有限公司
IPC: G06F16/332 , G06F16/36 , G06N3/04 , G06N3/08 , G06K9/62 , G06F40/284 , G06F40/30
Abstract: 本发明公开了机器阅读模型训练方法及装置、问答方法及装置,属于自然语言处理领域。该机器阅读模型训练方法包括:获取训练样本,训练样本包括样本问题及其对应的样本文章,以及样本文章中对应答案的真实初始位置和真实终止位置;提取出样本问题的问题特征向量和样本文章的文章特征向量,并使用神经网络结构将问题特征向量和文章特征向量进行融合并处理,形成融合结果;将融合结果输入到分类器中进行答案的初始位置和终止位置的预测;对预测出的初始位置和终止位置与答案的真实初始位置和真实终止位置进行误差计算,并根据误差计算结果优化所述神经网络结构。本发明实施例通过端到端的深度学习,能够直接从关联整篇文章中抽取对应答案。
-
-
-
-