一种训练文本关键内容提取模型的方法和系统

    公开(公告)号:CN111309887B

    公开(公告)日:2023-04-14

    申请号:CN202010114332.8

    申请日:2020-02-24

    Abstract: 本说明书实施例公开了一种训练文本关键内容提取模型的方法及系统,所述方法包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;基于多组所述训练样本训练得到文本关键内容提取模型。

    一种训练文本相似度模型的方法和系统

    公开(公告)号:CN111353033B

    公开(公告)日:2023-04-07

    申请号:CN202010126357.X

    申请日:2020-02-27

    Abstract: 本说明书实施例公开了一种训练文本相似度模型的方法及系统,该方法包括:获取多组训练数据,多组训练数据中的一组包括:第一文本、第二文本和第三文本,第二文本和第三文本为用户输入的询问内容,第一文本为知识库中对应于第二文本和第三文本的问题;其中,第二文本为与第一文本匹配的用户反馈好评的文本,第三文本为与第一文本不匹配的用户反馈差评的文本;基于多组训练数据调整文本相似度模型的参数进而优化损失函数,得到训练后的文本相似度模型;其中,损失函数基于第一相似度和第二相似度的相对关系确定;第一相似度为文本相似度模型基于第一文本和第二文本计算的相似度,第二相似度为文本相似度模型基于第一文本与第三文本计算的相似度。

    一种扩展文本样本的方法及系统

    公开(公告)号:CN110727767B

    公开(公告)日:2022-05-31

    申请号:CN201911000025.0

    申请日:2019-10-21

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书实施例公开了一种扩展文本样本的方法及系统。所述方法包括:将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本;基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果;所述知识库至少包含与所述第一文本关联的多个文本;判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件;将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

    用于推送知识点的数据处理、训练方法及装置

    公开(公告)号:CN111475637A

    公开(公告)日:2020-07-31

    申请号:CN202010588724.8

    申请日:2020-06-24

    Abstract: 本说明书实施例提供一种用于推送知识点的数据处理、训练方法及装置,基于异构图提取符合预设格式的多组元路径,获取异构图中各个节点的对应的第一特征,然后将多组元路径输入预先训练得到的图神经网络模型,通过图神经网络模型对元路径上节点的第一特征进行聚合,至少输出作为路径端点的用户节点和/或知识点节点对应的第二特征,第二特征用于对用户节点和知识点节点进行匹配,以向用户推送相应知识点。该方案能够更精确地匹配用户需求。

    基于图结构的知识点推荐方法及装置

    公开(公告)号:CN111460085A

    公开(公告)日:2020-07-28

    申请号:CN202010307133.9

    申请日:2020-04-17

    Abstract: 本说明书的实施例提供基于图结构的知识点推荐方法及装置。在该知识点推荐方法中,基于历史连续问答会话数据构建知识图谱,知识图谱是有向图结构,节点表示知识点,有向边的方向表示所连接的知识点对的出现顺序,以及有向边的边权重用于反映对应的知识点对的出现次数。在接收用户的问题语句后,在知识库中获取与问题语句对应的第一知识点;在知识图谱中确定与第一知识点关联的第二知识点,并将所确定的第二知识点中的问题推荐给用户。

    一种训练文本关键内容提取模型的方法和系统

    公开(公告)号:CN111401042A

    公开(公告)日:2020-07-10

    申请号:CN202010223432.4

    申请日:2020-03-26

    Abstract: 本说明书实施例公开了一种训练文本关键内容提取模型的方法和系统。所述方法包括:获取若干个训练样本,所述训练样本包括问题和拼接文档,所述拼接文档包括对应于所述问题的关键内容、干扰内容以及与所述关键内容和干扰内容对应的分隔符;基于所述问题和所述拼接文档,利用机器阅读模型处理得到对应的表示向量;利用所述表示向量训练初始模型得到文本关键内容提取模型,其中,所述文本关键内容提取模型的输出为所述拼接文档中与每一内容对应的分隔符的预测值;基于所述预测值,构建损失函数,迭代优化所述文本关键内容提取模型。本说明书采用用户的反馈数据构造训练样本,可以有效提升机器阅读模型的质量和难度。

    一种训练文本相似度模型的方法和系统

    公开(公告)号:CN111353033A

    公开(公告)日:2020-06-30

    申请号:CN202010126357.X

    申请日:2020-02-27

    Abstract: 本说明书实施例公开了一种训练文本相似度模型的方法及系统,该方法包括:获取多组训练数据,多组训练数据中的一组包括:第一文本、第二文本和第三文本,第二文本和第三文本为用户输入的询问内容,第一文本为知识库中对应于第二文本和第三文本的问题;其中,第二文本为与第一文本匹配的用户反馈好评的文本,第三文本为与第一文本不匹配的用户反馈差评的文本;基于多组训练数据调整文本相似度模型的参数进而优化损失函数,得到训练后的文本相似度模型;其中,损失函数基于第一相似度和第二相似度的相对关系确定;第一相似度为文本相似度模型基于第一文本和第二文本计算的相似度,第二相似度为文本相似度模型基于第一文本与第三文本计算的相似度。

    文本检索方法、模型训练方法、文本检索装置及存储介质

    公开(公告)号:CN111274808A

    公开(公告)日:2020-06-12

    申请号:CN202010086368.X

    申请日:2020-02-11

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书涉及一种文本检索方法包括:对接收的第一文本进行分词,得到至少一个词语;根据所述至少一个词语从知识库中召回至少一个第二文本;将所述至少一个词语输入经过训练的文本向量模型,得到所述第一文本的文本向量;根据所述第一文本的向量从所述知识库中召回至少一个第三文本;以及将所述至少一个第二文本和所述至少一个第三文本进行融合,得到文本检索结果。本说明书还提供了词权重模型和文本向量模型的训练方法、文本检索装置、电子设备以及计算机可读存储介质。

    一种剔除干扰问题对的方法及系统

    公开(公告)号:CN110717028A

    公开(公告)日:2020-01-21

    申请号:CN201910995960.9

    申请日:2019-10-18

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书实施例公开了一种剔除干扰问题对的方法及系统。所述方法包括:获取至少一个问题对,将所述至少一个问题对输入初始剔除模型,剔除所述至少一个问题对中的干扰问题对;所述干扰问题对是指与目标主题不相关的问题对;将所述至少一个问题对中未剔除的第一问题对输入匹配模型,确定所述第一问题对的第一匹配结果;基于所述第一匹配结果以及所述第一问题对标定的第二匹配结果,得到反馈值;根据所述反馈值调整所述初始剔除模型,得到目标剔除模型,采用所述目标剔除模型剔除目标问题对中的干扰问题对。

    一种训练分类模型的方法及系统

    公开(公告)号:CN110704627A

    公开(公告)日:2020-01-17

    申请号:CN201910978508.1

    申请日:2019-10-15

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书实施例公开了一种训练分类模型的方法及系统。所述方法包括:获取至少一个问题对,将所述至少一个问题对输入初始分类模型,确定所述至少一个问题对中每一个的初始分类结果;基于所述初始分类结果,确定所述至少一个问题对中每一个的匹配模型,将所述至少一个问题对输入对应的所述匹配模型,确定所述至少一个问题对的第一匹配结果;基于所述第一匹配结果以及所述至少一个问题对标定的第二匹配结果,得到反馈值;根据所述反馈值调整所述初始分类模型,得到目标分类模型。

Patent Agency Ranking