一种文本相似度计算方法及系统

    公开(公告)号:CN110738059B

    公开(公告)日:2023-07-14

    申请号:CN201911000110.7

    申请日:2019-10-21

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书实施例公开了一种文本相似度计算的方法及系统。所述方法包括:获取第一文本,并提取与所述第一文本相对应的至少一个第一特征;根据所述第一文本得到与所述第一文本相关的多个第二文本;其中,与所述多个第二文本中的至少一个第二文本对应的至少一个第二特征已经存储在特征数据库中;将所述第一特征以及所述特征数据库中存储的第二特征输入交互模型,使用所述交互模型计算所述第一文本与所述第二本文本的相似度。

    一种机器阅读标注数据的生成方法和装置

    公开(公告)号:CN111488448B

    公开(公告)日:2023-06-20

    申请号:CN202010459357.1

    申请日:2020-05-27

    Inventor: 彭爽 崔恒斌

    Abstract: 本发明实施例提供了一种机器阅读标注数据的生成方法,该方法包括:获取第一人工对话日志,其中包含多轮问答对话语句;根据预先统计得到的高频答案语句集合,从多轮问答对话语句中确定出第一高频答案语句;对于多轮问答对话语句中位于第一高频答案语句之前的若干问题语句中的任意问题语句,根据第一高频答案语句与该任意问题语句之间的语义相似度,以及根据该两者之间的文本间隔距离,确定对应的总相关度;从若干问题语句中提取与第一高频答案的总相关度最高的问题语句,作为第一问题语句;根据第一人工对话日志、第一高频答案语句和第一问题语句,生成带有标注的机器阅读数据。

    一种短语分割模型的训练方法和系统

    公开(公告)号:CN111522957B

    公开(公告)日:2023-05-12

    申请号:CN202010384233.1

    申请日:2020-05-09

    Abstract: 本说明书的实施例公开了一种短语分割模型的训练方法和系统,所述方法包括:基于公共知识库获取至少一个目标短语,目标短语包含至少两个词;基于目标短语从公共知识库中获取至少一个第一文本,第一文本包含目标短语;基于第一文本获取非目标短语,非目标短语为第一文本的一部分,且不同于目标短语;将目标短语和第一文本构成的文本对作为正样本,非目标样本和第一文本构成的文本对作为负样本;基于多组正样本和负样本训练得到短语分割模型。

    用于文本处理的方法和装置

    公开(公告)号:CN111309889B

    公开(公告)日:2023-04-14

    申请号:CN202010123765.X

    申请日:2020-02-27

    Inventor: 彭爽 崔恒斌

    Abstract: 本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。该方法包括:从目标机器对话日志中获取目标问题文本,目标问题文本用于表示机器人客服未能回答的用户问题;基于目标问题文本,获取目标人工对话日志,目标人工对话日志是基于目标问题文本而产生的;利用机器阅读模型对目标问题文本和目标人工对话日志进行处理,其中机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的,训练语料是基于历史问题文本和历史人工对话日志得到的;基于机器阅读模型的处理结果,从目标人工对话日志中获取针对目标问题文本的答案文本,其中,目标问题文本和答案文本以问答对的形式被存储到知识库中。

    一种话术生成方法和系统
    76.
    发明授权

    公开(公告)号:CN110990547B

    公开(公告)日:2023-03-14

    申请号:CN201911204119.X

    申请日:2019-11-29

    Abstract: 本说明书实施例公开了话术生成方法。所述方法可以包括:获取对话上文,以及与所述对话上文相关的至少一个意图;分别获取与每一个意图相关的历史话术;基于话术生成模型,确定所述历史话术与所述对话上文的关联编码表示,所述话术生成模型为编码解码模型;基于所述话术生成模型,基于所述关联编码表示进行解码,生成目标话术。本说明书所披露的话术生成方法中采用了具有明确意图的历史话术,使得生成的话术具备多样性及针对性。

    多任务模型的训练方法及装置

    公开(公告)号:CN111310848B

    公开(公告)日:2022-06-28

    申请号:CN202010131419.6

    申请日:2020-02-28

    Abstract: 本说明书实施例提供一种多任务模型的训练方法及装置,在训练方法中,获取训练样本集,该训练样本集中的每个样本包括由一个问题和多个历史会话对组成的输入文本、第一标签和第二标签。对于任意的第一训练样本,将其中的输入文本输入文本编码层,得到输入文本的文本向量。从文本向量中确定出多个答案中各答案的语义向量。将各答案的语义向量输入问答相关性分类层,通过输出得到第一预测结果。基于第一预测结果和第一标签,确定第一预测损失。将文本向量输入答案选择层,通过输出得到第二预测结果。基于第二预测结果和第二标签,确定第二预测损失。基于训练样本集中各样本的第一预测损失与第二预测损失的融合结果,调整多任务模型的参数。

    基于图数据确定文本的语义相似度的方法及装置

    公开(公告)号:CN111401928B

    公开(公告)日:2022-04-12

    申请号:CN202010252268.X

    申请日:2020-04-01

    Abstract: 本说明书实施例提供了利用图数据确定文本的语义相似度的构思,在该技术构思下,图数据中的节点对应语料库中的句子和词,相关联的句子和词、词和词之间通过连接边连接,各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而通过图数据对文本和词汇进行有效的向量表达。在确定文本的语义相似度时,通过图数据获取待确定语义相似度文本的向量,利用向量相似度确定文本语义相似度。如此,可以提高文本语义相似度的通用性、准确度、有效性。

    一种训练分类模型的方法及系统

    公开(公告)号:CN110704627B

    公开(公告)日:2022-02-15

    申请号:CN201910978508.1

    申请日:2019-10-15

    Inventor: 陈晓军 崔恒斌

    Abstract: 本说明书实施例公开了一种训练分类模型的方法及系统。所述方法包括:获取至少一个问题对,将所述至少一个问题对输入初始分类模型,确定所述至少一个问题对中每一个的初始分类结果;基于所述初始分类结果,确定所述至少一个问题对中每一个的匹配模型,将所述至少一个问题对输入对应的所述匹配模型,确定所述至少一个问题对的第一匹配结果;基于所述第一匹配结果以及所述至少一个问题对标定的第二匹配结果,得到反馈值;根据所述反馈值调整所述初始分类模型,得到目标分类模型。

Patent Agency Ranking