-
公开(公告)号:CN112989785A
公开(公告)日:2021-06-18
申请号:CN202110457512.0
申请日:2021-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/194 , G06F40/211 , G06K9/62
Abstract: 本说明书实施例提供了文本向量的获取方法和装置及文本相似度的计算方法和装置。该向量获取方法包括:得到待处理的文本;针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符;利用识别出的属于每一种要素的字符,得到对应于该种要素的向量;将得到的对应于各个要素的各个向量作为所述文本的向量。
-
公开(公告)号:CN111475637A
公开(公告)日:2020-07-31
申请号:CN202010588724.8
申请日:2020-06-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06N5/02
Abstract: 本说明书实施例提供一种用于推送知识点的数据处理、训练方法及装置,基于异构图提取符合预设格式的多组元路径,获取异构图中各个节点的对应的第一特征,然后将多组元路径输入预先训练得到的图神经网络模型,通过图神经网络模型对元路径上节点的第一特征进行聚合,至少输出作为路径端点的用户节点和/或知识点节点对应的第二特征,第二特征用于对用户节点和知识点节点进行匹配,以向用户推送相应知识点。该方案能够更精确地匹配用户需求。
-
公开(公告)号:CN111460085A
公开(公告)日:2020-07-28
申请号:CN202010307133.9
申请日:2020-04-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/31 , G06F16/332 , G06F16/335 , G06F16/36
Abstract: 本说明书的实施例提供基于图结构的知识点推荐方法及装置。在该知识点推荐方法中,基于历史连续问答会话数据构建知识图谱,知识图谱是有向图结构,节点表示知识点,有向边的方向表示所连接的知识点对的出现顺序,以及有向边的边权重用于反映对应的知识点对的出现次数。在接收用户的问题语句后,在知识库中获取与问题语句对应的第一知识点;在知识图谱中确定与第一知识点关联的第二知识点,并将所确定的第二知识点中的问题推荐给用户。
-
公开(公告)号:CN111353033A
公开(公告)日:2020-06-30
申请号:CN202010126357.X
申请日:2020-02-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06K9/62 , G06N3/04
Abstract: 本说明书实施例公开了一种训练文本相似度模型的方法及系统,该方法包括:获取多组训练数据,多组训练数据中的一组包括:第一文本、第二文本和第三文本,第二文本和第三文本为用户输入的询问内容,第一文本为知识库中对应于第二文本和第三文本的问题;其中,第二文本为与第一文本匹配的用户反馈好评的文本,第三文本为与第一文本不匹配的用户反馈差评的文本;基于多组训练数据调整文本相似度模型的参数进而优化损失函数,得到训练后的文本相似度模型;其中,损失函数基于第一相似度和第二相似度的相对关系确定;第一相似度为文本相似度模型基于第一文本和第二文本计算的相似度,第二相似度为文本相似度模型基于第一文本与第三文本计算的相似度。
-
公开(公告)号:CN111400484B
公开(公告)日:2023-06-02
申请号:CN202010200961.2
申请日:2020-03-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/335 , G06F40/289 , G06F40/284 , G06F40/205 , G06F18/214
Abstract: 本说明书实施例公开了一种关键词提取方法和系统,所述方法包括:获取目标文本;从所述目标文本中选择目标词语;将所述目标文本的信息以及当前选择的目标词语的位置信息输入关键词提取模型,得到该目标词语的去除或保留操作;执行该目标词语的去除或保留操作,得到操作后的目标文本;判断所述操作后的目标文本中是否存在未被执行所述操作的词语;若是,则以所述操作后的目标文本替换所述目标文本,从所述操作后的目标文本中选择其中一个所述未被执行所述操作的词语,以该词语作为所述当前选择的目标词语,重复执行上述输入关键词提取模型至判断的步骤;若否,则将所述操作后的目标文本中的词语确定为所述目标文本的关键词。
-
公开(公告)号:CN111522957B
公开(公告)日:2023-05-12
申请号:CN202010384233.1
申请日:2020-05-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F40/126 , G06F40/205 , G06F40/237 , G06F40/289
Abstract: 本说明书的实施例公开了一种短语分割模型的训练方法和系统,所述方法包括:基于公共知识库获取至少一个目标短语,目标短语包含至少两个词;基于目标短语从公共知识库中获取至少一个第一文本,第一文本包含目标短语;基于第一文本获取非目标短语,非目标短语为第一文本的一部分,且不同于目标短语;将目标短语和第一文本构成的文本对作为正样本,非目标样本和第一文本构成的文本对作为负样本;基于多组正样本和负样本训练得到短语分割模型。
-
公开(公告)号:CN111401928B
公开(公告)日:2022-04-12
申请号:CN202010252268.X
申请日:2020-04-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/00 , G06F16/33 , G06F40/289 , G06F40/30
Abstract: 本说明书实施例提供了利用图数据确定文本的语义相似度的构思,在该技术构思下,图数据中的节点对应语料库中的句子和词,相关联的句子和词、词和词之间通过连接边连接,各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而通过图数据对文本和词汇进行有效的向量表达。在确定文本的语义相似度时,通过图数据获取待确定语义相似度文本的向量,利用向量相似度确定文本语义相似度。如此,可以提高文本语义相似度的通用性、准确度、有效性。
-
公开(公告)号:CN111461353A
公开(公告)日:2020-07-28
申请号:CN202010302619.3
申请日:2020-04-17
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种模型训练的方法和系统。模型训练方法包括,获取训练数据,所述训练数据包括多个样本对,每个样本对包括特征数据和标签数据,所述特征数据包括图像数据、文本数据或音频数据;基于每个样本对的特征数据,利用集成模型确定所述特征数据对应的综合输出结果;以及以所述多个样本对的特征数据作为输入,利用对应的综合输出结果和标签数据联合作为监督对初始模型进行训练,以获得最终模型。
-
公开(公告)号:CN111444319A
公开(公告)日:2020-07-24
申请号:CN202010533381.5
申请日:2020-06-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/194 , G06F40/126 , G06F40/284 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本说明书提出了一种文本匹配方法、装置和电子设备,其中,上述方法包括:获取待匹配文本,根据所述待匹配文本得到知识点集合;根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合;根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。通过上述方法可以提高输入文本与知识点之间的匹配的准确度。
-
公开(公告)号:CN111401076A
公开(公告)日:2020-07-10
申请号:CN202010272706.9
申请日:2020-04-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/30 , G06F40/289 , G06N3/04
Abstract: 本说明书一个或多个实施例提供一种文本的相似度确定方法、装置和电子设备;所述方法包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。
-
-
-
-
-
-
-
-
-