-
公开(公告)号:CN113221555B
公开(公告)日:2023-11-14
申请号:CN202110493880.0
申请日:2021-05-07
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例公开了一种基于多任务模型的关键词识别方法、装置以及设备。方案包括:获取训练文本,为训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;为训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;根据第一标签确定第一训练任务,以及根据第二标签确定第二训练任务;将第一训练任务和第二训练任务进行联合训练,得到关键词识别模型;利用关键词识别模型,识别输入文本中的关键词。
-
公开(公告)号:CN116302231A
公开(公告)日:2023-06-23
申请号:CN202211401844.8
申请日:2022-11-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/451 , G06F16/33 , G06F16/338 , G06F16/36
Abstract: 本说明书公开了一种事务数据推送方法、装置、存储介质及设备,其中方法包括:识别目标文本中的至少一个触发词,获取至少一个触发词分别对应的触发词向量,基于各触发词对应的触发词向量、各触发词对应的事件类型向量以及各触发词对应的相对位置向量,在目标文本中确定与各触发词对应的事件类型相关联的要素词信息,要素词信息包括至少一个要素词中各要素词对应的位置信息和各要素词之间的要素关系,基于各要素词的位置信息以及各要素词之间的要素关系,生成目标文本对应的事件抽取结果,各触发词对应的事件类型向量表示目标触发词对应的事件类型,各触发词对应的相对位置向量表示目标文本中各单词和各触发词之间的相对位置关系。
-
公开(公告)号:CN111401076B
公开(公告)日:2023-04-25
申请号:CN202010272706.9
申请日:2020-04-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/30 , G06F40/289 , G06N3/044
Abstract: 本说明书一个或多个实施例提供一种文本的相似度确定方法、装置和电子设备;所述方法包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。
-
公开(公告)号:CN113221555A
公开(公告)日:2021-08-06
申请号:CN202110493880.0
申请日:2021-05-07
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例公开了一种基于多任务模型的关键词识别方法、装置以及设备。方案包括:获取训练文本,为训练文本中的各字符分别标注第一标签,以表示对应的字符是否位于其所在词的起始位置或者终止位置;为训练文本中的各字符分别标注第二标签,以表示对应的字符所在词是否为关键词;根据第一标签确定第一训练任务,以及根据第二标签确定第二训练任务;将第一训练任务和第二训练任务进行联合训练,得到关键词识别模型;利用关键词识别模型,识别输入文本中的关键词。
-
公开(公告)号:CN111538906A
公开(公告)日:2020-08-14
申请号:CN202010477510.3
申请日:2020-05-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9535 , G06F21/62 , G06F40/30 , G06N3/04
Abstract: 本说明书实施例提供一种基于隐私保护的信息推送方法和装置,可以用于在保护用户隐私数据的前提下,基于历史会话中的对象选择序列建立异构图,并根据异构图体现出的推送对象之间的深层关联关系,从多个候选推送对象中确定若干个目标对象进行信息推送。根据一个实施方式,可以获取当前会话中的对象选择序列,并添加目标项构成预测序列,接着,将预测序列中的各项基于异构图确定描述向量,再根据各个描述向量推测目标项的预测向量,之后根据预测向量和各个候选推送对象的描述向量的对比,为目标项确定多个目标对象。该实施方式可以提高信息推送的准确度。
-
公开(公告)号:CN111401928A
公开(公告)日:2020-07-10
申请号:CN202010252268.X
申请日:2020-04-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/00 , G06F16/33 , G06F40/289 , G06F40/30
Abstract: 本说明书实施例提供了利用图数据确定文本的语义相似度的构思,在该技术构思下,图数据中的节点对应语料库中的句子和词,相关联的句子和词、词和词之间通过连接边连接,各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而通过图数据对文本和词汇进行有效的向量表达。在确定文本的语义相似度时,通过图数据获取待确定语义相似度文本的向量,利用向量相似度确定文本语义相似度。如此,可以提高文本语义相似度的通用性、准确度、有效性。
-
公开(公告)号:CN111324722A
公开(公告)日:2020-06-23
申请号:CN202010409812.7
申请日:2020-05-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本说明书实施例提供一种训练词语权重模型的方法和系统。所述方法包括:获取多个文本对;判断所述文本对中两个文本之间是否匹配,得到匹配结果;基于所述匹配结果确定所述文本对中文本的词语的重要性标识,得到含有所述重要性标识的多个文本对;基于多个训练数据训练词语权重模型,所述训练数据来源于含有所述重要性标识的多个文本对中的文本。
-
公开(公告)号:CN110991173B
公开(公告)日:2023-09-29
申请号:CN201911210176.9
申请日:2019-11-29
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 陈显玲
IPC: G06F40/284 , G06F40/216
Abstract: 本说明书实施例提供一种分词方法及系统。分词方法包括:候选词获取:基于第一位置从单句语料中获取预设字数的候选词;候选词截断:将候选词从一个或多个拆分位置处拆分,至少基于候选词中各拆分后子词的统计特征,从一个或多个拆分位置中确定候选词的截断位置;当截断位置位于候选词的结束位置时,将候选词确定为一个独立的分词;当截断位置位于候选词内部时,基于截断位置获取候选词的部分,将所述部分作为新的候选词进行至少一轮“候选词截断”处理,直至将所述部分拆分为一个或多个独立的分词;将截断位置作为第一位置从“候选词获取”开始进行下一轮循环;依此,将单句语料拆分为一个或多个独立的分词。
-
公开(公告)号:CN111309887B
公开(公告)日:2023-04-14
申请号:CN202010114332.8
申请日:2020-02-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06Q30/015
Abstract: 本说明书实施例公开了一种训练文本关键内容提取模型的方法及系统,所述方法包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;基于多组所述训练样本训练得到文本关键内容提取模型。
-
公开(公告)号:CN111353033B
公开(公告)日:2023-04-07
申请号:CN202010126357.X
申请日:2020-02-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F18/22 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本说明书实施例公开了一种训练文本相似度模型的方法及系统,该方法包括:获取多组训练数据,多组训练数据中的一组包括:第一文本、第二文本和第三文本,第二文本和第三文本为用户输入的询问内容,第一文本为知识库中对应于第二文本和第三文本的问题;其中,第二文本为与第一文本匹配的用户反馈好评的文本,第三文本为与第一文本不匹配的用户反馈差评的文本;基于多组训练数据调整文本相似度模型的参数进而优化损失函数,得到训练后的文本相似度模型;其中,损失函数基于第一相似度和第二相似度的相对关系确定;第一相似度为文本相似度模型基于第一文本和第二文本计算的相似度,第二相似度为文本相似度模型基于第一文本与第三文本计算的相似度。
-
-
-
-
-
-
-
-
-