-
公开(公告)号:CN111737443A
公开(公告)日:2020-10-02
申请号:CN202010818292.5
申请日:2020-08-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/335 , G06F16/338
Abstract: 本说明书提供了答案文本的处理方法和装置、关键文本的确定方法。在一个实施例中,基于上述答案文本的数据处理方法,通过先从预设的知识库中确定出与目标问题匹配的答案文本作为目标答案文本;再通过从目标答案文本中识别确定出与目标问题关联性较强且用户关注度较高的关键文本,并在目标答案文本中标注出上述关键文本;进而可以在向用户所展示的目标答案文本中标识出上述关键文本,使得用户可以方便、高效地读取到目标答案文本中用户所需要的、价值较高的关键信息。
-
公开(公告)号:CN111339308A
公开(公告)日:2020-06-26
申请号:CN202010439816.X
申请日:2020-05-22
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书提出了一种基础分类模型的训练方法、装置和电子设备,其中,上述方法包括:获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练;通过本说明书提供的方法可以实现无监督的训练,由此可以提高训练的效率,并进一步提高分类的准确度。
-
公开(公告)号:CN111291738A
公开(公告)日:2020-06-16
申请号:CN202010384142.8
申请日:2020-05-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06K9/00 , G06K9/62 , G06F16/958
Abstract: 本申请的一个或多个实施例提出前端页面图像中的元素提取方法、装置及电子设备。上述方法包括,响应于元素提取指令,将接收的目标前端页面图像的图像数据输入元素检测模型进行计算,得到与上述目标前端页面图像包括的元素对应的元素图像数据。确定上述元素的元素类型。如果上述元素为文本元素,则进一步确定上述文本元素的文字内容数据,并存储上述文字内容数据以完成针对上述目标前端页面图像的元素提取。
-
公开(公告)号:CN111339784B
公开(公告)日:2023-03-14
申请号:CN202010153596.4
申请日:2020-03-06
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 谢杨易
Abstract: 本说明书的一个方面提供一种新话题的自动挖掘方法和系统。所述方法包括:获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;基于所述第一语义距离确定至少一个第一簇;确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;基于所述第二语义距离确定至少一个第二簇;确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
-
公开(公告)号:CN112015898A
公开(公告)日:2020-12-01
申请号:CN202010884803.3
申请日:2020-08-28
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种基于标签树的模型训练、文本标签确定方法及装置。在模型训练中,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;获取基于训练集和虚标签构建的异构关系网络,其中包括文本节点、标签节点和分词节点以及它们之间的连接边;从异构关系网络中查找符合预设格式的多组元路径;将多组元路径输入预先训练的图嵌入模型,得到多个实标签和多个虚标签分别对应的更新特征;将更新特征对应地确定为第一标签树中若干个节点的特征,得到第二标签树;基于训练集对第二标签树对应的文本分类模型进行训练。
-
公开(公告)号:CN111475652B
公开(公告)日:2023-09-22
申请号:CN202010441154.X
申请日:2020-05-22
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F16/332
Abstract: 本说明书提供的数据挖掘的方法和系统,通过聚类算法对海量的样本数据进行聚类,生成多个样本簇,每个样本簇中的多个样本数据对应相似的话题;从所述样本簇中选取样本数据数量最多的至少一个样本簇作为热门话题;并通过意图识别模型对热门话题中的样本数据进行分类,从中识别出有价值的样本数据。所述方法和系统可以对海量数据进行聚类,从而挖掘出共性的问题,以进行批量解决,大大提高了工作效率;同时,所述方法和系统可以从海量数据中挖掘出对产品经理有价值的信息,以帮助产品经理从用户的角度解决用户的诉求,大大提升了产品的体验感,提高用户满意度。
-
公开(公告)号:CN111475635B
公开(公告)日:2023-04-18
申请号:CN202010420180.4
申请日:2020-05-18
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F40/30 , G06N3/0442
Abstract: 本说明书提出了一种语义补全方法、装置和电子设备,其中,上述方法包括:获取待语义补全的第一语句,对所述第一语句进行向量转换,得到第一语句向量;获取第一文本,对所述第一文本进行向量转换,得到第一文本向量;将所述第一语句向量和所述第一文本向量输入预置注意力模型进行注意力计算,得到所述第一语句向量的注意力分布,根据所述注意力分布计算获得第一语句隐向量;根据所述第一语句隐向量进行归一化计算,得到语义补全后的第二语句;通过上述方法可以对语句进行语义补全,由此可以提高语句的清晰度,进而提高文本的可读性。
-
公开(公告)号:CN111291208A
公开(公告)日:2020-06-16
申请号:CN202010384139.6
申请日:2020-05-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请的一个或多个实施例提出前端页面元素的命名方法、装置及电子设备。上述方法包括,当目标页面元素为图像元素时,计算上述目标页面元素,与预设图像库中的各图像之间的相似度。确定计算出的上述相似度中的最大相似度。将计算上述最大相似度时对应的上述预设图像库中的图像的名称,确定为上述目标页面元素的名称。
-
公开(公告)号:CN111737443B
公开(公告)日:2020-11-20
申请号:CN202010818292.5
申请日:2020-08-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/335 , G06F16/338
Abstract: 本说明书提供了答案文本的处理方法和装置、关键文本的确定方法。在一个实施例中,基于上述答案文本的数据处理方法,通过先从预设的知识库中确定出与目标问题匹配的答案文本作为目标答案文本;再通过从目标答案文本中识别确定出与目标问题关联性较强且用户关注度较高的关键文本,并在目标答案文本中标注出上述关键文本;进而可以在向用户所展示的目标答案文本中标识出上述关键文本,使得用户可以方便、高效地读取到目标答案文本中用户所需要的、价值较高的关键信息。
-
公开(公告)号:CN111339308B
公开(公告)日:2020-09-22
申请号:CN202010439816.X
申请日:2020-05-22
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书提出了一种基础分类模型的训练方法、装置和电子设备,其中,上述方法包括:获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练;通过本说明书提供的方法可以实现无监督的训练,由此可以提高训练的效率,并进一步提高分类的准确度。
-
-
-
-
-
-
-
-
-