-
公开(公告)号:CN116758258A
公开(公告)日:2023-09-15
申请号:CN202310710587.4
申请日:2023-06-15
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例公开了一种图像采集方法、装置及电子设备,该方法包括:获取针对目标对象所拍摄的图像;然后当该图像不符合预设的图像质量条件时,将该图像输入预先训练的原因生成模型中,通过原因生成模型确定图像中不符合预设的图像质量条件的位置,并生成针对确定的位置处的图像重拍引导信息,其中,原因生成模型是用于对造成图像不符合预设的图像质量条件的原因进行检测,并为检测结果提供相应的改进建议的模型;最后根据图像重拍引导信息,对目标对象重新进行图像拍摄。
-
公开(公告)号:CN116453210A
公开(公告)日:2023-07-18
申请号:CN202310259800.4
申请日:2023-03-10
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种融合传感器和视频流的手语识别方法,包括:获取图像采集设备采集的对应于手语手势的视频信号以及动作传感器采集的所述手语手势的动作信号;提取所述视频信号中的每帧图像数据的视觉特征,得到按照时间维度排序的视觉特征序列;提取所述动作信号的动作特征,得到按照时间维度排序的动作特征序列;将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列;基于所述融合特征序列,得到与所述手语手势对应的语义数据。相应地,本说明书实施例还提供了一种融合传感器和视频流的手语识别装置。
-
公开(公告)号:CN113221871A
公开(公告)日:2021-08-06
申请号:CN202110598997.5
申请日:2021-05-31
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 唐董琦
Abstract: 本说明书实施例公开了一种文字识别方法、装置、设备及介质,文字识别方法包括:对各候选网络进行神经架构搜索,以确定用于特征提取的目标网络;基于所述目标网络构建文字识别算法;获取待识别对象,使用所述文字识别算法对所述待识别对象进行文字识别,确定所述待识别对象对应的文字识别结果。
-
公开(公告)号:CN118153627A
公开(公告)日:2024-06-07
申请号:CN202410077725.4
申请日:2024-01-18
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/0455 , G06N3/08 , G06F18/22 , G06F16/953
Abstract: 本说明书公开了一种模型训练和信息检索的方法及装置,可以获取检索模型,而后,从检索模型中选取第一编码器以及第二编码器,并将第一编码器对应模态下第一训练样本以及第二编码器对应模态下第二训练样本输入到检索模型中,以根据第一编码器对第一训练样本进行编码得到的第一编码结果和第二编码器对第二训练样本进行编码得到的第二编码结果,确定第一训练样本与第二训练样本之间的匹配结果,以对第一编码器以及第二编码器进行训练,而后固定第一编码器中的网络参数,并针对检索模型中的每个其他编码器,将该其他编码器对应模态下的第三训练样本输入到该其他编码器中,以对该其他编码器进行训练,避免消耗较多计算资源,降低模型的管理成本。
-
公开(公告)号:CN117574276A
公开(公告)日:2024-02-20
申请号:CN202311637021.X
申请日:2023-11-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/243 , G06N3/09 , G06N3/045 , G06N3/0464
Abstract: 本说明书实施例提供了数据分类处理方法及装置,其中,一种数据分类处理方法包括:通过多层分类模型的当前分类层对待分类数据的中间数据进行分类处理,获得待分类数据的第一分类结果,借助第一分类结果、当前分类层的分类参数和前层分类评分,计算待分类数据在各数据类别下的分类评分,若分类评分触发当前分类层的下一分类层的数据分类条件,通过下一分类层对当前分类层的中间数据进行分类处理,获得第二分类结果,以此确定目标分类层的分类结果并基于目标分类层的分类结果确定待分类数据的数据类别。
-
公开(公告)号:CN117095454A
公开(公告)日:2023-11-21
申请号:CN202310867744.2
申请日:2023-07-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/764 , G06V10/774 , G06V10/82 , G06F40/58 , G06N3/0455
Abstract: 本说明书实施例公开了一种手语识别方法,包括:获取待识别视频流,所述待识别视频流包括连续的手语动作图像序列;获取所述待识别视频流中每个所述手语动作图像序列对应的手部运动姿态序列;将所述待识别视频流输入预先训练的第一识别模型,得到第一识别结果;所述第一识别结果包括每个目标词语在预设词表中的第一概率分布;将所述手部运动姿态序列输入预先训练的第二识别模型,得到第二识别结果;所述第二识别结果包括每个所述目标词语在所述词表中的第二概率分布;基于所述第一识别结果和所述第二识别结果,确定目标文本。相应地,本发明公开了手语识别装置以及相应的交互系统和电子设备。
-
公开(公告)号:CN116109833A
公开(公告)日:2023-05-12
申请号:CN202310090653.2
申请日:2023-01-17
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本发明公开了一种图像特征提取模型训练和图像比对的方法,包括:获取样本图像,对所述样本图像进行图像变换,以至少得到对应的第一变化视图和第二变化视图;将所述第一变化视图输入知识蒸馏网络中的老师网络,通过所述老师网络提取特征;将所述第二变化视图输入所述知识蒸馏网络中的学生网络,通过所述学生网络提取特征;根据所述第二变化视图的特征进行图像恢复,得到恢复视图;根据所述第一变化视图的特征和所述第二变化视图的特征确定蒸馏损失;根据所述恢复视图和所述样本图像确定复原损失;根据所述蒸馏损失和所述复原损失对所述老师网络进行训练。相应地,本发明公开了图像特征提取模型训练和图像比对的装置。
-
公开(公告)号:CN113254695B
公开(公告)日:2022-06-07
申请号:CN202110584272.0
申请日:2021-05-27
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 唐董琦
IPC: G06F16/583 , G06F16/55
Abstract: 本说明书实施例提供了一种图像检索方法。该检索方法包括:获取待检索的第一图像,并将该第一图像输入训练好的图像表征网络,得到第一表征向量;再对该第一表征向量进行二值化处理,得到该第一图像的二值表征向量;另一方面,获取多个候选图像的多个二值表征向量;进一步,分别计算该多个二值表征向量与所述第一图像的二值表征向量之间的向量距离,并基于该向量距离,从上述多个候选图像中召回与上述第一图像相似的图像。本说明书实施例还提供一种图像表征网络的训练方法,此训练方法可以保证图像特征在二值前后的检索性能保持一致。
-
公开(公告)号:CN119989323A
公开(公告)日:2025-05-13
申请号:CN202510474758.7
申请日:2025-04-15
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种数据处理方法、装置及眼镜类可穿戴设备,该方法应用于眼镜类可穿戴设备,眼镜类可穿戴设备上设置有相互间隔大于预设距离的多个声音采集组件,包括:通过多个声音采集组件中的每个声音采集组件接收用于对用户进行验证的语音数据,语音数据包括预设文本内容的语音数据;确定语音数据中预设文本内容中的每个字符的语音数据到达每个声音采集组件的时间;基于语音数据中预设文本内容中的每个字符的语音数据到达每个声音采集组件的时间,以及预设文本内容中的每个字符的发音点与多个声音采集组件中的每个声音采集组件之间的距离确定的每个字符的语音数据到达声音采集组件的基准时间,确定用户是否存在风险。
-
公开(公告)号:CN119478765A
公开(公告)日:2025-02-18
申请号:CN202411426958.7
申请日:2024-10-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了视频检测处理方法及装置,其中,一种视频检测处理方法包括:在待检测视频的检测过程中,通过对待检测视频的视频帧进行对象检测和图像提取获得对象图像,在对对象图像进行差分处理的基础上对获得的差分图像进行特征提取获得差分特征序列,并将各视频帧的视频特征序列与差分特征序列进行拼接,将拼接获得的特征序列输入视频检测模块进行机器生成视频的检测获得检测结果,以此实现待检测视频是否为机器生成视频的检测。
-
-
-
-
-
-
-
-
-