-
公开(公告)号:CN117275460A
公开(公告)日:2023-12-22
申请号:CN202311110435.7
申请日:2023-08-30
Applicant: 度小满科技(北京)有限公司
Abstract: 本发明提供一种语音识别方法、装置、存储介质及电子设备,该方法包括:对待识别语音数据包括的M个语音帧中各个语音帧的提取语音特征进行特征提取,得到各个语音帧的第一语音特征,以确定用于指示N个关键语音帧的关键帧数据;调用语音识别模型中的第二编码模块,对P个目标语音帧中每个目标语音帧的第一语音特征进行特征提取,得到每个目标语音帧的第二语音特征;第二编码模块包括自注意力机制,且自注意力机制用于对N个关键语音帧进行自注意力机制计算;采用每个目标语音帧的第二语音特征,分别计算每个目标语音帧的标签概率,以生成待识别语音数据的语音识别结果。本发明实施例可在保证语音识别性能的情况下,减少自注意力机制的计算量。
-
公开(公告)号:CN117112279A
公开(公告)日:2023-11-24
申请号:CN202311088755.7
申请日:2023-08-28
Applicant: 度小满科技(北京)有限公司
IPC: G06F11/07
Abstract: 本公开提供一种数据链路的熔断方法和装置,涉及大数据处理技术领域。该方法的具体实施方式包括:接收一个或多个数据处理请求;对输入数据和目标节点进行数据存在性检测,判断输入数据和业务节点是否符合流通机制的存在性模板;其中,存在性模板和业务节点的节点标识、业务节点的业务类型一一对应;在输入数据、和/或业务节点不符合流通机制的情况下,熔断业务节点之前、或者业务节点与前一节点之间的数据链路。该实施方式能够利用数据存在性检测,保证输入数据的准确性,提升输入质量,避免了异常数据修复回溯计算的成本、异常排查成本、以及依赖于异常数据作出的决策损失和风险,提升数据链路流转的稳定性和可靠性。
-
公开(公告)号:CN117076979A
公开(公告)日:2023-11-17
申请号:CN202310955836.6
申请日:2023-07-31
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请提供了一种获取用户分类模型的方法、用户分类方法及相关装置,通过用户在预设时间段内浏览的每一原始文本中文本元素,确定其针对相应原始浏览数据的相似浏览频率,并基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,进一步,采用样本浏览数据训练预设分类模型学习每一用户的浏览喜好,进而在后续过程中,使用充分学习的用户分类模型,预测目标用户的类别,基于上述方式,一方面,根据每一原始文本的相似浏览频率及其文本元素获取信息量更强的样本浏览数据,从而采用样本浏览数据进行模型训练,提升模型的预测能力,另一方面,使用训练好的用户分类模型获取目标用户的类别,减少了用户分类成本。
-
公开(公告)号:CN116884024A
公开(公告)日:2023-10-13
申请号:CN202310691763.4
申请日:2023-06-12
Applicant: 度小满科技(北京)有限公司
IPC: G06V30/412 , G06V30/41
Abstract: 本发明提供一种表格识别方法、装置、存储介质及电子设备,该方法包括:获取包含目标表格的目标图像,并对目标图像进行表格检测,得到目标表格的目标表格位置信息;按照目标表格位置信息,从目标图像中裁剪出目标表格,并对目标表格进行文本检测,得到目标表格中各个目标文本行的文本位置信息;对目标表格进行表格结构识别,得到目标表格中各个目标单元格的单元格位置信息和行列标识信息;基于各个目标文本行的文本位置信息和各个目标单元格的单元格位置信息,确定各个目标单元格对应的文本内容,以得到目标表格的结构化信息,结构化信息支持对目标表格的表格重建。本发明实施例可提高表格识别的鲁棒性,以解决复杂场景下的表格识别及重建问题。
-
公开(公告)号:CN116883144A
公开(公告)日:2023-10-13
申请号:CN202310679234.2
申请日:2023-06-08
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请提供了一种风控模型的样本数据生成方法、装置以及设备,该方法包括:获取数据库中N个第一客户的信用数据;在N个第一客户中,每个第一客户与其它至少一个第一客户存在连接关系,信用数据包括第一客户的第一风险评分;基于N个第一客户的信用数据得到第一图节点信息和第一图结构信息,第一图节点信息包括第一客户的第一风险评分,第一图结构信息用于表征两个第一客户之间存在连接关系;根据第一图节点信息和第一图结构信息构建以M个第二客户为节点的图,构建的图中的第二图结构信息和第二图节点信息为样本数据。
-
公开(公告)号:CN112396050B
公开(公告)日:2023-09-15
申请号:CN202011401669.3
申请日:2020-12-02
Applicant: 度小满科技(北京)有限公司
IPC: G06V10/22 , G06V10/26 , G06V10/44 , G06V10/774 , G06V10/764
Abstract: 本申请提供一种图像的处理方法、设备以及存储介质,该方法通过获取待识别的图像的至少一个图像特征,待识别的图像包含目标对象,图像特征用于表征图像的成像质量或目标对象的完整程度,并基于至少一个图像特征,确定图像是否满足识别条件,在图像满足识别条件时,对图像中的目标对象进行识别,得到目标对象的信息,能够准确识别图像中的目标对象。
-
公开(公告)号:CN116740742A
公开(公告)日:2023-09-12
申请号:CN202310612931.6
申请日:2023-05-26
Applicant: 度小满科技(北京)有限公司
IPC: G06V30/412 , G06V30/414 , G06V30/146 , G06V30/162
Abstract: 本发明公开了一种非完整框线表格的提取方法、装置、设备及存储介质,该方法包括:基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型;将非完整框线表格栅格化获得栅格单元,并对栅格单元进行击中测试,基于击中测试结果确定栅格单元的候选行列线;基于栅格单元中文本框的对齐方式,从候选行列线中确定栅格单元的不可见行列线,以根据不可见行列线提取非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。
-
公开(公告)号:CN116720427A
公开(公告)日:2023-09-08
申请号:CN202310506331.1
申请日:2023-05-06
Applicant: 度小满科技(北京)有限公司
Abstract: 本公开公开了一种模型蒸馏方法、装置、电子设备及计算机介质,方法包括:获取第一模型的输入信息,第一模型包括至少两个教师模型和学生模型;确定第一模型的预测结果,并基于损失函数和预测结果,计算教师模型和学生模型的中间层向量特征差异和预测结果差异;基于帕累托最优组合算法对中间层向量特征差异和预测结果差异进行组合优化,并将学生模型的预测结果作为第二模型的目标预测结果。本公开实施例通过帕累托最优组合算法优化中间层向量特征差异和预测结果差异,减少了学生模型预测结果和教师模型的差异。
-
公开(公告)号:CN113643118B
公开(公告)日:2023-08-25
申请号:CN202110750015.X
申请日:2021-07-02
Applicant: 度小满科技(北京)有限公司
IPC: G06Q40/03
Abstract: 本发明的目的是提供一种用于客户分层的方法和装置。所述方法包括:基于待评估用户的历史表现数据和预存储的分层边界信息,确定该用户在多个周期的分层评价;基于该用户和其他多个用户在多个周期的分层评价,计算多个分层的分层迁移率;如果该分层迁移率不满足预定条件,则不断增加当前分层边界信息各个分层的边界值范围来重新计算分层迁移率,直至计算得到的分层迁移率满足预定条件。本申请实施例具有以下优点:在预测用户的客户分层时,获得用户在多个周期的客户分层,并通过迭代调节反馈的方式,不断加宽客户分层的边界,使得最终得到的客户分层较为稳定,从而避免在客户状态发生较大变化时的对其的风险估计发生严重偏离。
-
公开(公告)号:CN116303532A
公开(公告)日:2023-06-23
申请号:CN202310168603.1
申请日:2023-02-24
Applicant: 度小满科技(北京)有限公司
IPC: G06F16/242 , G06F16/245
Abstract: 本申请提供了一种数据处理方法、装置、设备、介质及程序产品,包括:确定第T‑1天的例行数据,第T‑1天的例行数据包括:第T‑1天的原始数据和距离第T‑1天前M‑1天的原始数据,T、M为大于1的整数;获取第一特征查询请求,第一特征查询请求用于请求获取第T天的例行数据对应的目标特征;响应于第一特征查询请求,获取第T天的原始数据;删除第T‑1天的例行数据中最晚一天的原始数据,将第T天的原始数据增加至第T‑1天的例行数据中,得到第T天的例行数据;根据第T天的例行数据生成目标特征,将目标特征发送给第一特征查询请求的发送方。以解决数据重复扫描的问题,减少数据的重复获取,提高根据数据生成特征时的数据利用率。
-
-
-
-
-
-
-
-
-