-
公开(公告)号:CN119272894A
公开(公告)日:2025-01-07
申请号:CN202310827092.X
申请日:2023-07-06
Applicant: 腾讯科技(深圳)有限公司 , 北京大学
Abstract: 本申请实施例公开了一种客户端选择方法、装置、电子设备、存储介质和程序产品;本申请实施例向客户端发送待训练模型的初始模型向量;获取客户端的训练模型向量;基于初始模型向量以及训练模型向量,确定每个客户端分别对应的更新向量,以及均值更新向量;确定样本分布差异,样本分布差异反映更新向量对应的多媒体样本与均值更新向量对应的多媒体样本之间的差异;根据样本分布差异,从客户端中确定目标客户端。在本申请实施例中,可以通过更新向量和均值更新向量,得到客户端中多媒体样本的分布范围相对多媒体样本的平均分布范围的差异,以便通过样本分布差异,从多个客户端中筛选出未被植入后门的目标客户端。本方案可以提升客户端的筛选效率。
-
公开(公告)号:CN114330510A
公开(公告)日:2022-04-12
申请号:CN202111511703.7
申请日:2021-12-06
Applicant: 北京大学 , 腾讯科技(深圳)有限公司
Abstract: 本申请实施例公开了一种模型训练方法、装置、电子设备和存储介质,该方法涉及人工智能领域中的深度学习方向,包括:获取教师模型和学生模型;获取第一预测结果,第一预测结果由教师模型对样本数据集中的样本数据进行预测得到;获取教师模型对第一预测结果的可信度,可信度用于表征第一预测结果的可信程度;根据可信度更新第一预测结果,将更新后的第一预测结果作为第二预测结果;获取第二预测结果与学生模型预测样本数据的结果之间的差异;基于差异,更新学生模型的参数,以训练学生模型。本申请实施例通过教师模型对样本数据预测的可信度,能够准确地确定出样本数据对应的标签,以提升对学生模型的训练效果和效率。
-
公开(公告)号:CN107844469A
公开(公告)日:2018-03-27
申请号:CN201711012677.7
申请日:2017-10-26
Applicant: 北京大学
Abstract: 本发明公布了一种基于词向量查询模型的文本简化方法,基于序列到序列模型,在解码时参照注意力机制得到解码器的隐状态和所有词汇的词向量的相关度,作为下一步待生成的词语的可能性的度量;包括:设计文本编码器,对原文本进行压缩;设计文本简化解码生成器,循环地在每一时刻计算当前的隐层向量和上下文向量;求得词表中每个词的检索相关度,输出当前时刻预测的词语,获得一段完整的经过简化的文本;训练生成简化文本的模型,最小化预测的词语与实际目标词语的对数似然;训练后即生成完整的简化文本。本发明能够提高生成文本的质量和准确度,且大幅减少现有方法的参数个数,降低训练时间和内存占用。
-
公开(公告)号:CN119728985A
公开(公告)日:2025-03-28
申请号:CN202311292413.7
申请日:2023-09-28
IPC: H04N19/172 , H04N19/587 , H04N19/503
Abstract: 一种视频编码方法,包括:获取多个视频帧;通过编码器处理所述多个视频帧,得到编码结果;其中,所述编码器包括第一网络层;所述第一网络层包括帧间压缩模块,所述多个视频帧包括M个第一视频帧和N个第二视频帧,所述帧间压缩模块用于将所述M个第一视频帧的特征表示融合至所述N个第二视频帧的特征表示,得到N个特征表示;根据所述编码结果,执行视频相关的任务,得到处理结果。其中,帧间压缩模块可以通过对相似的视频帧的特征表示进行聚合,从而减少了模型需要处理的特征表示的数量,进而降低了模型的算力开销。
-
公开(公告)号:CN114357152A
公开(公告)日:2022-04-15
申请号:CN202111031124.2
申请日:2021-09-03
Applicant: 北京大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F40/216 , G06K9/62 , G06N3/08
Abstract: 本申请实施例公开了一种信息处理方法、装置、计算机可读存储介质和计算机设备,涉及互联网技术领域;通过获取目标样本;采用预设分类模型对目标样本进行分类处理,得到目标样本对应的第一类别概率分布;根据第一类别概率分布计算目标样本的困难系数,并基于困难系数对目标样本进行筛选,得到筛选后目标样本;采用训练后深度分类模型对筛选后目标样本进行分类处理,得到筛选后目标样本对应的第二类别概率分布;计算第二类别概率分布与第一类别概率分布之间的差异,并基于差异对预设分类模型进行收敛,得到训练后分类模型,该训练后分类模型用于对待处理信息进行分类。以此,在模型训练过程中提高了信息处理效率,进而提高了模型训练的效率。
-
公开(公告)号:CN114282587A
公开(公告)日:2022-04-05
申请号:CN202111034264.5
申请日:2021-09-03
Applicant: 北京大学 , 腾讯科技(深圳)有限公司
Abstract: 本申请公开了一种数据处理方法、装置、计算机设备及存储介质,属于计算机技术领域。本申请通过在图神经网络的调参过程中,确定每个标注节点的冲突水平参数,以衡量每个标注节点的拓扑位置,并在冲突水平参数的基础上,为每个标注节点分配自身的目标权重,将这一目标权重投入到调参过程中,以调节处于不同拓扑位置的不同标注节点各自在调参过程中产生的影响,如为拓扑位置靠近类别中心的标注节点分配较大目标权重,为拓扑位置靠近类别边界的标注节点分类较小权重,从而能够改善由于图神经网络普遍存在的类别不均衡现象,提高图神经网络的识别准确度。
-
公开(公告)号:CN107844469B
公开(公告)日:2020-06-26
申请号:CN201711012677.7
申请日:2017-10-26
Applicant: 北京大学
IPC: G06F40/186 , G06F16/332 , G06N3/04
Abstract: 本发明公布了一种基于词向量查询模型的文本简化方法,基于序列到序列模型,在解码时参照注意力机制得到解码器的隐状态和所有词汇的词向量的相关度,作为下一步待生成的词语的可能性的度量;包括:设计文本编码器,对原文本进行压缩;设计文本简化解码生成器,循环地在每一时刻计算当前的隐层向量和上下文向量;求得词表中每个词的检索相关度,输出当前时刻预测的词语,获得一段完整的经过简化的文本;训练生成简化文本的模型,最小化预测的词语与实际目标词语的对数似然;训练后即生成完整的简化文本。本发明能够提高生成文本的质量和准确度,且大幅减少现有方法的参数个数,降低训练时间和内存占用。
-
公开(公告)号:CN107291837B
公开(公告)日:2020-04-03
申请号:CN201710397541.6
申请日:2017-05-31
Applicant: 北京大学
IPC: G06F16/35 , G06F40/289 , G06N3/08
Abstract: 本发明公布了一种基于领域适应性的社交网络文本的分词方法,通过建立集成式神经网络和采用自训练的学习方法,利用跨领域的新闻语料、社交网络中的标注数据和无标注数据对集成式神经网络模型进行训练;具体将社交网络文本分为标注和未标注数据集合作为输入;将新闻领域语料作为源语料,在新闻源语料上预训练源分类器;通过对源分类器赋予权重的方式进行源分类器的集成;使用社交网络语料对集成式神经网络模型进行训练;利用训练好的集成式神经网络模型进行预测,由此提升社交网络分词的效果。本发明可用于解决社交网络中因为数据过少导致的效果差的问题,能够有效地提升社交网络文本分词的效果。
-
公开(公告)号:CN114330510B
公开(公告)日:2024-06-25
申请号:CN202111511703.7
申请日:2021-12-06
Applicant: 北京大学 , 腾讯科技(深圳)有限公司
Abstract: 本申请实施例公开了一种模型训练方法、装置、电子设备和存储介质,该方法涉及人工智能领域中的深度学习方向,包括:获取教师模型和学生模型;获取第一预测结果,第一预测结果由教师模型对样本数据集中的样本数据进行预测得到;获取教师模型对第一预测结果的可信度,可信度用于表征第一预测结果的可信程度;根据可信度更新第一预测结果,将更新后的第一预测结果作为第二预测结果;获取第二预测结果与学生模型预测样本数据的结果之间的差异;基于差异,更新学生模型的参数,以训练学生模型。本申请实施例通过教师模型对样本数据预测的可信度,能够准确地确定出样本数据对应的标签,以提升对学生模型的训练效果和效率。
-
公开(公告)号:CN110377910B
公开(公告)日:2024-03-05
申请号:CN201910662839.4
申请日:2019-07-22
Applicant: 北京大学 , 腾讯科技(深圳)有限公司
IPC: G06F40/216 , G06F40/284 , G06N3/0455 , G06N3/0475
Abstract: 本发明提供了一种表格描述的处理方法、装置、设备及存储介质;方法包括:获取表格数据;通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。通过本发明,能够根据结构化的表格,获得连贯的文本描述信息。
-
-
-
-
-
-
-
-
-