数据的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN109522424B

    公开(公告)日:2020-04-24

    申请号:CN201811204512.4

    申请日:2018-10-16

    Abstract: 本申请提供了一种数据的处理方法、装置、电子设备及存储介质,包括:通过标签分类模型包括的已有标签对第一样本集中的样本进行标签标注,得到第二样本集,获取第二样本集中的未标注已有标签的目标样本;获取针对目标样本设置的描述信息;将描述信息与标签库包括的标签进行相似度计算,确定与描述信息的相似度最高的标签为新标签;通过新标签对第二样本集中的目标样本进行标注,得到包括目标样本以及目标样本对应的新标签的第三样本集。本申请通过将未标注已有标签的目标样本对应的描述信息与标签库包括的标签进行相似度计算,确定相似度最高的新标签对目标样本进行二次标注,完善了标签分类体系,提高了对多媒体样本的分类精度。

    一种动态更新视频标签的方法、装置及电子设备

    公开(公告)号:CN111538859B

    公开(公告)日:2023-10-10

    申请号:CN202010329061.8

    申请日:2020-04-23

    Abstract: 本发明提供一种动态更新视频标签的方法、装置及电子设备,该方法包括:接收平台账户上传的待标注视频数据,从平台账户之前上传的视频数据中,获取标签视频数据集合外的缓冲视频数据,标签视频数据集合包括至少一个标注视频标签的标签视频数据;采用分类算法对待标注视频数据及缓冲视频数据进行分类,根据分类结果确定触发视频标签更新时,确定各分类相对标签视频数据集合的变化率;确定变化率大于设定阈值的分类对应的新视频标签,利用新视频标签更新标注的视频标签,利用该分类中的视频数据更新标签视频数据。本发明提供的动态更新视频标签的方法、装置及电子设备,解决了现有确定视频标签的方法对平台账户的代表性数据感知和更新不及时的问题。

    数据获取方法、装置及存储介质

    公开(公告)号:CN110543862B

    公开(公告)日:2022-04-22

    申请号:CN201910839264.9

    申请日:2019-09-05

    Abstract: 本公开是关于一种数据获取方法、装置及存储介质,属于计算机技术领域。该方法包括:根据网络模型的识别对象,获取多个第一用户标识;对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重;从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。

    数据获取方法、装置及存储介质

    公开(公告)号:CN110543862A

    公开(公告)日:2019-12-06

    申请号:CN201910839264.9

    申请日:2019-09-05

    Abstract: 本公开是关于一种数据获取方法、装置及存储介质,属于计算机技术领域。该方法包括:根据网络模型的识别对象,获取多个第一用户标识;对多个第一用户标识对应的原始数据进行聚类,得到每个原始数据的聚类标识;对于每个第一用户标识,根据第一用户标识对应的每个原始数据的聚类标识,确定第一用户标识的权重;从多个第一用户标识中选取至少一个第二用户标识,获取至少一个第二用户标识对应的原始数据,作为待标注的目标数据。第二用户标识对应的原始数据中不属于识别对象的目标数据较少,提高了待标注的目标数据的纯度,提高了技术人员筛选目标数据的速度,进而提高了标注效率。

    数据筛选方法、装置、服务器及存储介质

    公开(公告)号:CN109598307A

    公开(公告)日:2019-04-09

    申请号:CN201811489992.3

    申请日:2018-12-06

    Abstract: 本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据;根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。本公开通过预设条件的预测概率筛选出第一数据,再根据类别标签筛选出第二数据,降低了人工标注带来的成本,避免了因人力资源有限所导致的对原始数据的利用率的限制,增大了海量的原始数据的利用率。

    神经网络模型的处理方法、装置、电子设备以及存储介质

    公开(公告)号:CN109389220A

    公开(公告)日:2019-02-26

    申请号:CN201811143319.4

    申请日:2018-09-28

    Inventor: 张志伟 郑仲奇

    CPC classification number: G06N3/08

    Abstract: 本申请是关于一种神经网络模型的处理方法、装置、电子设备以及存储介质。在本申请实施例中,每一个样本数据的标注标签为一个,也即,样本数据为单标签数据集,通过本申请实施例的方法,使用单标签数据集可以训练出目标多标签分类模型,之后当需要预测本身含有多个标签的数据的标签时,通过目标多标签分类模型就可以得到该数据的多个标签。相比于相关技术,本申请无需工作人员需要依次人工标注样本数据是否属于标签体系中的每一个分类标签,降低了人工成本且提高了效率。

    数据标注方法、装置、电子设备及存储介质

    公开(公告)号:CN109886211B

    公开(公告)日:2022-03-01

    申请号:CN201910138614.9

    申请日:2019-02-25

    Abstract: 本公开是关于一种数据标注方法、装置、电子设备及存储介质,所述方法包括:将样本数据的样本标签与分类模型对样本数据重新添加的第一输出标签进行匹配,基于匹配结果调整分类模型,并且基于分类模型输出的待标注数据的第一候选标签与调整后的分类模型输出的待标注数据的第二候选标签的匹配结果,对待标注数据添加标签。可见,在本方案中,通过调整分类模型,使用更准确的分类模型对待标注数据进行标注,相比于人工标注,减少了数据标注成本。

    数据筛选方法、装置、服务器及存储介质

    公开(公告)号:CN109598307B

    公开(公告)日:2020-11-27

    申请号:CN201811489992.3

    申请日:2018-12-06

    Abstract: 本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据;根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。本公开通过预设条件的预测概率筛选出第一数据,再根据类别标签筛选出第二数据,降低了人工标注带来的成本,避免了因人力资源有限所导致的对原始数据的利用率的限制,增大了海量的原始数据的利用率。

    资源搜索方法、装置、设备及存储介质

    公开(公告)号:CN111611490A

    公开(公告)日:2020-09-01

    申请号:CN202010448846.7

    申请日:2020-05-25

    Abstract: 本申请提供了一种资源搜索方法、装置、设备及存储介质,属于计算机技术领域。本申请提供了一种基于用户的历史点击行为搜索资源的方法,通过考虑到用户的历史兴趣,根据候选资源与用户历史点击过的资源之间的相似度,对候选资源的资源特征进行加权,以使得到的目标特征不仅蕴含候选资源本身的特征,还融合了用户对资源的偏好,那么由于目标特征的表达能力更强,因此利用目标特征能够更精准地预估出目标参数,由于利用了更加准确的目标参数确定搜索结果,从而显著提高了搜索结果的准确性。

Patent Agency Ranking