数据筛选方法、装置、服务器及存储介质

    公开(公告)号:CN109657710A

    公开(公告)日:2019-04-19

    申请号:CN201811489982.X

    申请日:2018-12-06

    Abstract: 本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于分词工具和词向量模型,获取各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量;基于所述各个类别标签的第一词向量和每个原始数据中文本信息的第二词向量,从所述多个原始数据中,确定目标数据。通过引入分词工具和词向量模型,使得原始数据中的文本信息能够以计算机可处理的向量形式表示,降低了人工标注带来的成本,增大了海量的原始数据的利用率。

    分类模型的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN109447125A

    公开(公告)日:2019-03-08

    申请号:CN201811143313.7

    申请日:2018-09-28

    Inventor: 张志伟 夏雨 汪笑

    Abstract: 本申请是关于一种分类模型的处理方法、装置、电子设备及存储介质。获取待评估分类模型和至少两个样本数据;获取标签体系与待评估分类模型的标签体系相同的参考分类模型;使用待评估分类模型预测每一个样本数据分别属于每一个预设标签的新概率;使用参考分类模型预测每一个样本数据分别属于每一个预设标签的参考概率;根据新概率和参考概率绘制待评估分类模型对应于每一个预设标签的准召曲线。通过本申请,无需人工标注样本数据的标注标签,通过标签体系与待评估分类模型的标签体系相同的参考分类模型就可以预测每一个样本数据分别属于每一个预设标签的参考概率,从而可以降低人工成本并提高效率。

    一种模型训练的方法及装置

    公开(公告)号:CN109145937A

    公开(公告)日:2019-01-04

    申请号:CN201810664585.5

    申请日:2018-06-25

    CPC classification number: G06K9/6267 G06K9/6218 G06K9/6256 G06N3/0454

    Abstract: 本发明实施例提供了一种模型训练的方法及装置,其中所述方法包括:获取指定分类类别中的待训练的样本数据;对所述待训练的样本数据进行特征提取,获得所述指定分类类别对应的特征信息;对所述指定分类类别对应的特征信息进行聚类,得到多个聚类标签;对所述聚类标签对应的样本数据进行数据均衡处理;将数据均衡处理后的样本数据作为目标样本数据;采用所述目标样本数据,训练指定模型。本发明可以通过上述无监督的方法细化已有分类类别内的标签,实现类别内的样本均衡,为模型提供均衡的样本数据,根据该均衡的样本数据进行模型训练可以得到优化的模型,采用该优化的模型进行数据预测可以得到更准确的预测结果,提高模型预测的准确率。

    文字信息处理方法、装置及终端

    公开(公告)号:CN108536669A

    公开(公告)日:2018-09-14

    申请号:CN201810162656.1

    申请日:2018-02-27

    Inventor: 张志伟 杨帆

    Abstract: 本发明实施例提供了一种文字信息处理方法、装置及终端,其中,所述方法包括:确定待处理文字信息对应的拼音字符串;采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的字符串集合;确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数;依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征。由于本发明实施例中采样拼音哈希空间表征词库中的单词,对于未出现在词库中的单词具有良好的鲁棒性。

    图像内容识别方法、装置及终端

    公开(公告)号:CN108256555A

    公开(公告)日:2018-07-06

    申请号:CN201711394566.7

    申请日:2017-12-21

    Inventor: 张志伟 杨帆

    Abstract: 本发明实施例提供了一种图像内容识别方法、装置及终端,其中,所述方法包括:在对卷积神经网络进行训练的过程中,向卷积神经网络中输入样本图像,其中,所述样本图像用于对所述卷积神经网络进行迭代训练;确定对所述卷积神经网络的已训练迭代次数;基于所述已训练迭代次数,调节损失函数得到目标损失函数;依据所述目标损失函数进行迭代训练,得到目标卷积神经网络;通过所述目标卷积神经网络,对待识别图像进行内容识别。通过本发明实施例提供的卷积神经网络训练方案,能够更好地拟合到复杂图像样本的分布,减小中间概率值分布的样本图像个数,从而在保证卷积神经网络识别结果准确率的情况下,增加样本的召回率。

    图像标签确定方法、装置及终端

    公开(公告)号:CN108171254A

    公开(公告)日:2018-06-15

    申请号:CN201711174210.2

    申请日:2017-11-22

    Inventor: 张志伟 杨帆

    CPC classification number: G06K9/6232 G06K9/6267 G06N3/0454

    Abstract: 本发明实施例提供了一种图像标签确定方法、装置及终端,其中,所述方法包括:通过卷积神经网络确定图像的特征图;将所述特征图输入多标签模型中的各语义层级分类器中;其中,所述多标签模型包含多个语义层级,每个语义层级对应一个语义层级分类器;通过各语义层级分类器分别预测所述特征图对应的标签;将各语义层级分类器预测输出的标签,确定为所述图像的标签。通过本发明实施例提供的图像标签确定方法,能够确定图像对应的不同层级的标签,从而准确识别出图像的所属的类别。

    学习型图像处理方法、系统及服务器

    公开(公告)号:CN108108807A

    公开(公告)日:2018-06-01

    申请号:CN201711487469.2

    申请日:2017-12-29

    Inventor: 杨帆 张志伟

    Abstract: 本发明实施例公开了一种学习型图像处理方法、系统及服务器,包括下述步骤:采集待测目标图像;将所述待测目标图像输入到预设的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中类内特征的余弦距离趋向于欧氏距离;获取所述分类数据,并根据所述分类数据对所述待测目标图像进行内容理解。通过联合损失函数中的基于余弦距离的损失函数对分类数据的筛选,使分类数据中的余弦距离最大化,但由于简单图像中的色彩单一,因此类内收敛性较强余弦距离的最大化,反而会使余弦距离趋向于欧氏距离的计算结果,以此简化实现的复杂性。

    脸部图像处理方法、装置及服务器

    公开(公告)号:CN107818314A

    公开(公告)日:2018-03-20

    申请号:CN201711174894.6

    申请日:2017-11-22

    Inventor: 杨帆 张志伟

    CPC classification number: G06K9/00288 G06K9/00268 G06K9/6269

    Abstract: 本发明实施例公开了一种脸部图像处理方法、装置及服务器,包括下述步骤:获取待处理的人脸图像;将所述人脸图像输入到预先训练的卷积神经网络模型中,获取所述卷积神经网络模型响应所述人脸图像输入而输出分类数据,所述卷积神经网络模型以损失函数为约束条件,限定所述分类数据中每一类的特征余弦值趋向于1;获取所述分类数据,并根据所述分类数据对所述人脸图像进行内容理解。使维特征向量与损失函数权值之间的余弦值趋向于1,以此,达到类内距离收敛的效果,类内距离的收敛进而使分类数据的类间距离增大,类内距离的增大能够使分类数据区别更加的明显,数据的鲁邦性增加,同样也会提高内容理解的准确性。

    一种搜索结果的排序方法、装置、设备和存储介质

    公开(公告)号:CN112434183B

    公开(公告)日:2024-05-17

    申请号:CN202011374973.3

    申请日:2020-11-30

    Inventor: 张志伟 林靖

    Abstract: 本公开关于一种搜索结果的排序方法、装置、设备和存储介质,所述方法包括分别获取新增搜索结果对应的行为特征数据中与当前搜索词相关的第二行为特征数据和历史搜索结果对应的行为特征数据中与当前搜索词相关的第一行为特征数据。获取与当前搜索词相似的目标搜索词以及与新增搜索结果相似的目标搜索结果。根据目标搜索词和/或目标搜索结果,确定新增搜索结果的关联行为特征数据。根据第二行为特征数据、关联行为特征数据和第一行为特征数据,确定搜索结果序列。该方法提高了关联行为特征数据的置信度,并根据关联行为特征数据补充了新增搜索结果对应的行为特征数据,提高了搜索结果排序的合理性和精准性。

    多媒体资源排序方法、装置、电子设备及存储介质

    公开(公告)号:CN112000822B

    公开(公告)日:2024-05-14

    申请号:CN202010850843.6

    申请日:2020-08-21

    Abstract: 本公开关于一种多媒体资源排序方法、装置、电子设备及存储介质,通过根据多媒体资源的多媒体特征对搜索词对应的文本特征进行加权处理,得到包含有注意力分布信息的加权文本特征;并将搜索词的加权文本特征与多媒体资源的多媒体特征进行融合,得到特征表达能力提升的融合特征;将融合特征输入至点击概率预估模型,输出多媒体资源的点击概率估计值。由于融合特征不仅包含有多媒体资源的注意力分布信息,还增大了文本特征与多媒体特征之间的紧密联系,从而通过点击概率预估模型对融合特征进行预测时,可以对用户的点击行为进行准确预估,进而根据点击概率预估模型输出的点击概率估计值进行多媒体资源的排序,提升搜索多媒体资源的准确性。

Patent Agency Ranking