一种不同平台间识别同一用户的方法与系统

    公开(公告)号:CN105183806A

    公开(公告)日:2015-12-23

    申请号:CN201510530598.X

    申请日:2015-08-26

    CPC classification number: G06F16/951 G06F17/2705 G06K9/6269 G06Q50/01

    Abstract: 本发明公开了一种不同平台间识别同一用户的方法与系统,收集两不同平台中用户发表的文本信息,将所述文本信息中的一部分进行标注,并将已标注文本信息作为已标注样本,将未标注文本信息作为待测样本,利用LDA模型对已标注样本与待测样本分别抽取主题特征,对抽取的主题特征分别进行余弦相似度计算,并将得到的相似度值分别作为训练样本与测试样本;利用预设算法对所述训练样本进行训练得到分类器模型,利用分类器模型对所述测试样本进行分类,确定所述两不同平台下的测试样本对应的用户是否为同一用户,能够有效地通过用户发表的文本识别两个不同平台下的用户是否同一用户,且在训练样本数量有限的情况下,达到较高的准确率。

Patent Agency Ranking