基于内容和用户标识的弹幕过滤方法、装置及存储介质

    公开(公告)号:CN112507164A

    公开(公告)日:2021-03-16

    申请号:CN202011417368.X

    申请日:2020-12-07

    Abstract: 本发明公开了一种基于内容和用户标识的弹幕过滤方法及装置,所述方法包括:对python爬虫软件爬取到的弹幕视频网站弹幕数据和用户数据进行预处理;引入词嵌入、词相似度、词与主题概率度、标签主题概率度共同作用下的短文本表示方法对弹幕短文本进行扩展;构造用户平台类特征;拼接扩展后的文本特征和平台类特征输入分类模型,输出弹幕分类结果。本发明结合外部语料库扩展和短文本自身内容特征扩展的优点,同时将词向量引入特征扩展,最大程度实现原文本语义扩展,在弹幕特征空间中加入用户平台类特征,丰富弹幕特征空间,提高弹幕识别率。

    基于弹幕情感的视频热点片段检测方法、装置及存储介质

    公开(公告)号:CN112699831A

    公开(公告)日:2021-04-23

    申请号:CN202110019644.5

    申请日:2021-01-07

    Abstract: 本发明公开了基于弹幕情感的视频热点片段检测方法、装置及存储介质,包括对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,构造弹幕情感词典,对视频片段中的弹幕进行情感强度计算和整体情感倾向进行判定;计算相邻视频片段的情感强度变化率;使用LDA主题模型进行主题提取,计算相邻视频片段的主题相似度;构造热点视频片段检测模型;将需要检测的弹幕视频输入到模型中,得到热点视频片段。本发明构建的弹幕情感词典提升了弹幕情感强度计算准确度,弹幕情感强度计算方法能够得到更为准确的情感强度计算结果,直接对应弹幕文本的分析满足用户利用情感倾向和关键词检索热点片段的需求,具有较高的检测准确度。

    基于内容和用户标识的弹幕过滤方法、装置及存储介质

    公开(公告)号:CN112507164B

    公开(公告)日:2022-04-12

    申请号:CN202011417368.X

    申请日:2020-12-07

    Abstract: 本发明公开了一种基于内容和用户标识的弹幕过滤方法及装置,所述方法包括:对python爬虫软件爬取到的弹幕视频网站弹幕数据和用户数据进行预处理;引入词嵌入、词相似度、词与主题概率度、标签主题概率度共同作用下的短文本表示方法对弹幕短文本进行扩展;构造用户平台类特征;拼接扩展后的文本特征和平台类特征输入分类模型,输出弹幕分类结果。本发明结合外部语料库扩展和短文本自身内容特征扩展的优点,同时将词向量引入特征扩展,最大程度实现原文本语义扩展,在弹幕特征空间中加入用户平台类特征,丰富弹幕特征空间,提高弹幕识别率。

    基于弹幕情感的视频热点片段检测方法、装置及存储介质

    公开(公告)号:CN112699831B

    公开(公告)日:2022-04-01

    申请号:CN202110019644.5

    申请日:2021-01-07

    Abstract: 本发明公开了基于弹幕情感的视频热点片段检测方法、装置及存储介质,包括对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,构造弹幕情感词典,对视频片段中的弹幕进行情感强度计算和整体情感倾向进行判定;计算相邻视频片段的情感强度变化率;使用LDA主题模型进行主题提取,计算相邻视频片段的主题相似度;构造热点视频片段检测模型;将需要检测的弹幕视频输入到模型中,得到热点视频片段。本发明构建的弹幕情感词典提升了弹幕情感强度计算准确度,弹幕情感强度计算方法能够得到更为准确的情感强度计算结果,直接对应弹幕文本的分析满足用户利用情感倾向和关键词检索热点片段的需求,具有较高的检测准确度。

Patent Agency Ranking