弹幕颜文字检测与提取方法、系统、终端及介质

    公开(公告)号:CN114912437B

    公开(公告)日:2024-07-19

    申请号:CN202210507760.6

    申请日:2022-04-29

    Abstract: 本发明提供了一种弹幕颜文字检测与提取方法及系统,其中方法包括:确定基准颜文字的自身特征以及其在弹幕文本数据集中的统计特性;提取颜文字候选字符串集;计算候选字符串的双向条件概率、左右信息熵、点间互信息、平均互信息以及通过设定的规则对候选字符串进行筛选与过滤,得到最终候选字符串;计算最终候选字符串与基准颜文字的相似度,综合最相似度结果,计算最终综合相似度分数;根据最终综合相似度分数,输出最终的弹幕颜文字结果,完成对弹幕颜文字的检测与提取。本发明能够高效地从大规模弹幕文本中检测并提取颜文字,广泛应用于输入法颜文字字典自动扩展、文本情感分析、中文分词等任务中,提高上述任务的效率与精度。

    弹幕颜文字检测与提取方法、系统、终端及介质

    公开(公告)号:CN114912437A

    公开(公告)日:2022-08-16

    申请号:CN202210507760.6

    申请日:2022-04-29

    Abstract: 本发明提供了一种弹幕颜文字检测与提取方法及系统,其中方法包括:确定基准颜文字的自身特征以及其在弹幕文本数据集中的统计特性;提取颜文字候选字符串集;计算候选字符串的双向条件概率、左右信息熵、点间互信息、平均互信息以及通过设定的规则对候选字符串进行筛选与过滤,得到最终候选字符串;计算最终候选字符串与基准颜文字的相似度,综合最相似度结果,计算最终综合相似度分数;根据最终综合相似度分数,输出最终的弹幕颜文字结果,完成对弹幕颜文字的检测与提取。本发明能够高效地从大规模弹幕文本中检测并提取颜文字,广泛应用于输入法颜文字字典自动扩展、文本情感分析、中文分词等任务中,提高上述任务的效率与精度。

Patent Agency Ranking