-
公开(公告)号:CN114912437B
公开(公告)日:2024-07-19
申请号:CN202210507760.6
申请日:2022-04-29
Applicant: 上海交通大学
IPC: G06F40/216 , G06F40/237 , G06F16/903 , G06F16/9035 , G06F18/22
Abstract: 本发明提供了一种弹幕颜文字检测与提取方法及系统,其中方法包括:确定基准颜文字的自身特征以及其在弹幕文本数据集中的统计特性;提取颜文字候选字符串集;计算候选字符串的双向条件概率、左右信息熵、点间互信息、平均互信息以及通过设定的规则对候选字符串进行筛选与过滤,得到最终候选字符串;计算最终候选字符串与基准颜文字的相似度,综合最相似度结果,计算最终综合相似度分数;根据最终综合相似度分数,输出最终的弹幕颜文字结果,完成对弹幕颜文字的检测与提取。本发明能够高效地从大规模弹幕文本中检测并提取颜文字,广泛应用于输入法颜文字字典自动扩展、文本情感分析、中文分词等任务中,提高上述任务的效率与精度。
-
公开(公告)号:CN114912437A
公开(公告)日:2022-08-16
申请号:CN202210507760.6
申请日:2022-04-29
Applicant: 上海交通大学
IPC: G06F40/216 , G06F40/237 , G06F16/903 , G06F16/9035 , G06K9/62
Abstract: 本发明提供了一种弹幕颜文字检测与提取方法及系统,其中方法包括:确定基准颜文字的自身特征以及其在弹幕文本数据集中的统计特性;提取颜文字候选字符串集;计算候选字符串的双向条件概率、左右信息熵、点间互信息、平均互信息以及通过设定的规则对候选字符串进行筛选与过滤,得到最终候选字符串;计算最终候选字符串与基准颜文字的相似度,综合最相似度结果,计算最终综合相似度分数;根据最终综合相似度分数,输出最终的弹幕颜文字结果,完成对弹幕颜文字的检测与提取。本发明能够高效地从大规模弹幕文本中检测并提取颜文字,广泛应用于输入法颜文字字典自动扩展、文本情感分析、中文分词等任务中,提高上述任务的效率与精度。
-