-
公开(公告)号:CN112989802A
公开(公告)日:2021-06-18
申请号:CN202110115490.X
申请日:2021-01-28
Applicant: 北京信息科技大学
IPC: G06F40/216 , G06F40/289 , G06F16/35 , G06K9/62 , G06K9/32
Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。
-
公开(公告)号:CN112989802B
公开(公告)日:2023-06-20
申请号:CN202110115490.X
申请日:2021-01-28
Applicant: 北京信息科技大学
IPC: G06F40/216 , G06F40/289 , G06F16/35 , G06V20/62 , G06V30/19
Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。
-
公开(公告)号:CN114913530B
公开(公告)日:2025-02-11
申请号:CN202210440263.9
申请日:2022-04-25
Applicant: 北京信息科技大学
IPC: G06V30/148 , G06N3/0464 , G06F16/951 , G06F16/35 , G06V10/774 , G06V10/82 , G06N3/0442 , G06N3/045
Abstract: 本发明公开了一种审计凭证数字化方法及系统,包括:构建审计文档的图像资源库;利用OCA多阶段光学字符识别模型对图像资源库中图像进行文字识别,得到数字化的审计文档;利用ACPmarked架构对数字化的审计文档进行文本分类,去除审计无关的文字内容。本发明可以有效实现审计凭证的数字化,减轻审计专业人员的劳动强度,对提高审计效率和质量具有重要意义。
-
公开(公告)号:CN114913530A
公开(公告)日:2022-08-16
申请号:CN202210440263.9
申请日:2022-04-25
Applicant: 北京信息科技大学
IPC: G06V30/148 , G06N3/04 , G06K9/62 , G06F16/951 , G06F16/35 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种审计凭证数字化方法及系统,包括:构建审计文档的图像资源库;利用OCA多阶段光学字符识别模型对图像资源库中图像进行文字识别,得到数字化的审计文档;利用ACPmarked架构对数字化的审计文档进行文本分类,去除审计无关的文字内容。本发明可以有效实现审计凭证的数字化,减轻审计专业人员的劳动强度,对提高审计效率和质量具有重要意义。
-
-
-