-
公开(公告)号:CN116955596A
公开(公告)日:2023-10-27
申请号:CN202310780486.4
申请日:2023-06-28
Applicant: 清华大学
Abstract: 本发明提供一种慕课的课程概念抽取方法和装置,首先,充分利用预训练语言模型的知识,学习词表中每一个概念的领域分布特征;而后,利用词表中每一个概念的领域分布特征辅助执行视频字幕文本课程概念的自动化标注,去掉领域无关噪音;之后,基于自动化标注的视频字幕文本,构建用于最小化视频字幕文本BIO标注中概念噪声和概念缺失的慕课课程概念标注模型;最后将慕课课程概念标注模型应用到慕课课程概念抽取任务中,从而高效准确地抽取课程中的高质量概念。