-
公开(公告)号:CN119990116A
公开(公告)日:2025-05-13
申请号:CN202411695723.8
申请日:2024-11-25
Applicant: 中移系统集成有限公司 , 中移雄安信息通信科技有限公司 , 中移信息系统集成有限公司 , 西安交通大学 , 中国移动通信集团有限公司 , 中移海算科技(雄安)有限公司
IPC: G06F40/284 , G06F40/289 , G06F40/30 , G06F16/36 , G06N3/0442 , G06N3/08
Abstract: 本申请公开了一种两阶段的新词发现方法、装置、设备及存储介质,属于自然语言处理领域,包括:从语料文本提取包含多个待验证的目标字符段的字符段集,并确定字符段集中,每个目标字符段的邻接熵;根据字符段集中,每个目标字符段的邻接熵,确定语料文本的词语集;将词语集中的词语分别输入新词发现模型,以根据新词发现模型所确定的每个词语的概率特征,从词语集中确定第一目标词语。基于本申请实施例的方法,克服了现有技术中基于规则和统计方法所面临的问题,解决了依赖高质量专家知识和预筛选大量数据的问题,实现了提高新词发现效率和准确性,解决了现有新词发现过程存在的泛用性差和维护成本高的问题。