-
公开(公告)号:CN112711943A
公开(公告)日:2021-04-27
申请号:CN202011497407.1
申请日:2020-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/279 , G06F40/53 , G06F40/58 , G06F16/33 , G06N7/00
Abstract: 本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。