-
公开(公告)号:CN112487788A
公开(公告)日:2021-03-12
申请号:CN202011171086.6
申请日:2020-10-28
Applicant: 中国科学院信息工程研究所
IPC: G06F40/216 , G06F40/284
Abstract: 本发明实施例提供一种噪音单词表示方法及装置,该方法包括:将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;根据噪音单词的字符级依赖关系,确定整个单词的表示向量;将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。该方法通过在单词表示中加入了预训练预测得到的首尾单词向量来加强对首尾字符的关注,并且同时捕获了字符级依赖关系,使得单词识别器的识别率更高。
-
公开(公告)号:CN106951437B
公开(公告)日:2019-11-01
申请号:CN201710072161.5
申请日:2017-02-08
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332
Abstract: 本发明提供一种适于多个中文敏感词句的识别处理方法及装置,该方法包括:获取多个预设的敏感词句;根据所述敏感词句建立后缀树;获取待识别中文文本;根据所述后缀树对所述待识别中文文本进行匹配;若匹配成功后,获取所述待识别中文本中的敏感词句并输出显示,该方法针对中文的特点,把模式串在后缀树上的匹配时间由提高到达到节省时间和提高模式串在后缀树上的匹配速度,适用于多个敏感词句的中文模式串匹配。
-
公开(公告)号:CN106951437A
公开(公告)日:2017-07-14
申请号:CN201710072161.5
申请日:2017-02-08
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种适于多个中文敏感词句的识别处理方法及装置,该方法包括:获取多个预设的敏感词句;根据所述敏感词句建立后缀树;获取待识别中文文本;根据所述后缀树对所述待识别中文文本进行匹配;若匹配成功后,获取所述待识别中文本中的敏感词句并输出显示,该方法针对中文的特点,把模式串在后缀树上的匹配时间由提高到达到节省时间和提高模式串在后缀树上的匹配速度,适用于多个敏感词句的中文模式串匹配。
-
-