-
公开(公告)号:CN110909534B
公开(公告)日:2021-08-24
申请号:CN201911085534.8
申请日:2019-11-08
Applicant: 北京华宇信息技术有限公司
Inventor: 沈哲吉
IPC: G06F40/232 , G06F3/023
Abstract: 本发明提供一种深度学习评价模型、输入法拼音纠错方法及装置,使用了基于自动状态转换机的方法,实现输入拼音串和标准音节的高效的levenshtein distance(编辑距离)匹配。然后通过基于深度学习的评价模型,给出当前输入的拼音串和各不同近似标准音节的组合评分。最后通过使用基于动态规划,计算得到最优的组合拼音解析结果。本发明能够实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果,以及解决可能存在的二义性的问题,兼顾国产化信息平台,提高输入法的运行效率。
-
公开(公告)号:CN112528980B
公开(公告)日:2022-02-15
申请号:CN202011484096.5
申请日:2020-12-16
Applicant: 北京华宇信息技术有限公司
IPC: G06V30/26 , G06V30/12 , G06V30/41 , G06F40/216 , G06F40/232 , G06F40/30 , G06N20/00
Abstract: 本申请公开了一种OCR识别结果纠正方法及其终端、系统。其中所述方法,包括:获取OCR识别结果;确定识别结果中的出错结果;纠正出错结果,生成最终的识别结果。通过对出错结果的纠正,可以实现对OCR识别结果的纠正。
-
公开(公告)号:CN110909534A
公开(公告)日:2020-03-24
申请号:CN201911085534.8
申请日:2019-11-08
Applicant: 北京华宇信息技术有限公司
Inventor: 沈哲吉
IPC: G06F40/232 , G06F3/023
Abstract: 本发明提供一种深度学习评价模型、输入法拼音纠错方法及装置,使用了基于自动状态转换机的方法,实现输入拼音串和标准音节的高效的levenshtein distance(编辑距离)匹配。然后通过基于深度学习的评价模型,给出当前输入的拼音串和各不同近似标准音节的组合评分。最后通过使用基于动态规划,计算得到最优的组合拼音解析结果。本发明能够实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果,以及解决可能存在的二义性的问题,兼顾国产化信息平台,提高输入法的运行效率。
-
公开(公告)号:CN113204963B
公开(公告)日:2025-03-28
申请号:CN202110493402.X
申请日:2021-05-07
Applicant: 北京华宇信息技术有限公司
IPC: G06F40/289 , G06F16/31 , G06F3/023
Abstract: 本申请提供一种输入法多元词发现方法及装置,用于解决输入法发现多元词效率低的技术问题。其中,一种输入法多元词发现方法,包括以下步骤:获取语料数据;通过分词模型,对所述语料数据进行分词,生成若干分词单元;以WFP数据结构存储分词单元;通过读取WFP数据结构,比较分词单元与分词单元的关联性,确定分词单元组合;添加所述分词单元组合至词库。相对于现有技术,所述输入法多元词发现方法能实现多元词关系的发现,并且提高了发现多元词的准确率、效率。
-
公开(公告)号:CN113360004A
公开(公告)日:2021-09-07
申请号:CN202110743668.5
申请日:2021-07-01
Applicant: 北京华宇信息技术有限公司
IPC: G06F3/023
Abstract: 本申请公开了一种输入法候选词推荐方法及装置,用以解决输入法推荐候选词准确性低的技术问题。其中,一种输入法候选词推荐方法,根据当前输入位置前的词组、当前字符,计算对应当前字符的若干候选词的出现概率,并以预设推荐策略排列对应当前字符的若干候选词,实现对输入法中候选词的动态调整。从而使得推荐候选词与上下文的关联程度更高,提高了输入的准确性。
-
公开(公告)号:CN113204963A
公开(公告)日:2021-08-03
申请号:CN202110493402.X
申请日:2021-05-07
Applicant: 北京华宇信息技术有限公司
IPC: G06F40/289 , G06F16/31 , G06F3/023
Abstract: 本申请提供一种输入法多元词发现方法及装置,用于解决输入法发现多元词效率低的技术问题。其中,一种输入法多元词发现方法,包括以下步骤:获取语料数据;通过分词模型,对所述语料数据进行分词,生成若干分词单元;以WFP数据结构存储分词单元;通过读取WFP数据结构,比较分词单元与分词单元的关联性,确定分词单元组合;添加所述分词单元组合至词库。相对于现有技术,所述输入法多元词发现方法能实现多元词关系的发现,并且提高了发现多元词的准确率、效率。
-
公开(公告)号:CN113177403A
公开(公告)日:2021-07-27
申请号:CN202110357086.3
申请日:2021-04-01
Applicant: 北京华宇信息技术有限公司
IPC: G06F40/216 , G06F3/023 , G06F40/289
Abstract: 本申请公开了一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。一种输入法词频调整方法,包括以下步骤:获取语料数据;通过分词模型,对所述语料数据进行分词,生成若干分词单元;通过识音模型,对所述分词单元进行注音,生成分词单元音节;将音节相同的分词单元保存至同一音节词库;统计同一音节词库中第一分词单元的出现概率;将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;根据比较结果,调整第一分词单元的词频;根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。通过对同一音节词库中词组的词频进行动态调整,提高了输入的准确性。
-
公开(公告)号:CN113033662A
公开(公告)日:2021-06-25
申请号:CN202110319988.8
申请日:2021-03-25
Applicant: 北京华宇信息技术有限公司
Abstract: 本申请公开了一种多视频关联方法及装置,从而实现了若干长视频关联匹配。其中,多视频关联方法,包括以下步骤:获取至少两个视频文件;根据视频文件视频帧的色彩特征相似度,对视频文件进行分割,至少生成若干视频子文件;以预设的数据结构,分别生成视频子文件的特征索引,以便检索视频子文件的信息;比较各视频子文件的特征索引相似度;确定特征索引相似度超过第二预设阈值的视频子文件,生成关联信息。
-
公开(公告)号:CN112528980A
公开(公告)日:2021-03-19
申请号:CN202011484096.5
申请日:2020-12-16
Applicant: 北京华宇信息技术有限公司
IPC: G06K9/03 , G06F40/216 , G06F40/232 , G06F40/30 , G06K9/00 , G06N20/00
Abstract: 本申请公开了一种OCR识别结果纠正方法及其终端、系统。其中所述方法,包括:获取OCR识别结果;确定识别结果中的出错结果;纠正出错结果,生成最终的识别结果。通过对出错结果的纠正,可以实现对OCR识别结果的纠正。
-
公开(公告)号:CN110852042A
公开(公告)日:2020-02-28
申请号:CN201911113342.3
申请日:2019-12-13
Applicant: 北京华宇信息技术有限公司
IPC: G06F40/151 , G06N3/08
Abstract: 本公开实施例中提供了一种字符类型转换方法和装置,属于计算机应用技术领域,该方法包括:接收待处理的目标字符;将所述目标字符输入字符类型转换模型,确定所述目标字符的初始类型,其中,所述初始类型为手写体和印刷体中的任一种;输出对立类型的所述目标字符,其中,所述对立类型为与所述初始类型相反的类型。通过本公开的方案,提高了字符类型转换的多样性和适应性。
-
-
-
-
-
-
-
-
-