一种基于编码和机器学习的多语种识别方法

    公开(公告)号:CN106528535B

    公开(公告)日:2019-04-26

    申请号:CN201611001398.6

    申请日:2016-11-14

    Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。

    一种基于编码和机器学习的多语种识别方法

    公开(公告)号:CN106528535A

    公开(公告)日:2017-03-22

    申请号:CN201611001398.6

    申请日:2016-11-14

    CPC classification number: G06F17/275

    Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等99种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。

    一种应用于海量数据存储系统元数据测试的测试系统及方法

    公开(公告)号:CN104850584B

    公开(公告)日:2018-10-30

    申请号:CN201510184530.0

    申请日:2015-04-17

    Inventor: 张坤 周游

    Abstract: 本发明公开了一种应用于海量数据存储系统元数据测试的测试工具及方法,测试工具包括目录创建/删除模块、文件创建/删除模块、目录和文件读取模块、目录和文件更新模块、文件截取模块、多文件合并模块,模拟模块。本发明的工具,包括对目录和文件的创建和删除性能测试、稳定性测试、文件截断和合并测试,一个工具即可完成对上述测试项的测试,并且使用简单,只需输入较少的命令即可,自动收集测试结果,形成文件。

Patent Agency Ranking