一种对文本序列进行分词的方法、装置和电子设备

    公开(公告)号:CN108038103A

    公开(公告)日:2018-05-15

    申请号:CN201711364208.1

    申请日:2017-12-18

    Abstract: 本发明公开了一种文本的分词方法、装置和电子设备,所述方法包括:确定与所述文本序列对应的概率矩阵,所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值,所述标注字符用于对所述文本序列进行分词;确定与所述概率矩阵对应的转移矩阵,所述转移矩阵记录了所述每个标注字符之间的转移概率;根据所述概率矩阵和转移矩阵,对所述文本序列进行分词。本发明可以避免在中文分词过程中,存在分词特征抽取受限以及领域适应性较差的问题。

    命名实体识别方法及装置

    公开(公告)号:CN107797992A

    公开(公告)日:2018-03-13

    申请号:CN201711102742.5

    申请日:2017-11-10

    CPC classification number: G06F17/278

    Abstract: 本申请实施例提供一种命名实体识别方法及装置,该方法包括:获取输入序列;对所述输入序列中的字符进行向量化处理,得到所述输入序列对应的字符向量序列;使用神经网络算法处理所述字符向量序列,得到所述输入序列的文本特征序列;使用条件随机场处理所述文本特征序列,得到所述输入序列对应的命名实体识别结果。由于字符能够表征更细粒度的特征、且字符数量远小于词语的数量,神经网络算法能够考虑到输入序列中各字符的上下文信息,以及条件随机场能够避免标记偏置问题,因此,本申请技术方案通过将字符向量化、神经网络算法及条件随机场这三者进行结合的方式,来实现命名实体识别,可以达到较好的识别效果。

    一种基于自然语言处理的多语言分析方法和装置

    公开(公告)号:CN108197109A

    公开(公告)日:2018-06-22

    申请号:CN201711488119.8

    申请日:2017-12-29

    Abstract: 一种基于自然语言处理的多语言分析方法和装置,包括:通过语种检测训练模型选择输入自然语句文本信息语言种类;通过训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过TF-IDF方式提取得到关键词;根据关键词和关键词权重计算得到文章向量和每个预设类目的类目向量,计算自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;将自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。本发明解决了传统多语言分析方法需要了解相关语言学的领域知识且需要大量人工操作的问题。

Patent Agency Ranking