-
公开(公告)号:CN106776555A
公开(公告)日:2017-05-31
申请号:CN201611129133.4
申请日:2016-12-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。
-
公开(公告)号:CN106570179B
公开(公告)日:2019-11-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
公开(公告)号:CN108959242A
公开(公告)日:2018-12-07
申请号:CN201810431801.1
申请日:2018-05-08
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/278 , G06K9/6256
Abstract: 本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。
-
公开(公告)号:CN107301167A
公开(公告)日:2017-10-27
申请号:CN201710378496.X
申请日:2017-05-25
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种功性能描述信息识别方法及装置,该方法步骤包括:1)将测试文本按句子切分,过滤句子中包含的噪音;2)根据功性能描述性句子词典对从步骤1)得到的句子进行关键字匹配,过滤无关句子,得到功性能描述性句子候选集合;3)对上述功性能描述性句子候选集合中的功性能描述性句子进行分词,查询词向量表得到句子的向量表示,再输入神经网络模型进行分类,得到句子的分类标签;4)根据上述句子的分类标签,结合句子位置信息,得到文本识别结果。本发明方法及装置能够实现对未知文本尤其是包含大量噪音的网络文本中功性能描述片段的大规模自动识别,从而解决面向情报挖掘的功性能描述信息识别问题。
-
公开(公告)号:CN106570179A
公开(公告)日:2017-04-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
公开(公告)号:CN108959242B
公开(公告)日:2021-07-27
申请号:CN201810431801.1
申请日:2018-05-08
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06K9/62
Abstract: 本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。
-
公开(公告)号:CN107451433B
公开(公告)日:2020-05-22
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F21/16 , G06F40/211 , G06F40/284 , G06N3/04
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
公开(公告)号:CN107451433A
公开(公告)日:2017-12-08
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
公开(公告)号:CN106569997B
公开(公告)日:2019-12-10
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN106776555B
公开(公告)日:2019-11-15
申请号:CN201611129133.4
申请日:2016-12-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。
-
-
-
-
-
-
-
-
-