一种基于集成学习和词句综合信息的文本蕴涵识别方法

    公开(公告)号:CN107133212B

    公开(公告)日:2020-06-26

    申请号:CN201710311135.3

    申请日:2017-05-05

    Applicant: 北京大学

    Inventor: 魏薇 万小军

    Abstract: 本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法,涉及语言文字处理领域。目前的中文文本蕴涵识别系统主要基于词汇特征、句法特征、知识库、人工定义的规则等,然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低,规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器,并利用集成学习技术,有效提高文本蕴涵识别的准确性。其包括如下步骤:数据预处理;一致性转化;特征提取;集成学习训练;投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

    一种基于集成学习和词句综合信息的文本蕴涵识别方法

    公开(公告)号:CN107133212A

    公开(公告)日:2017-09-05

    申请号:CN201710311135.3

    申请日:2017-05-05

    Applicant: 北京大学

    Inventor: 魏薇 万小军

    Abstract: 本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法,涉及语言文字处理领域。目前的中文文本蕴涵识别系统主要基于词汇特征、句法特征、知识库、人工定义的规则等,然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低,规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器,并利用集成学习技术,有效提高文本蕴涵识别的准确性。其包括如下步骤:数据预处理;一致性转化;特征提取;集成学习训练;投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

Patent Agency Ranking