一种基于教育知识图谱与文本的混合自动问答方法

    公开(公告)号:CN110147436B

    公开(公告)日:2021-02-26

    申请号:CN201910203301.7

    申请日:2019-03-18

    Applicant: 清华大学

    Inventor: 许斌 刘阳 杨玉基

    Abstract: 本发明属于智慧教育问答技术领域,尤其涉及一种基于教育知识图谱与文本的混合自动问答方法,包括:通过构建基础教育本体、语义标注、信息抽取来构建基础教育知识图谱;根据关键词结合正则表达式,构建问题的通用模板;搭建全文搜索引擎,对海量文本进行预处理;将试题问答对作为训练集合,训练至深度文本匹配模型收敛;对用户问题进行识别得到主语列表,并赋予置信度;进行模板匹配得到谓语列表,并赋予置信度;根据主语和谓语列表查询知识图谱得到答案列表,并赋予置信度;使用词性标注方法得到关键词,进行粗、细粒度匹配得到答案并排序;如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。

    一种基于教育知识图谱与文本的混合自动问答方法

    公开(公告)号:CN110147436A

    公开(公告)日:2019-08-20

    申请号:CN201910203301.7

    申请日:2019-03-18

    Applicant: 清华大学

    Inventor: 许斌 刘阳 杨玉基

    Abstract: 本发明属于智慧教育问答技术领域,尤其涉及一种基于教育知识图谱与文本的混合自动问答方法,包括:通过构建基础教育本体、语义标注、信息抽取来构建基础教育知识图谱;根据关键词结合正则表达式,构建问题的通用模板;搭建全文搜索引擎,对海量文本进行预处理;将试题问答对作为训练集合,训练至深度文本匹配模型收敛;对用户问题进行识别得到主语列表,并赋予置信度;进行模板匹配得到谓语列表,并赋予置信度;根据主语和谓语列表查询知识图谱得到答案列表,并赋予置信度;使用词性标注方法得到关键词,进行粗、细粒度匹配得到答案并排序;如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。

    一种基于定义与关系的术语抽取方法

    公开(公告)号:CN107577670B

    公开(公告)日:2020-09-22

    申请号:CN201710833633.4

    申请日:2017-09-15

    Applicant: 清华大学

    Abstract: 本发明属于文本挖掘领域,尤其涉及一种基于定义与关系的术语抽取方法,该方法以挖掘术语定义与术语关系为主,综合构词规则和边界检测,其首先对文本进行定义抽取,从定义中生成初始的优质术语候补,之后会根据术语关系不断对术语候补进行扩充。本发明提出的上述术语抽取方法有利于提高对低频术语的辨识能力和对于通用性较高术语、长字数术语的抽取能力。

    一种基于定义与关系的术语抽取方法

    公开(公告)号:CN107577670A

    公开(公告)日:2018-01-12

    申请号:CN201710833633.4

    申请日:2017-09-15

    Applicant: 清华大学

    Abstract: 本发明属于文本挖掘领域,尤其涉及一种基于定义与关系的术语抽取方法,该方法以挖掘术语定义与术语关系为主,综合构词规则和边界检测,其首先对文本进行定义抽取,从定义中生成初始的优质术语候补,之后会根据术语关系不断对术语候补进行扩充。本发明提出的上述术语抽取方法有利于提高对低频术语的辨识能力和对于通用性较高术语、长字数术语的抽取能力。

Patent Agency Ranking