-
公开(公告)号:CN112307773A
公开(公告)日:2021-02-02
申请号:CN202011387634.9
申请日:2020-12-02
Applicant: 上海交通大学
Abstract: 一种机器阅读理解系统的自定义问题数据自动生成方法,包括:数据集预处理模块、答案挖掘模块和问题生成模块,数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器‑解码器架构的神经网络得到生成的问题问句和答案。本发明在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上,实现机器阅读理解系统的可控类型和难度的问题数据自动生成。
-
公开(公告)号:CN112307773B
公开(公告)日:2022-06-21
申请号:CN202011387634.9
申请日:2020-12-02
Applicant: 上海交通大学
Abstract: 一种机器阅读理解系统的自定义问题数据自动生成方法,包括:数据集预处理模块、答案挖掘模块和问题生成模块,数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器‑解码器架构的神经网络得到生成的问题问句和答案。本发明在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上,实现机器阅读理解系统的可控类型和难度的问题数据自动生成。
-