一种基于极简摘要策略的科技文本问题方法抽取的方法

    公开(公告)号:CN112487134A

    公开(公告)日:2021-03-12

    申请号:CN202011441092.9

    申请日:2020-12-08

    Applicant: 武汉大学

    Abstract: 本发明涉及计算机技术,具体涉及一种基于极简摘要策略的科技文本问题方法抽取的方法,包括获取科技文档数据集;对非结构化文本进行预处理,获取训练语料标签;利用BERT预训练模型对预处理后的文本进行向量化表征;采用Transformer模型搭建seq2seq架构的深度神经网络作为编码器、解码器,生成限定内容与样式的极简摘要;应用词性分析和句法分析算法抽取所生成极简摘要中的问题方法词。该方法包括数据爬取、自然语言处理和深度学习,能够实现大规模的科技文本自动化处理,并从中抽取出具有对应关系的问题词与方法词。

Patent Agency Ranking