优化文本分类模型输出层激活函数的方法、设备和系统

    公开(公告)号:CN115630689A

    公开(公告)日:2023-01-20

    申请号:CN202211647340.4

    申请日:2022-12-21

    Applicant: 苏州大学

    Inventor: 曹自强 耿磊 吕奇

    Abstract: 本发明涉及神经网络技术领域,公开一种优化文本分类模型输出层激活函数的方法、设备和系统,方法包括获取训练集和测试集并进行数据预处理,建立包括编码器和输出层的神经网络模型;设定训练时满足非目标类别的概率比目标类别的概率低的差距阈值,通过引入差距阈值优化模型输出的类别概率达到训练目标和测试目标一致的目的;训练神经网络模型,将测试集输入训练完成的神经网络模型得到预测结果;设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序;系统包括数据处理模块、建模模块、训练模块和预测模块。本发明可以避免模型过拟合、使训练阶段与测试阶段的目标一致、加速训练过程、提升预测性能。

    优化公文写作场景下中文文本纠错的方法、系统及处理器

    公开(公告)号:CN116384377A

    公开(公告)日:2023-07-04

    申请号:CN202310548185.9

    申请日:2023-05-16

    Applicant: 苏州大学

    Abstract: 本发明涉及一种优化公文写作场景下中文文本纠错的方法、系统及处理器,包括以下步骤:搜集获得原始数据集;对原始数据集中的句子进行分词操作,获得高频词表;对高频词表进行扩展;对原始数据集中的多个句子进行造错,依据错误‑正确句子对和高频词表对BERT编码器进行预训练;从网络上收集公文写作词组,构成公文写作词表;爬取公文网站上多个正确的句子,构建公文写作数据集;对公文写作数据集中的正确的句子进行造错,依据错误‑正确句子对和高频词表再次对BERT编码器进行训练;使用优化后的BERT编码器对待处理的中文文本进行预测,获得纠错后的文本输出。其能够对公文写作场景中出现的错别字进行学习和纠正,并能够解决多字和少字错误的问题。

    一种基于检索和多阶段的中文文本校对方法、系统及设备

    公开(公告)号:CN115630635B

    公开(公告)日:2023-04-25

    申请号:CN202211639239.4

    申请日:2022-12-20

    Applicant: 苏州大学

    Abstract: 本发明实施例提供了一种基于检索和多阶段的中文文本校对方法、系统及设备,该方法包括输入纠错文本,在数据库中寻找与纠错文本最相似的文本,并将最相似文本和所述纠错文本进行拼接,得到拼接文本;对所述拼接文本进行拼写纠正;对拼写纠正后的文本进行基于序列到编辑的语法纠正得到修改结果一;将所述修改结果一和纠错文本基于序列到序列的语法纠正通过设置阈值范围得到的修改结果二进行困惑度比较;将困惑度低的修改结果作为最后的修改结果。本发明能有效提升系统的鲁棒性,在改善多种类型文本错误的同时提升检测错误和纠正错误的准确率。

    一种基于检索和多阶段的中文文本校对方法、系统及设备

    公开(公告)号:CN115630635A

    公开(公告)日:2023-01-20

    申请号:CN202211639239.4

    申请日:2022-12-20

    Applicant: 苏州大学

    Abstract: 本发明实施例提供了一种基于检索和多阶段的中文文本校对方法、系统及设备,该方法包括输入纠错文本,在数据库中寻找与纠错文本最相似的文本,并将最相似文本和所述纠错文本进行拼接,得到拼接文本;对所述拼接文本进行拼写纠正;对拼写纠正后的文本进行基于序列到编辑的语法纠正得到修改结果一;将所述修改结果一和纠错文本基于序列到序列的语法纠正通过设置阈值范围得到的修改结果二进行困惑度比较;将困惑度低的修改结果作为最后的修改结果。本发明能有效提升系统的鲁棒性,在改善多种类型文本错误的同时提升检测错误和纠正错误的准确率。

Patent Agency Ranking