一种创新的跨领域自适应提示学习方法

    公开(公告)号:CN118503821A

    公开(公告)日:2024-08-16

    申请号:CN202410568417.1

    申请日:2024-05-09

    Applicant: 扬州大学

    Abstract: 本发明公开了一种创新的跨领域自适应提示学习方法,包括1)在带有标记的源域数据上进行预训练,使用掩码语言模型来学习源域数据的语言特征,将该模型应用于目标域;2)利用微调后的模型在源域进行同义词检索,并在目标域结合FastText相似、概率预测和上下文信息策略对标签词进行扩展;通过取源域和目标域扩展的标签词之间的交集来构建最终的标签词;3)将目标域数据嵌入到提示模板中,使得提示学习模型能够预测扩展后的标签词集中每个单词的概率;将每个单词的预测概率映射到具体的类别标签上,并对预测的概率取平均值,作为最终分类预测目标域数据的依据。本发明实现了对目标域数据的准确分类预测,提高了模型在跨领域分类任务中的性能。

    一种基于有向图的文章摘要信息提取算法

    公开(公告)号:CN111651588B

    公开(公告)日:2024-03-05

    申请号:CN202010522574.0

    申请日:2020-06-10

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于有向图的文章摘要信息提取算法,包括以下步骤:1输入需要提取出主要信息的文章,去除无效标记,对文章的每个句子做分词处理,并去除句子中的停用词;2分别计算文章的每个词汇的词频与逆文本频率指数,并计算每个词汇的词频逆文本频率值,然后对所有词汇的词频逆文本频率值进行过滤;3将文章所有句子视为图的节点构建无向图,计算文章中任意两个句子的相似程度,构建邻接矩阵对其进行降噪操作,计算文章集合中每一个句子的邻接度;4进行迭代计算得出每一个句子的中心度;5根据使用者需求,选择最高中心度的一个或一组句子作为文章的摘要;本发明使得提取出的文章摘要准确性更高,大大提高了使用者的阅读效率。

    一种无监督的英文句子自动简化算法

    公开(公告)号:CN110096705B

    公开(公告)日:2023-09-08

    申请号:CN201910354246.1

    申请日:2019-04-29

    Applicant: 扬州大学

    Abstract: 本发明公开了互联网领域内的一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、训练词的向量表示;步骤2、获取词的频率;步骤3、分别获取简化句子集合和复杂句子集合;步骤4、填充短语表;步骤5、分别训练简化句子语言模型和复杂句子语言模型;步骤6、构建基于短语的句子简化模型;步骤7、迭代执行回译的策略,训练更优的句子简化模型,本发明在没有利用任何标注的并行语料,充分利用英文维基百科语料,有效提高了英文句子简化的准确性。

    基于二维多集偏最小二乘的人脸图像超分辨率重建方法

    公开(公告)号:CN111292237B

    公开(公告)日:2023-08-08

    申请号:CN202010069628.2

    申请日:2020-01-21

    Applicant: 扬州大学

    Abstract: 本发明公开了基于二维多集偏最小二乘的人脸图像超分辨率重建方法,包括以下步骤,1人脸图像首先被分为多个重叠的图像块,再利用二维多集偏最小二乘方法提取二维人脸图像块的潜在特征;2利用邻域重建策略以及图像块合并对输入的低分辨率人脸图像进行高频人脸图像重建;3最终输出的超分辨率重建图像为重建出的高频图像加上输入的低分辨率人脸图像。本发明具有一定的理论基础,创新性地提出了二维多集偏最小二乘方法,在不同数据库下测试结果表明具有较强的鲁棒性,有一定的市场实施的可行性,解决了目前绝大多数现有算法无法处理的多视图超分辨率问题,具有较大的创新性与实用性。

    一种短文本流的动态主题发现方法

    公开(公告)号:CN110096704B

    公开(公告)日:2023-05-05

    申请号:CN201910354228.3

    申请日:2019-04-29

    Applicant: 扬州大学

    Abstract: 本发明公开了主题模型领域内的一种短文本流的动态主题发现算法,按如下步骤进行:步骤1、初始化第1时间点下文档集合的每篇文档的主题;步骤2、迭代学习第1时间点文档集合的每篇文档的主题;步骤3、获取第1时间点的主题分布和主题中词的分布;步骤4、初始化第t时间点(t>1)文档集合的每篇文档的主题;步骤5、迭代学习第t时间点文档集合的每篇文档的主题;步骤6、获取第t时间点的主题分布和主题中词的分布;步骤7、删除t‑1时间点的主题;步骤8、对后续时间点下的文档集合,依次采用步骤4、5、6和7进行学习,本发明能够充分考虑短文本的稀疏性,结合上一时间下的文档的主题分布进行学习,从而能够更有效的发现短文本流中的隐含主题。

    一种基于串行自编码机的推荐算法

    公开(公告)号:CN115630681A

    公开(公告)日:2023-01-20

    申请号:CN202211260963.6

    申请日:2022-10-14

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于串行自编码机的推荐算法,包括1)将基于物品的评分信息和用户和物品交互的辅助信息合并到自编码机中用于重构输出,通过传统自编码机学习获得重构输出的特征表示,利用辅助信息帮助原始评分矩阵进行重构,减少有效信息的丢失;2)设计自编码机与自编码机的串行连接方法,通过获取第一个自编码机生成的重构输出,并将输出中对于原始评分矩阵的重构部分输入到第二个自编码机中,将第二个自编码机的输出即预测评分矩阵,与原始的评分矩阵进行对比,计算预测精度。本发明能够利用物品的属性信息,通过自编码机处理,将属性信息作为推荐的拓展特征,达到为用户进行更准确推荐的目的。

    一种基于提示学习的中文短文本分类方法

    公开(公告)号:CN115169340A

    公开(公告)日:2022-10-11

    申请号:CN202210670231.8

    申请日:2022-06-14

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于提示学习的中文短文本分类方法,包括:1)使用非自然语言化的模板,利用少量的参数在连续空间中自动搜索模板,减少人工设计模板的成本以及误差;2)类别预测,将加入模板后的新的输入数据送到选定的预训练语言模型中,利用bert预训练语言模型对输入数据进行类别的预测;3)所有的标签词概率计算好以后,再将每个标签词上预测好的概率映射到回真实的标签中,最后得出分类的结果。本发明提升了中文短文本数据集分类的准确性,仅需要很少的训练样本就能实现良好的分类,大大减少了模型对大规模数据的依赖,降低了训练模型的成本,具有较高的鲁棒性和实用性。

    一种基于分数阶谱的判别多重集典型相关分析方法

    公开(公告)号:CN112966734A

    公开(公告)日:2021-06-15

    申请号:CN202110235175.0

    申请日:2021-03-03

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于分数阶谱的判别多重集典型相关分析方法,包括1)定义每组训练样本的投影方向;2)计算训练样本的互协方差矩阵和类内散布矩阵;3)互协方差矩阵做奇异值分解,类内散布矩阵做特征值分解;4)构建分数阶互协方差矩阵和分数阶类内散布矩阵;5)构建FLMCCA的最优化模型;6)求解特征向量问题;7)利用特征向量形成每组数据的投影矩阵;8)采用串行特征融合策略对投影后的特征进行融合,并选取不同数量的图像做训练和测试,计算识别率。本发明通过引入分数阶参数构建了分数阶类内散布矩阵和分数阶互协方差矩阵,减小因噪声干扰和有限训练样本带来的真实值偏离,从而增强了所抽低维特征的判别力,提高了系统识别的准确率。

    一种基于BERT的汉语句子简化方法

    公开(公告)号:CN112214989A

    公开(公告)日:2021-01-12

    申请号:CN202011116726.3

    申请日:2020-10-19

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于BERT的汉语句子简化方法,包括以下步骤:步骤1)获取汉语常用词词频表,预训练汉语嵌入模型,义元数据库并获取词语集合,词频,词向量表示与义元表示;步骤2)假设需要简化的句子为s,利用分词工具对s进行分词和词性标注;步骤3)根据词性对内容词进行筛选;步骤4)对句子中的内容词,利用BERT中文模型,获取该词的候选替代词语集合并过滤噪声词;步骤5)利用多个特征,对每个复杂词的候选替代词语集合进行排序;步骤6)确定最终的替代词。本发明没有利用任何标注的平行语料,充分利用预训练语言模型,填补了中文文本简化领域的空白并取得了良好的效果。

    一种基于广义协方差的主成分分析方法

    公开(公告)号:CN111612092A

    公开(公告)日:2020-09-01

    申请号:CN202010473070.4

    申请日:2020-05-29

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于广义协方差的主成分分析方法,包括以下步骤:给定高维输入数据,利用非线性映射函数将原始样本的特征向量映射到新的空间,然后在此基础上,计算广义协方差;利用特征值分解求解投影方向。本发明可以学习不同特征之间的非线性关系,突破传统样本间的关系学习的限制,能够改善模式分类特别是在小样本问题下的分类性能表现。

Patent Agency Ranking