-
公开(公告)号:CN113673241A
公开(公告)日:2021-11-19
申请号:CN202110885791.0
申请日:2021-08-03
IPC: G06F40/289 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于范例学习的文本摘要生成框架及方法,允许在摘要生成的过程中参考一些写作范例,框架包括检索和生成两个阶段,检索阶段,给定一个文本,使用对比学习去数据库中检索一些范例,假定越好的摘要在语义空间应该和原文离得更近,检索器的模型使用了孪生网络的结构;生成阶段,提出了一种结合范例进行摘要生成的方法,可以方便的加在目前所有主流的条件生成模型上,为了更好的学习范例,将待生成的摘要和范例摘要按照句子对齐;通过训练好的模型进行预测,即解码阶段,使用集束搜索算法并鼓励那些和范例更相似的束。
-
公开(公告)号:CN113221551A
公开(公告)日:2021-08-06
申请号:CN202110592818.7
申请日:2021-05-28
Applicant: 复旦大学
Abstract: 本发明提供一种基于序列生成的细粒度情感分析方法,包括:步骤1,将主观性商品评价或服务评价作为输入序列输入编码器进行编码,得到隐变量He;步骤2,采用索引词汇转换器模块将过去时刻的已输出索引序列Y<t转换为已输出文本序列步骤3,将隐变量He以及已输出文本序列输入解码器进行解码,得到当前时刻t的输出分布Pt;步骤4,将输出分布Pt输入索引生成器,生成当前时刻输出索引,并采用束搜索方法自回归生成输出序列。本发明将整体细粒度情感分析任务统一定义为索引序列生成任务。基于统一的任务类型,利用序列到序列的生成式框架,使得各种差异导致的问题在统一的框架内得到解决,为完成整体细粒度情感分析提供了全新的系统性解决方法。
-
公开(公告)号:CN103020148A
公开(公告)日:2013-04-03
申请号:CN201210479801.1
申请日:2012-11-23
Applicant: 复旦大学
Abstract: 本发明属于自然语言处理技术领域,具体为一种将中文短语结构树库转化为依存结构树库的系统和方法,方法具体包括:拆分复杂的树结构;建立更准确的核心映射表;利用规则的方法解决汉语中的复杂结构;建立依赖关系类型标注规范;利用规则的方法确定依赖关系类型。本发明公开的系统包括:拆分器,用于将树库中的长句拆分为短句;核心映射表,用于得到每个词的初始依赖头节点;依赖规则器,用于确定每个词的最终依赖头节点;依赖关系规范器,用于确定词与词之间的最终依赖关系,形成最终的依赖树库。本发明将PennChineseTreeBank中文结构树库转换成依存树库,更具准确性和规范性,更合理。
-
公开(公告)号:CN120012842A
公开(公告)日:2025-05-16
申请号:CN202510043329.4
申请日:2025-01-10
Applicant: 复旦大学
IPC: G06N3/0495 , G06N3/0464 , G06N3/048 , G06F9/50
Abstract: 本发明提供一种可变内存环境下细料度尺寸控制的大型语言模型压缩方法,包括计算激活值感知的权重矩阵的步骤、对其激活值感知的权重矩阵的绝对值矩阵进行迭代分解的步骤、对迭代分解出的多个残差数据块进行重要性评估和排序的步骤、以及根据可用内容容量的变化以及重要性排序动态加载残差数据块以构成不同压缩模型的步骤。通过这样的方法,能够使得压缩模型很好地适应可变内存环境,从而能够在本地设备中部署模型,并且由于优先加载重要性更高的残差数据块,因此压缩模型仍具有与原大型语言模型接近的优秀性能,即使是在极端压缩比的情况下也是如此,因此压缩模型也无需再经过训练,使得模型在本地设备中的部署更为方便和高效。
-
公开(公告)号:CN114091478B
公开(公告)日:2025-04-01
申请号:CN202111444136.8
申请日:2021-11-30
Applicant: 复旦大学
Abstract: 本发明提供一种基于有监督对比学习与回复生成辅助的对话情感识别方法,首先,由于构建的预训练模型CoG‑BART,采用对话级Transformer模块对待测对话进行上下文建模,从而解决了话语之间的长距离依赖问题,同时由于整体模型架构均由Transformer组成,因此引入了更少的结构先验假设;其次,由于采用了有监督对比学习来训练模型,在充分利用标签信息的情况下,不仅能够增加模型训练时的稳定性并增强模型的泛化性,还使得相同情感的样本间内聚,不同情感的样本相互斥,因此改进了相似情感难以区分的问题;最后,由于辅助性回复生成任务能够根据给定的上文信息获取更准确的下文,从而使得模型在判断话语情感时能考虑更加丰富的上下文信息,提升模型识别对话的情感标签的精确性。
-
公开(公告)号:CN117909441A
公开(公告)日:2024-04-19
申请号:CN202211232474.X
申请日:2022-10-10
Applicant: 复旦大学
IPC: G06F16/33 , G06F16/332 , G06F18/213
Abstract: 本发明目的在于提供一种基于标签平滑的多跳回答问题框架,用于缓解模型的过分自信以及答案边界的不确定问题。本发明提供了一种基于标签平滑的多跳回答问题框架,包括:步骤S1,输入问题和候选文章列表粗筛得到3篇待选文章;步骤S2,通过对3篇待选文章两两分组的方式组成3个配对,再一次通过细筛的方式选择最优配对;步骤S3,将选出的最优配对的两篇文章以及问题一起输入模型,通过预训练语言模型回答问题。
-
公开(公告)号:CN115270764A
公开(公告)日:2022-11-01
申请号:CN202110480038.3
申请日:2021-04-30
Applicant: 复旦大学
IPC: G06F40/216 , G06F40/126 , G06F40/242 , G06F40/284
Abstract: 本发明提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,包括以下步骤:步骤1,收集中文语料,根据语料通过迭代算法学习一元语言模型,得到词典和出现概率;步骤2,基于一元语言模型对中文语言模型的输入文本进行子词编码,得到子词元素序列;步骤3,计算子词元素序列中每个子词元素的逆文档频率;步骤4,通过逆文档频率遮蔽预测任务来进行预训练,将逆文档频率最高的子词元素进行遮蔽,中文语言模型通过对被遮蔽的子词元素进行预测来进行预训练;步骤5,将语料输入中文语言模型,经过子词编码和计算逆文档频率后通过逆文档频率遮蔽预测任务进行预训练,在计算训练后得到训练好的中文语言模型。
-
公开(公告)号:CN114091478A
公开(公告)日:2022-02-25
申请号:CN202111444136.8
申请日:2021-11-30
Applicant: 复旦大学
Abstract: 本发明提供一种基于有监督对比学习与回复生成辅助的对话情感识别方法,首先,由于构建的预训练模型CoG‑BART,采用对话级Transformer模块对待测对话进行上下文建模,从而解决了话语之间的长距离依赖问题,同时由于整体模型架构均由Transformer组成,因此引入了更少的结构先验假设;其次,由于采用了有监督对比学习来训练模型,在充分利用标签信息的情况下,不仅能够增加模型训练时的稳定性并增强模型的泛化性,还使得相同情感的样本间内聚,不同情感的样本相互斥,因此改进了相似情感难以区分的问题;最后,由于辅助性回复生成任务能够根据给定的上文信息获取更准确的下文,从而使得模型在判断话语情感时能考虑更加丰富的上下文信息,提升模型识别对话的情感标签的精确性。
-
公开(公告)号:CN102710670A
公开(公告)日:2012-10-03
申请号:CN201210227248.2
申请日:2012-07-03
Applicant: 复旦大学
Abstract: 本发明属于计算机应用技术领域,具体为一种面向广电运营商的业务接入与管理系统。本发明系统包括:NGB-业务接入与管理模块,以及外围的客户管理模块、产品管理模块、服务管理模块、业务平台和外部系统;其中NGB-业务接入与管理模块是系统的核心,NGB-业务接入与管理模块包含NGB业务的统一展示、统一受理、统一授权功能子模块,并根据业务接入与管理需要与相关外围系统进行互联;本发明以新一代广播电视网(NGB)整体规划为指导,明确定义了业务接入与管理系统中的功能架构和系统边界,可以用以指导NGB业务管理系统的建设。
-
公开(公告)号:CN101876968A
公开(公告)日:2010-11-03
申请号:CN201010167065.7
申请日:2010-05-06
Applicant: 复旦大学
Abstract: 本发明属于文字处理技术领域,具体为对网络文本与手机短信进行不良内容识别的方法。该方法包括如下步骤:输入待检测文本,确定文本编码格式,对文本进行格式转换,将文本与短字符串词汇库进行比较,将文本与长字符串词汇库进行比较,对结果进行拷贝检测,显示最终结果。本方法可用于互联网不健康,暴力,反动文字的检测与过滤。阻止不健康内容的蔓延,保护青少年的身心健康。
-
-
-
-
-
-
-
-
-