-
公开(公告)号:CN117407759A
公开(公告)日:2024-01-16
申请号:CN202311015672.5
申请日:2023-08-14
Applicant: 成都信息工程大学
IPC: G06F18/241 , G06F18/214 , G06F18/25 , G06N3/094
Abstract: 本发明公开了一种融合局部和全局上下文的方面情感分类方法,其采用了基于改进BERT/RoBERTa模型的方面情感分类模型,可以有效地提取被预训练模型遗漏的局部语义信息。此外,为了提升模型的鲁棒性和泛化能力,本方案引入对抗训练和将Focal Loss(焦点损失)作为损失函数。而且,为了更好地发挥预训练模型本身的能力,本发明还为数据添加了Hard Prompt(硬提示)。在多个标准数据集上的实验表明,此模型的分类性能与其它深度学习分类算法相比有明显的提升。
-
公开(公告)号:CN111046171B
公开(公告)日:2022-08-16
申请号:CN201910809268.2
申请日:2019-08-29
Applicant: 成都信息工程大学
IPC: G06F16/35
Abstract: 本发明涉及一种基于细粒度标注数据的情感判别方法,方法包括:采集财经新闻数据,将新闻数据划分为标注样例集和未标注样例集,通过标注样例集和未标注样例集对第一分类器和第二分类器进行训练,使第一分类器能够筛选出文章中的关键句,第二分类器判别文章的情感倾向,分别得到第一分类器的模型参数和第二分类器的模型参数,将分类结果中置信度高的数据加入到标注样例集中,并利用主动学习理论,从未标注样例集中选出最值得标注的数据C发给人工进行标注,以此循环训练情感判别模型,直到达到分类精度,训练结束,得到判别模型。
-
公开(公告)号:CN112966103A
公开(公告)日:2021-06-15
申请号:CN202110190612.1
申请日:2021-02-05
Applicant: 成都信息工程大学
IPC: G06F16/35 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于多任务学习的混合注意力策略文本标题匹配方法,模型的多任务学习体现在模型同时对输入文本进行文本原有类别的分类任务1和是否为“标题党”文章的分类任务2,通过多任务学习模型对模型进行联合训练,由其中一个任务辅助另一个任务学习到更好的参数。本方案用分类任务1的反向传播来调整模型参数,使分类任务2获得更好的表现,本发明从正文中提取重点信息与标题进行匹配从而实现“标题党”文章的检测,明显提高了标题党的检测精度和准确性。本发明方法提出的注意力机制可以一步到位的计算出每个元素与其他元素的关联度,计算量小,效率高。
-
公开(公告)号:CN117574961A
公开(公告)日:2024-02-20
申请号:CN202410051188.6
申请日:2024-01-15
Applicant: 成都信息工程大学
IPC: G06N3/0455 , G06N3/084 , G06F16/35 , G06N3/048
Abstract: 本发明涉及一种将适配器注入预训练模型的参数高效化方法和装置,通过将一个可以用于适配各种下游任务的适配器模块注入预训练模型,所述适配器模块设置在靠近输出端,由于在训练过程中,除适配器层外的所有参数会被冻结,而适配器模块的参数靠近输出端,这样使得反向传播的距离大大减小,不仅使得计算梯度的时间大大减小,而且用于存储梯度信息所消耗的显存也会大大减小。从而使得本发明方法能够以极低的成本去适配下游任务,解决以往参数高效化方法虽然可以极大地减少参数,但其训练的时间和硬件成本并没有大幅度减小的问题。
-
公开(公告)号:CN114428854A
公开(公告)日:2022-05-03
申请号:CN202111558980.3
申请日:2021-12-20
Applicant: 成都信息工程大学
IPC: G06F16/35 , G06F16/335 , G06F40/216 , G06F40/284 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于长度归一化和主动学习的变长文本分类方法,本发明在现有情感或特征分类模型的基础上增加了长度归一化的步骤,使用TF‑IDF方法筛选具有较大信息量的关键词,实现了变长文本的标准化,解决了现有技术直接对长文本进行截取导致损失原始文本信息的问题,提高了分类模型的精度。另一方面在模型细调过程中使用主动学习的方法补充容易错分的训练数据,提高分类模型精度,用较少的训练轮次提高模型准确度,在训练数据集较小的应用场景中具有较好效果,该方法能够有效地避免模型出现过拟合,提高了模型的泛化性能和分类精度。
-
公开(公告)号:CN112580351A
公开(公告)日:2021-03-30
申请号:CN202011631513.4
申请日:2020-12-31
Applicant: 成都信息工程大学
IPC: G06F40/289 , G06F40/284 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于自信息损失补偿的机器生成文本检测方法,包括首先确定细分领域并对爬取到的数据进行清洗,再对数据集中的文本数据进行分词并处理为固定长度,通过词嵌入工具得到文本数据的初始词向量表示矩阵,基于矩阵进行编码获得文本双向信息,然后拼接双向信息,编码逻辑特征并捕获最大特征,对捕获的特征进行自信息损失补偿输入全连接层,本发明方法学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息,提高文本分类的准确性。对学习过程中损失的有价值信息利用文本自身信息进行补偿,补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量。
-
公开(公告)号:CN111581478A
公开(公告)日:2020-08-25
申请号:CN202010378695.2
申请日:2020-05-07
Applicant: 成都信息工程大学 , 成都点石瑞达科技有限公司
IPC: G06F16/951
Abstract: 本发明涉及一种特定主体的跨网站通用新闻采集方法,包括:步骤1:引入疏密度判断的方法,对采集到的新闻页面使用行块分布函数进行预处理;步骤2:根据行块分布函数中显示的文本的分布情况,通过预先设定的阈值,确定可能包含正文的区域;步骤3:将预处理过的页面源码重构为DOM树;步骤4:对其使用readability算法进行加减权操作,根据设定的分数要求,判断正文内容或无用元素;步骤5:对处理后的内容,根据分数进行重新拼接,重组后生成正文内容。本发明将行块分布函数与Readability算法相结合,进行参数调优后,可快速准确提取网页的新闻数据,采用分布式部署及反爬、去重模块,系统整体具有效率高,鲁棒性好等特点。
-
公开(公告)号:CN108898225B
公开(公告)日:2020-07-17
申请号:CN201810416774.0
申请日:2018-05-04
Applicant: 成都信息工程大学 , 成都智睿通拓科技有限公司
Abstract: 本发明涉及一种基于人机协同学习的数据标注方法,其包括:1、由领域专家制定分类标准和标注规范,并给出样例作为金标数据;2、以金标数据作为聚类的中心点对数据进行聚类处理,选出银标数据来训练标注人员,利用金标数据对标注人员进行测试,测试通过即可进行下一步的标注;3、利用金标数据和银标数据作为训练集对未分类的数据进行分类,得到的置信度高的数据可直接采用,并将其加入训练数据集重新训练分类器;4、从待标注数据集中选取出最值得标注的数据,分发给标注人员进行标注,将得到的标注结果加入训练集重新训练分类器;迭代步骤3和4,直至分类器的精度达到预设的阈值。本发明能够有效降低人工标注的成本,同时保证标注的高质量。
-
公开(公告)号:CN111368088A
公开(公告)日:2020-07-03
申请号:CN202010245891.2
申请日:2020-03-31
Applicant: 成都信息工程大学
IPC: G06F16/35 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的文本情感分类方法,基于标注数据集或自行采集的数据集,通过GloVe将数据集的文本转换为词向量表示,并构造词向量字典,从词向量字典中查找对应词的词向量并输入构建好的混合神经网络模型中,通过一维卷积来提取文本的n-gram特征,通过一维卷积得到的特征图可以保持与输入文本相同的维度,将语义信息的损失降到最小;然后采用双向LSTM进行特征提取,获取从前到后与从后往前的时序信息,将将一维卷积提取出的N-grams特征按时间顺序整合,本发明技术方案能够更好的挖掘特征之间的时序关系以及全局语义信息,提高文本情感分类的准确性。
-
公开(公告)号:CN110674882A
公开(公告)日:2020-01-10
申请号:CN201910931124.4
申请日:2019-09-27
Applicant: 成都信息工程大学
Abstract: 本发明公开了一种基于傅立叶函数变换的异常点检测方法,该方法具体包括以下步骤:第一步,将原始数据集进行聚类操作;第二步,计算簇密度和均值密度,以原数据集的均值密度作为阈值,将数据集进行精简;第三步,对剩余数据集进行傅立叶变换,利用回归方程将离散值连续化。第四步,进行傅立叶变换后的数据与标准正余弦函数进行相似度对比,找出异常数据。本发明的有益效果是:本发明可以有效的提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,从而节省了很多计算资源,并且提高了异常检测效率。本发明在聚类和数据化分析的步骤下能够解决异常检测中的一些过拟合问题。增强了异常检测算法的鲁棒性。
-
-
-
-
-
-
-
-
-