-
公开(公告)号:CN112906383A
公开(公告)日:2021-06-04
申请号:CN202110169936.7
申请日:2021-02-05
Applicant: 成都信息工程大学
IPC: G06F40/284 , G06F16/906 , G06F16/951 , G06N3/04 , G06N3/08 , G06N7/00
Abstract: 本发明涉及一种基于增量学习的集成式自适应水军识别方法,采用集成式模型,集成了传统分类器A和神经网络分类器B,传统分类器A,用于学习离散的用户信息特征,基于RNN的神经网络模型属于神经网络分类器B,通过深度学习捕获文本序列中的语言特征,集成式模型可以自适应水军特征的变化,通过多个模型同时对水军特征进行学习,以互补的形式提高了模型的识别准确率。同时增量学习通过不断学习新的样本特征,能够自适应的拟合用户各类特征的变化,无需重新收集新样本,无需重新训练模型,提升了模型可持续性效应,减少了各方人力成本。通过增量学习,模型可以实现更好的泛化性能。
-
公开(公告)号:CN112966103A
公开(公告)日:2021-06-15
申请号:CN202110190612.1
申请日:2021-02-05
Applicant: 成都信息工程大学
IPC: G06F16/35 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于多任务学习的混合注意力策略文本标题匹配方法,模型的多任务学习体现在模型同时对输入文本进行文本原有类别的分类任务1和是否为“标题党”文章的分类任务2,通过多任务学习模型对模型进行联合训练,由其中一个任务辅助另一个任务学习到更好的参数。本方案用分类任务1的反向传播来调整模型参数,使分类任务2获得更好的表现,本发明从正文中提取重点信息与标题进行匹配从而实现“标题党”文章的检测,明显提高了标题党的检测精度和准确性。本发明方法提出的注意力机制可以一步到位的计算出每个元素与其他元素的关联度,计算量小,效率高。
-
公开(公告)号:CN112966103B
公开(公告)日:2022-04-19
申请号:CN202110190612.1
申请日:2021-02-05
Applicant: 成都信息工程大学
IPC: G06F16/35 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于多任务学习的混合注意力策略文本标题匹配方法,模型的多任务学习体现在模型同时对输入文本进行文本原有类别的分类任务1和是否为“标题党”文章的分类任务2,通过多任务学习模型对模型进行联合训练,由其中一个任务辅助另一个任务学习到更好的参数。本方案用分类任务1的反向传播来调整模型参数,使分类任务2获得更好的表现,本发明从正文中提取重点信息与标题进行匹配从而实现“标题党”文章的检测,明显提高了标题党的检测精度和准确性。本发明方法提出的注意力机制可以一步到位的计算出每个元素与其他元素的关联度,计算量小,效率高。
-
公开(公告)号:CN112906383B
公开(公告)日:2022-04-19
申请号:CN202110169936.7
申请日:2021-02-05
Applicant: 成都信息工程大学
IPC: G06F40/284 , G06F16/906 , G06F16/951 , G06N3/04 , G06N3/08 , G06N7/00
Abstract: 本发明涉及一种基于增量学习的集成式自适应水军识别方法,采用集成式模型,集成了传统分类器A和神经网络分类器B,传统分类器A,用于学习离散的用户信息特征,基于RNN的神经网络模型属于神经网络分类器B,通过深度学习捕获文本序列中的语言特征,集成式模型可以自适应水军特征的变化,通过多个模型同时对水军特征进行学习,以互补的形式提高了模型的识别准确率。同时增量学习通过不断学习新的样本特征,能够自适应的拟合用户各类特征的变化,无需重新收集新样本,无需重新训练模型,提升了模型可持续性效应,减少了各方人力成本。通过增量学习,模型可以实现更好的泛化性能。
-
公开(公告)号:CN113159363B
公开(公告)日:2022-04-19
申请号:CN202011607205.8
申请日:2020-12-30
Applicant: 成都信息工程大学
IPC: G06Q10/04 , G06F16/951 , G06F16/906 , G06F16/955 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种基于历史新闻报道的事件趋势预测方法,首先确定待预测新事件领域,基于公开数据集或网络采集的数据获取同类事件;在每个同类事件内部,将描述同一具体事件的新闻聚类为一个子事件,根据事件内容的关联性和时间先后顺序,获得每个子事件后续事件分布信息;计算同类事件和待预测新事件的相似度获得相似事件;再在相似事件内部通过计算相似度得到当前子事件和相似事件中的子事件的相似度,根据前述两个相似度和事件分布信息,对当前子事件的发展趋势进行预测,本发明方法避免了人工趋势预测的主观性和随意性,能够全面且量化地给出未来事件发展的各种可能,有利于相关人员进行不确定场景下的分析和预测。
-
公开(公告)号:CN112580351B
公开(公告)日:2022-04-19
申请号:CN202011631513.4
申请日:2020-12-31
Applicant: 成都信息工程大学
IPC: G06F40/289 , G06F40/284 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于自信息损失补偿的机器生成文本检测方法,包括首先确定细分领域并对爬取到的数据进行清洗,再对数据集中的文本数据进行分词并处理为固定长度,通过词嵌入工具得到文本数据的初始词向量表示矩阵,基于矩阵进行编码获得文本双向信息,然后拼接双向信息,编码逻辑特征并捕获最大特征,对捕获的特征进行自信息损失补偿输入全连接层,本发明方法学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息,提高文本分类的准确性。对学习过程中损失的有价值信息利用文本自身信息进行补偿,补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量。
-
公开(公告)号:CN113159363A
公开(公告)日:2021-07-23
申请号:CN202011607205.8
申请日:2020-12-30
Applicant: 成都信息工程大学
IPC: G06Q10/04 , G06F16/951 , G06F16/906 , G06F16/955 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种基于历史新闻报道的事件趋势预测方法,首先确定待预测新事件领域,基于公开数据集或网络采集的数据获取同类事件;在每个同类事件内部,将描述同一具体事件的新闻聚类为一个子事件,根据事件内容的关联性和时间先后顺序,获得每个子事件后续事件分布信息;计算同类事件和待预测新事件的相似度获得相似事件;再在相似事件内部通过计算相似度得到当前子事件和相似事件中的子事件的相似度,根据前述两个相似度和事件分布信息,对当前子事件的发展趋势进行预测,本发明方法避免了人工趋势预测的主观性和随意性,能够全面且量化地给出未来事件发展的各种可能,有利于相关人员进行不确定场景下的分析和预测。
-
公开(公告)号:CN112580351A
公开(公告)日:2021-03-30
申请号:CN202011631513.4
申请日:2020-12-31
Applicant: 成都信息工程大学
IPC: G06F40/289 , G06F40/284 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于自信息损失补偿的机器生成文本检测方法,包括首先确定细分领域并对爬取到的数据进行清洗,再对数据集中的文本数据进行分词并处理为固定长度,通过词嵌入工具得到文本数据的初始词向量表示矩阵,基于矩阵进行编码获得文本双向信息,然后拼接双向信息,编码逻辑特征并捕获最大特征,对捕获的特征进行自信息损失补偿输入全连接层,本发明方法学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息,提高文本分类的准确性。对学习过程中损失的有价值信息利用文本自身信息进行补偿,补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量。
-
公开(公告)号:CN111581478A
公开(公告)日:2020-08-25
申请号:CN202010378695.2
申请日:2020-05-07
Applicant: 成都信息工程大学 , 成都点石瑞达科技有限公司
IPC: G06F16/951
Abstract: 本发明涉及一种特定主体的跨网站通用新闻采集方法,包括:步骤1:引入疏密度判断的方法,对采集到的新闻页面使用行块分布函数进行预处理;步骤2:根据行块分布函数中显示的文本的分布情况,通过预先设定的阈值,确定可能包含正文的区域;步骤3:将预处理过的页面源码重构为DOM树;步骤4:对其使用readability算法进行加减权操作,根据设定的分数要求,判断正文内容或无用元素;步骤5:对处理后的内容,根据分数进行重新拼接,重组后生成正文内容。本发明将行块分布函数与Readability算法相结合,进行参数调优后,可快速准确提取网页的新闻数据,采用分布式部署及反爬、去重模块,系统整体具有效率高,鲁棒性好等特点。
-
公开(公告)号:CN111368088A
公开(公告)日:2020-07-03
申请号:CN202010245891.2
申请日:2020-03-31
Applicant: 成都信息工程大学
IPC: G06F16/35 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的文本情感分类方法,基于标注数据集或自行采集的数据集,通过GloVe将数据集的文本转换为词向量表示,并构造词向量字典,从词向量字典中查找对应词的词向量并输入构建好的混合神经网络模型中,通过一维卷积来提取文本的n-gram特征,通过一维卷积得到的特征图可以保持与输入文本相同的维度,将语义信息的损失降到最小;然后采用双向LSTM进行特征提取,获取从前到后与从后往前的时序信息,将将一维卷积提取出的N-grams特征按时间顺序整合,本发明技术方案能够更好的挖掘特征之间的时序关系以及全局语义信息,提高文本情感分类的准确性。
-
-
-
-
-
-
-
-
-