一种基于改进BERT模型的特定目标情感分类方法

    公开(公告)号:CN110609899B

    公开(公告)日:2022-04-19

    申请号:CN201910809516.3

    申请日:2019-08-29

    Abstract: 本发明涉及一种基于改进BERT模型的特定目标情感分类方法,包括:采集公开或自行构造的数据集,对自行构造的数据集进行人工标注,初始化BERT模型参数后将采集的数据集作为模型的输入,数据集中的句子经过分词处理后全部输入到模型中,得到目标词的编码,对目标词的编码进行进行最大池化处理、全连接层、函数分类得到分类结果,对多目标任务,将全连接输出结果利用神经网络进行不同目标之间的特征组合,然后进行分类。本发明的技术方案在进行特定目标情感分类时,对目标词与整个句子的上下文建立很好地编码联系,提高了分类的准确性和泛化能力。进一步的,将多个目标的分类结果利用神经网络进行串连处理,提取出不同目标之间的内在联系和相互影响。

    一种基于增量学习的集成式自适应水军识别方法

    公开(公告)号:CN112906383A

    公开(公告)日:2021-06-04

    申请号:CN202110169936.7

    申请日:2021-02-05

    Abstract: 本发明涉及一种基于增量学习的集成式自适应水军识别方法,采用集成式模型,集成了传统分类器A和神经网络分类器B,传统分类器A,用于学习离散的用户信息特征,基于RNN的神经网络模型属于神经网络分类器B,通过深度学习捕获文本序列中的语言特征,集成式模型可以自适应水军特征的变化,通过多个模型同时对水军特征进行学习,以互补的形式提高了模型的识别准确率。同时增量学习通过不断学习新的样本特征,能够自适应的拟合用户各类特征的变化,无需重新收集新样本,无需重新训练模型,提升了模型可持续性效应,减少了各方人力成本。通过增量学习,模型可以实现更好的泛化性能。

    一种基于长度归一化和主动学习的变长文本分类方法

    公开(公告)号:CN114428854A

    公开(公告)日:2022-05-03

    申请号:CN202111558980.3

    申请日:2021-12-20

    Abstract: 本发明涉及一种基于长度归一化和主动学习的变长文本分类方法,本发明在现有情感或特征分类模型的基础上增加了长度归一化的步骤,使用TF‑IDF方法筛选具有较大信息量的关键词,实现了变长文本的标准化,解决了现有技术直接对长文本进行截取导致损失原始文本信息的问题,提高了分类模型的精度。另一方面在模型细调过程中使用主动学习的方法补充容易错分的训练数据,提高分类模型精度,用较少的训练轮次提高模型准确度,在训练数据集较小的应用场景中具有较好效果,该方法能够有效地避免模型出现过拟合,提高了模型的泛化性能和分类精度。

    一种基于自信息损失补偿的机器生成文本检测方法

    公开(公告)号:CN112580351A

    公开(公告)日:2021-03-30

    申请号:CN202011631513.4

    申请日:2020-12-31

    Abstract: 本发明涉及一种基于自信息损失补偿的机器生成文本检测方法,包括首先确定细分领域并对爬取到的数据进行清洗,再对数据集中的文本数据进行分词并处理为固定长度,通过词嵌入工具得到文本数据的初始词向量表示矩阵,基于矩阵进行编码获得文本双向信息,然后拼接双向信息,编码逻辑特征并捕获最大特征,对捕获的特征进行自信息损失补偿输入全连接层,本发明方法学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息,提高文本分类的准确性。对学习过程中损失的有价值信息利用文本自身信息进行补偿,补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量。

    一种特定主体的跨网站通用新闻采集方法

    公开(公告)号:CN111581478A

    公开(公告)日:2020-08-25

    申请号:CN202010378695.2

    申请日:2020-05-07

    Abstract: 本发明涉及一种特定主体的跨网站通用新闻采集方法,包括:步骤1:引入疏密度判断的方法,对采集到的新闻页面使用行块分布函数进行预处理;步骤2:根据行块分布函数中显示的文本的分布情况,通过预先设定的阈值,确定可能包含正文的区域;步骤3:将预处理过的页面源码重构为DOM树;步骤4:对其使用readability算法进行加减权操作,根据设定的分数要求,判断正文内容或无用元素;步骤5:对处理后的内容,根据分数进行重新拼接,重组后生成正文内容。本发明将行块分布函数与Readability算法相结合,进行参数调优后,可快速准确提取网页的新闻数据,采用分布式部署及反爬、去重模块,系统整体具有效率高,鲁棒性好等特点。

    一种基于深度学习的文本情感分类方法

    公开(公告)号:CN111368088A

    公开(公告)日:2020-07-03

    申请号:CN202010245891.2

    申请日:2020-03-31

    Abstract: 本发明涉及一种基于深度学习的文本情感分类方法,基于标注数据集或自行采集的数据集,通过GloVe将数据集的文本转换为词向量表示,并构造词向量字典,从词向量字典中查找对应词的词向量并输入构建好的混合神经网络模型中,通过一维卷积来提取文本的n-gram特征,通过一维卷积得到的特征图可以保持与输入文本相同的维度,将语义信息的损失降到最小;然后采用双向LSTM进行特征提取,获取从前到后与从后往前的时序信息,将将一维卷积提取出的N-grams特征按时间顺序整合,本发明技术方案能够更好的挖掘特征之间的时序关系以及全局语义信息,提高文本情感分类的准确性。

    一种基于多任务学习的混合注意力机制文本标题匹配方法

    公开(公告)号:CN112966103B

    公开(公告)日:2022-04-19

    申请号:CN202110190612.1

    申请日:2021-02-05

    Abstract: 本发明涉及一种基于多任务学习的混合注意力策略文本标题匹配方法,模型的多任务学习体现在模型同时对输入文本进行文本原有类别的分类任务1和是否为“标题党”文章的分类任务2,通过多任务学习模型对模型进行联合训练,由其中一个任务辅助另一个任务学习到更好的参数。本方案用分类任务1的反向传播来调整模型参数,使分类任务2获得更好的表现,本发明从正文中提取重点信息与标题进行匹配从而实现“标题党”文章的检测,明显提高了标题党的检测精度和准确性。本发明方法提出的注意力机制可以一步到位的计算出每个元素与其他元素的关联度,计算量小,效率高。

    一种基于增量学习的集成式自适应水军识别方法

    公开(公告)号:CN112906383B

    公开(公告)日:2022-04-19

    申请号:CN202110169936.7

    申请日:2021-02-05

    Abstract: 本发明涉及一种基于增量学习的集成式自适应水军识别方法,采用集成式模型,集成了传统分类器A和神经网络分类器B,传统分类器A,用于学习离散的用户信息特征,基于RNN的神经网络模型属于神经网络分类器B,通过深度学习捕获文本序列中的语言特征,集成式模型可以自适应水军特征的变化,通过多个模型同时对水军特征进行学习,以互补的形式提高了模型的识别准确率。同时增量学习通过不断学习新的样本特征,能够自适应的拟合用户各类特征的变化,无需重新收集新样本,无需重新训练模型,提升了模型可持续性效应,减少了各方人力成本。通过增量学习,模型可以实现更好的泛化性能。

    一种基于细粒度标注数据的情感判别方法

    公开(公告)号:CN111046171B

    公开(公告)日:2022-08-16

    申请号:CN201910809268.2

    申请日:2019-08-29

    Abstract: 本发明涉及一种基于细粒度标注数据的情感判别方法,方法包括:采集财经新闻数据,将新闻数据划分为标注样例集和未标注样例集,通过标注样例集和未标注样例集对第一分类器和第二分类器进行训练,使第一分类器能够筛选出文章中的关键句,第二分类器判别文章的情感倾向,分别得到第一分类器的模型参数和第二分类器的模型参数,将分类结果中置信度高的数据加入到标注样例集中,并利用主动学习理论,从未标注样例集中选出最值得标注的数据C发给人工进行标注,以此循环训练情感判别模型,直到达到分类精度,训练结束,得到判别模型。

    一种基于多任务学习的混合注意力机制文本标题匹配方法

    公开(公告)号:CN112966103A

    公开(公告)日:2021-06-15

    申请号:CN202110190612.1

    申请日:2021-02-05

    Abstract: 本发明涉及一种基于多任务学习的混合注意力策略文本标题匹配方法,模型的多任务学习体现在模型同时对输入文本进行文本原有类别的分类任务1和是否为“标题党”文章的分类任务2,通过多任务学习模型对模型进行联合训练,由其中一个任务辅助另一个任务学习到更好的参数。本方案用分类任务1的反向传播来调整模型参数,使分类任务2获得更好的表现,本发明从正文中提取重点信息与标题进行匹配从而实现“标题党”文章的检测,明显提高了标题党的检测精度和准确性。本发明方法提出的注意力机制可以一步到位的计算出每个元素与其他元素的关联度,计算量小,效率高。

Patent Agency Ranking