-
公开(公告)号:CN117372930A
公开(公告)日:2024-01-09
申请号:CN202311379146.7
申请日:2023-10-24
Applicant: 重庆邮电大学
IPC: G06V20/40 , G06F16/75 , G06V10/80 , G06V10/776
Abstract: 本发明涉及自然语言处理领域,具体涉及一种基于多模态大数据的短视频舆情分类方法,该方法包括:获取待处理的短视频数据和对应的标题数据;对标题数据进行预处理,得到标题向量特征;从短视频数据中抽取K帧图片,将K帧图片输入到多个patch输入视频编码模块中,得到视频向量特征;根据标题向量特征和视频向量特征计算数据特征向量;对数据特征向量添加高斯噪声,并输入到分类器,得到分类结果;本发明能够充分融合短视频舆情数据中的视频向量特征和文本向量特征得到数据向量特征,同时向数据向量特征中引入高斯噪声以增强模型的泛化性能。
-
公开(公告)号:CN115906845A
公开(公告)日:2023-04-04
申请号:CN202211391706.6
申请日:2022-11-08
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/258 , G06F40/194
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种电商商品标题命名实体识别方法,该方法包括:获取待识别的商品标题文本数据,将标题文本数据转化为词向量;对词向量进行拼接,得到向量特征;向量特征输入到训练好的实体识别模型中,得到识别结果;在对实体模型进行训练过程中,将训练集中的数据输入到模型中得到两个特征向量,计算特征向量的相似度,并进行特征向量拼接;根据拼接结果计算模型的损失函数;本发明在进行模型训练过程中通过对训练数据的损失值进行降权处理,减少生成数据的噪声,补足了传统实体识别方法对商品标题实体识别的准确率较低的问题。
-
公开(公告)号:CN117350287A
公开(公告)日:2024-01-05
申请号:CN202311347848.7
申请日:2023-10-18
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06F18/22 , G06N3/0455 , G06N3/0985 , G06N3/048
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于舆情大数据的文本情感分析方法,包括:获取舆情文本数据,分组后将文本数据根据情感正负倾向排序;使用预训练模型对文本向量化,得到词向量和句向量特征;对文本进行分词,对分词结果中的词进行逐个删除,计算删除词后的特征向量和原始文本向量的相似度;根据计算出的文本相似度表示词汇重要性,使用词向量加权求和方法表示文本特征;根据情感相对排序关系构造损失函数,根据损失函数调整模型参数,当损失函数最小时完成模型训练;本发明提出一种计算词汇重要性的方法,利用该权重加权词向量计算文本向量特征,增加了模型评判文本情感分数的能力。
-
-