一种基于粒球计算的文本情感抽取方法、系统及电子设备

    公开(公告)号:CN116150378A

    公开(公告)日:2023-05-23

    申请号:CN202310257830.1

    申请日:2023-03-16

    Abstract: 本发明涉及计算机技术领域,公开了一种基于粒球计算的文本情感抽取方法、系统、及电子设备,包括如下步骤:S1、通过Bert模型提取输入文本的高级语义表征信息,并通过聚类的方式根据所述输入文本的高级语义表征信息对该输入文本进行簇的划分,将所述输入文本划分成若干粒球,并对若干所述粒球进行分类,从而抽取出输入文本的方面词和观点词;S2、根据所述方面词与观点词之间的距离,对每个方面词与观点词组成的词对进行位置嵌入到BLSTM模型中,经过所述BLSTM模型编码完成后,将来自方面词和观点词的隐藏状态连接起来,从而进行情感分类。本发明提出了一种基于粒球的计算方法来进行方面词与观点词的提取,解决了词语重叠的问题。

    基于多模态流形学习和社交网络特征的推特摘要生成方法

    公开(公告)号:CN112527964A

    公开(公告)日:2021-03-19

    申请号:CN202011503521.0

    申请日:2020-12-18

    Abstract: 本发明公开了一种基于多模态流形学习和社交网络特征的推特摘要生成方法,包括以下步骤:获取用户的特定话题推文集,以及用户互动信息;构建文本内的关系矩阵和跨文本的关系矩阵;结合所述矩阵计算推文显著度;结合用户互动信息计算社会认同度;将推文显著度与社会认同度结合即可得到最终的推文显著度,进而选择显著度最高的若干句子成为摘要。本发明将多文档摘要中常用的流行学习方法进行改进,并将社交网络信息整合其中,其更好的利用了不同主题文档之间的句子关系特征和相同文档内的句子关系特征,同时采用最大边界相关算法(MMR)来减少冗余信息,兼顾了摘要的覆盖性和多样性。

    一种应用于图像分割的对模糊聚类有效性指标的优化方法

    公开(公告)号:CN119625361A

    公开(公告)日:2025-03-14

    申请号:CN202411772186.2

    申请日:2024-12-04

    Abstract: 本发明属于计算机视觉领域,具体涉及一种应用于图像分割的对模糊聚类有效性指标的优化方法,包括获取目标图像,将所述目标图像的每个像素作为数据对象;对目标图像的全部数据对象使用多粒度模型进行计算,将细粒度的像素点转换为粗粒度的像素点;将簇数k从#imgabs0#循环,使用cmeans算法聚为k个簇,使用模糊聚类有效性指标计算出指标值,其中M为经过多粒度计算之后的对象个数;根据计算的指标值,获取指标值取极大值或者极小值时对应的簇数,得到最优簇数k;本发明能够有效去除低密度边界点,从而提高在图像分割时使用聚类结果的准确性。

    基于多模态流形学习和社交网络特征的微博摘要生成方法

    公开(公告)号:CN112527964B

    公开(公告)日:2022-07-01

    申请号:CN202011503521.0

    申请日:2020-12-18

    Abstract: 本发明公开了一种基于多模态流形学习和社交网络特征的微博摘要生成方法,包括以下步骤:获取用户的特定话题微博集,以及用户互动信息;构建文本内的关系矩阵和跨文本的关系矩阵;结合所述矩阵计算微博显著度;结合用户互动信息计算社会认同度;将微博显著度与社会认同度结合即可得到最终的微博显著度,进而选择显著度最高的若干句子成为摘要。本发明将多文档摘要中常用的流行学习方法进行改进,并将社交网络信息整合其中,其更好的利用了不同主题文档之间的句子关系特征和相同文档内的句子关系特征,同时采用最大边界相关算法(MMR)来减少冗余信息,兼顾了摘要的覆盖性和多样性。

    一种基于多粒度聚类的文本检测方法

    公开(公告)号:CN118035451A

    公开(公告)日:2024-05-14

    申请号:CN202410234915.2

    申请日:2024-03-01

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于多粒度聚类的文本检测方法,包括获取文本数据集并进行预处理得到预处理文本数据集,对预处理文本数据集进行分词处理得到词库;采用粒球纯度自适应方法对词库中的所有词进行聚类,得到同义词集合;采用同义词集合对预处理文本数据集进行扰动处理,得到对抗文本数据集;构建信息检测模型,并采用对抗文本数据对信息检测模型进行对抗性训练;训练完成后,将待处理文本数据输入已训练的信息检测模型,以输出检测结果;本发明提出了一种更为高效、更具有鲁棒性的文本检测方法,能够提高识别垃圾邮件、垃圾信息的准确度,并显著减少人工筛选的工作量,为自然语言处理领域带来了创新的解决方案。

    一种基于粒球计算的远程监督命名实体识别方法

    公开(公告)号:CN117709342A

    公开(公告)日:2024-03-15

    申请号:CN202311601556.1

    申请日:2023-11-28

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于粒球计算的远程监督命名实体识别方法;包括:获取文本数据并对其进行预处理;根据远程知识库对预处理好的文本数据进行匹配并打上标签;对预处理好的文本数据进行编码,得到文本嵌入表示;采用预训练的Bert模型对文本嵌入表示进行处理,得到特征矩阵;将特征矩阵压缩为二维矩阵;根据粒球纯度阈值,采用粒球计算层对二维矩阵和二维矩阵对应的标签进行处理,得到粒球中心矩阵;将粒球中心矩阵输入到分类器中进行处理,得到文本的命名实体识别结果;计算模型总损失,根据模型总损失调整模型参数,得到训练好的远程监督命名实体识别模型;本发明减少了人力的标注成本,提高了实体识别的准确性。

    基于主题相关性的推特摘要生成方法

    公开(公告)号:CN112883716B

    公开(公告)日:2022-05-03

    申请号:CN202110151630.9

    申请日:2021-02-03

    Abstract: 本发明公开了基于主题相关性的推特摘要生成方法,包括通过名词在每个主题的分布建立每个主题的词库;通过每个主题特有的主题词库和训练得到的词向量模型,计算一条推文和某个主题的相关性;根据网络互动信息计算公众认同度;将公众认同度与主题相关性进行综合,得到最终的推文显著性;采用最大边际相关性算法进行去冗处理,输出摘要。本方法从主题相关性和推文显著度来选择推文作为摘要,并对最终摘要的冗余度进行控制,使得生成的推文摘要综合考虑了摘要主题,多样性,以及社会认同性。从而得到了主题相关性更高,新颖性和总结性更好的摘要。

    一种基于MPI并行化的参考点k近邻分类方法

    公开(公告)号:CN108108251B

    公开(公告)日:2021-07-20

    申请号:CN201711243607.2

    申请日:2017-11-30

    Abstract: 本发明涉及一种基于MPI并行化的参考点k近邻分类方法,属于数据分类领域。该方法包括步骤:S1:基于参考点的k近邻算法利用样本点到若干参考点的距离来度量彼此间的位置差异,定义位置差异因子,计算训练样本到参考点的相似度,并产生有序的相似度序列;S2:根据测试样本与参考点的相似度从有序序列中搜索训练集中近似近邻样本;S3:从搜索到的近似近邻样本中计算与测试样本的确切相似度,从而找到k个近邻样本并判断类别。本发明借助参考点来加速k近邻的查找并将使用MPI技术实现并行化,从而加快大规模、高维度数据的分类速度。

    基于多粒度遗传算法的图像分割方法

    公开(公告)号:CN111127501A

    公开(公告)日:2020-05-08

    申请号:CN201911221195.1

    申请日:2019-12-03

    Abstract: 本发明公开了一种基于多粒度遗传算法的图像分割方法,涉及图像处理领域。首先,以最大化类间方差等为目标,从而得到作为评价图像分割性能的适应度函数。然后,根据评价图像分割性能的适应度函数,通过多粒度遗传算法进行搜索从而得到最优阈值。当最优解发生变化时多粒度遗传算法引入分层策略,根据分层情况进行遗传操作,并引入多粒度空间策略对可行域进行划分,在稀疏空间和当前最优解所在子空间随机采样并迁移到当前种群以替换种群中适应度值较差的个体。多粒度遗传算法提高了稀疏空间和当前最优解所在子空间的搜索强度,促使搜索到的近似最优解更有效的向全局最优解靠拢,从而得到最优的图像分割阈值,达到了提高图像分割精度的目的。

Patent Agency Ranking