一种基于粒球聚类的文本翻译方法和系统

    公开(公告)号:CN119599034A

    公开(公告)日:2025-03-11

    申请号:CN202411658560.6

    申请日:2024-11-20

    Abstract: 本发明涉及一种基于粒球聚类的文本翻译方法和系统,包括:采用爬虫技术定期获取文本数据集并进行预处理;利用分词工具对获取的文本数据进行分词处理,并利用分词处理得到的词对词库进行更新;基于预训练的大语言模型对词库中的词进行编码得到词的词向量表示;根据词库中词的词向量表示利用粒球聚类算法自适应地生成词库中词的同义词集;利用训练文本中词的同义词对其进行替换生成训练文本的对抗样本;根据训练文本和对抗样本构建训练集,基于构建的训练集对基于大语言模型的文本翻译模型进行训练;通过训练好的文本翻译模型对待翻译的文本进行翻译,发明能够提高翻译的准确性和可靠性。

    一种基于粒球计算的文本噪声标签修正方法

    公开(公告)号:CN119377736A

    公开(公告)日:2025-01-28

    申请号:CN202411429116.7

    申请日:2024-10-14

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于粒球计算的文本噪声标签修正方法;该方法包括:采用人工标注的干净的文本数据集训练Bert模型,得到训练好的Bert模型;采用训练好的Bert模型对含噪声的文本数据集进行编码,得到特征向量;对特征向量进行降维处理,得到降维后的特征向量;将所有样本的降维后的特征向量和原始标签构成初始粒球;将初始粒球加入到待处理队列中,设置纯度阈值;在待处理队列根据粒球的纯度和纯度阈值对文本的标签进行修正,直到待处理队列为空,得到标签修正完成的文本数据集;本发明降低了文本数据集的噪声比例,增强了后续深度学习模型的鲁棒性,可使得模型实现更准确的文本分类处理。

    一种基于粒球和度量学习的对抗攻击文本分类方法

    公开(公告)号:CN119621980A

    公开(公告)日:2025-03-14

    申请号:CN202411672547.6

    申请日:2024-11-21

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于粒球和度量学习的对抗攻击文本分类方法,包括:获取待分类文本,将待分类文本输入训练好的编码模块,得到待分类文本的语义向量表示;将待分类文本的语义向量表示映射到训练好的粒球空间,得到粒球中心,将粒球中心对应的语义向量表示输入分类器,得到分类结果;本发明使用粒球聚类将同类文本的语义向量表示聚合到一个粒球中,得到粒球空间,再将待分类文本的语义向量表示映射到粒球空间中获取对应的粒球中心,通过利用对应的粒球中心进行分类来消除对抗样本的影响,较于现有技术,提高了模型在攻击情况下分类器的准确性。

    一种基于多粒度聚类的文本检测方法

    公开(公告)号:CN118035451A

    公开(公告)日:2024-05-14

    申请号:CN202410234915.2

    申请日:2024-03-01

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于多粒度聚类的文本检测方法,包括获取文本数据集并进行预处理得到预处理文本数据集,对预处理文本数据集进行分词处理得到词库;采用粒球纯度自适应方法对词库中的所有词进行聚类,得到同义词集合;采用同义词集合对预处理文本数据集进行扰动处理,得到对抗文本数据集;构建信息检测模型,并采用对抗文本数据对信息检测模型进行对抗性训练;训练完成后,将待处理文本数据输入已训练的信息检测模型,以输出检测结果;本发明提出了一种更为高效、更具有鲁棒性的文本检测方法,能够提高识别垃圾邮件、垃圾信息的准确度,并显著减少人工筛选的工作量,为自然语言处理领域带来了创新的解决方案。

    一种基于粒球计算的远程监督命名实体识别方法

    公开(公告)号:CN117709342A

    公开(公告)日:2024-03-15

    申请号:CN202311601556.1

    申请日:2023-11-28

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于粒球计算的远程监督命名实体识别方法;包括:获取文本数据并对其进行预处理;根据远程知识库对预处理好的文本数据进行匹配并打上标签;对预处理好的文本数据进行编码,得到文本嵌入表示;采用预训练的Bert模型对文本嵌入表示进行处理,得到特征矩阵;将特征矩阵压缩为二维矩阵;根据粒球纯度阈值,采用粒球计算层对二维矩阵和二维矩阵对应的标签进行处理,得到粒球中心矩阵;将粒球中心矩阵输入到分类器中进行处理,得到文本的命名实体识别结果;计算模型总损失,根据模型总损失调整模型参数,得到训练好的远程监督命名实体识别模型;本发明减少了人力的标注成本,提高了实体识别的准确性。

    一种基于粒球计算及权重路径签名相似性的智能合约漏洞检测方法和装置

    公开(公告)号:CN119939602A

    公开(公告)日:2025-05-06

    申请号:CN202510045923.7

    申请日:2025-01-13

    Abstract: 本发明涉及一种基于粒球计算及权重路径签名相似性的智能合约漏洞检测方法和装置,包括:根据给定的敏感词表确定智能合约源代码中的敏感函数,获取所有从敏感函数入口到敏感词的敏感路径集合;计算敏感路径中每个节点在程序依赖图的PageRank值作为节点在该路径中的权重值;通过粒球算法构建智能合约词‑向量映射表,基于该词‑向量映射表生成敏感路径中每个节点的向量表示;融合敏感路径中每个节点的向量表示和权重路径信息获得权重路径签名;将每条敏感路径的权重路径签名分别与各类漏洞签名库中的权重路径签名进行相似度比对,识别与漏洞签名库对应漏洞类型的潜在漏洞路径,从智能合约源代码中检测潜在漏洞路径中是否包含其对应漏洞类型的防御模式,若没有则判定智能合约源代码中存在此类型漏洞。

Patent Agency Ranking