大规模关键词匹配的方法和系统

    公开(公告)号:CN100354863C

    公开(公告)日:2007-12-12

    申请号:CN200510007089.5

    申请日:2005-02-03

    Abstract: 本发明提供针对大规模关键词匹配的方法和系统。按照所提供的方法和系统,首先将给定关键词集合进行规范化,在规范化的关键词集合(也可以直接在原始关键词集合上)上求解一个最优分组和组内最佳匹配方法,这个过程可以使用两种机制:一是使用动态规划的方法计算出一个最优分组,依照此结果将给定的关键词集合划分成若干个组;然后,针对每一个组,通过训练的方式得到一个最佳的匹配方法;一是通过训练建立一个边上带权重的有向图,求解此图的最短路径,得到最优分组和组内最佳匹配方法;然后对所有的组,使用训练的结果依次构造扫描自动机,形成一个扫描自动机序列,使输入的待扫描文本依次通过,得到最终的扫描结果。

    以一类PDF文本作为掩体的信息隐写方法

    公开(公告)号:CN1625096A

    公开(公告)日:2005-06-08

    申请号:CN200410009983.1

    申请日:2004-12-09

    Abstract: 一个以一类PDF文档的正文文本作为掩体的信息隐写方法。方法以两端对齐的英文WORD文档转化生成的PDF文档,文本中的每一个字符各自精确定位的正文文本作为掩体。利用该类PDF文档正文文本中存在的隐密信道,在保证透明性的基础上,采用以一定的冗余换取安全性的策略选取部分“数字”n(1≤n≤16)来隐写可盲提取的信息。实验和分析表明:当冗余度参数为10%时,可隐写率约为:20%。另外,本发明方法的安全性遵守Kerckhoffs原理;隐写容量是可估计的;具备对嵌入信息数据完整性的保证机制以及支持盲提取等特点,这些特点提高了本发明方法的实用性。本方案可用于构建网络环境下的信息隐藏技术应用。

    一种图像分类模型的训练方法、图像分类方法

    公开(公告)号:CN117333738B

    公开(公告)日:2025-04-22

    申请号:CN202311308831.0

    申请日:2023-10-10

    Abstract: 本发明实施例提供了一种图像分类模型训练方法,该方法包括:S1、获取包括多个图像样本的原始图像数据集及其对应的特征矩阵;S2、对原始图像数据集对应的特征矩阵进行降维处理,并将降维处理后的特征矩阵进行高斯建模以获得特征矩阵中每个特征值的高斯分布;S3、基于步骤S2中每个特征值的高斯分布对其依次进行高斯采样,以使高斯采样所得的所有特征值构成新的特征矩阵,并基于新的特征矩阵生成新的图像数据集;S4、采用新的图像数据集和原始图像数据集构成增强图像训练集训练图像分类模型至收敛。该方法提高了图像分类模型在少样本情况下的性能。

    基于查询引导的上下文压缩方法和装置

    公开(公告)号:CN119669398A

    公开(公告)日:2025-03-21

    申请号:CN202411658765.4

    申请日:2024-11-20

    Abstract: 本发明提供了一种基于查询引导的上下文压缩方法,包括:将查询信息和待压缩的上下文填入对话模板;分别计算所述对话模板的所述上下文中若干词元的第一注意力数值;根据所述若干词元对应的所述第一注意力数值将所述上下文进行注意力重构;将注意力重构后的所述上下文压缩到预定的目标压缩率之内。本发明还提供一种基于查询引导的上下文压缩系统、存储介质及电子设备。借此,本发明能够更高效地保留关键信息,将更短的上下文输入给生成模型,提高长上下文推理场景下生成模型的推理效率,降低推理成本。

    基于多模态模型CLIP的隐空间净化的图像分类方法及装置

    公开(公告)号:CN119418123A

    公开(公告)日:2025-02-11

    申请号:CN202411558624.5

    申请日:2024-11-04

    Abstract: 本发明提出一种基于多模态模型CLIP的隐空间净化的图像分类方法和装置,包括:将待分类图片输入图文多模态对比预训练模型的图像编码器,得到待分类图片在隐空间上的表示向量;使用图文多模态对比预训练模型的文本编码器,得到空类别文本所表示的空类别文本嵌入向量;计算表示向量和空类别文本嵌入向量的概率似然值;提取表示向量的向量长度与方向矢量,计算似然概率值对方向矢量的梯度,采用梯度上升方法对方向矢量进行更新同时保持向量长度不变,得到净化向量;通过选择与最终净化向量相似度最高的类别文本嵌入向量,将类别文本嵌入向量对应的图像类别作为类别文本嵌入向量的分类结果。

    一种面向大模型的数据溯源方法及其系统

    公开(公告)号:CN119358670A

    公开(公告)日:2025-01-24

    申请号:CN202411351041.5

    申请日:2024-09-26

    Abstract: 本申请公开了一种面向大模型的数据溯源方法,方法包括:构建待输入大模型的测试样本集合;对于测试数据集合,采用去偏修正方法,计算每个训练样本和测试样本在训练后模型和训练前模型上的去偏影响分数;根据在训练后模型和训练前模型上的去偏影响分数进行去偏计算,获取每条训练数据的最终影响分数,根据最终影响分数,实现数据的溯源分析。本发明在去偏修正方法的基础上还包括了去噪修正方法。本发明实现的影响分数方法能够更有效地评估训练数据溯源方法的准确性和可靠性。

Patent Agency Ranking