一种文本属性图自监督学习方法、系统、设备及介质

    公开(公告)号:CN119962612A

    公开(公告)日:2025-05-09

    申请号:CN202510451214.9

    申请日:2025-04-11

    Applicant: 南开大学

    Abstract: 本发明涉及图神经网络和自然语言处理技术领域,提供一种文本属性图自监督学习方法、系统、设备及介质,方法包括:获取文本属性图数据集并进行预处理;通过随机游走对节点的图拓扑结构进行处理,生成节点的可达性嵌入;将节点的可达性嵌入和节点的图拓扑结构作为图神经网络的输入;通过对齐投影器将节点向量和压缩后的邻居向量对齐,获得节点嵌入;将节点嵌入和文本属性向量对齐后进行拼接并输入到编码器层,生成模态融合的节点表示;通过模态融合的节点表示进行少样本节点分类。本发明通过引入可达性嵌入弥补全局拓扑信息的缺失,通过基于交互的语言模型进行少样本节点分类,显著提升下游任务的性能。

    一种视觉语言模型的多模态通用对抗扰动方法

    公开(公告)号:CN119397282B

    公开(公告)日:2025-03-28

    申请号:CN202411983538.9

    申请日:2024-12-31

    Applicant: 南开大学

    Abstract: 本发明涉及基于特定计算模型的计算机系统技术领域,尤其涉及一种视觉语言模型的多模态通用对抗扰动方法,包括如下步骤:获取数据集及视觉语言模型;用视觉语言模型对训练集和验证集中的文本样本及图像样本进行编码;初始化多模态通用对抗扰动,对多模态通用对抗扰动进行优化;判断是否需要替换更新策略;对训练集和验证集中的样本进行攻击,将攻击失败的样本作为下一对多模态通用对抗扰动的训练集和验证集;迭代训练多模态通用对抗扰动,直至多模态通用对抗扰动攻击成功或者全部攻击失败,记录测试集中攻击成功及失败的输入样本。本发明提供的方法解决了单模态的通用对抗扰动对视觉语言模型攻击效果不足的问题。

    上下文对抗触发器生成方法、系统、设备、产品及介质

    公开(公告)号:CN119203935B

    公开(公告)日:2025-02-11

    申请号:CN202411711071.2

    申请日:2024-11-27

    Applicant: 南开大学

    Abstract: 本发明涉及人工智能安全技术领域,提供上下文对抗触发器生成方法、系统、设备、产品及介质,包括获取源文本和第一上下文对抗触发器,通过第一上下文对抗触发器和源文本得到第一候选词汇表,通过第一候选词汇表得到第二上下文对抗触发器;获取、更新第一掩码语言模型得到第二掩码语言模型;选取标签训练样本,得到第二候选词汇表,根据第二候选词汇表生成第三上下文对抗触发器并迭代,得到第四上下文对抗触发器及最大第二掩码语言模型参数,通过最大第二掩码语言模型参数更新第二掩码语言模型,得到第三掩码语言模型,通过对第三掩码语言模型进行迭代得到目标上下文对抗触发器。本发明能够有效模拟更多样的触发器攻击。

    融合文本和传播结构的早期谣言检测方法

    公开(公告)号:CN112329444B

    公开(公告)日:2022-09-02

    申请号:CN202011245311.6

    申请日:2020-11-10

    Applicant: 南开大学

    Abstract: 融合传播结构的谣言检测方法,涉及社交网络数据检测。利用新闻的传播结构和源文本作为输入数据,构建基于深度学习的谣言检测模型。本方法首先提出了一种用于学习谣言传播结构的图嵌入方法,其能将新闻传播过程中的传播结构信息嵌入到合适的隐空间上。本方法还提出了一个基于CNN模块的双分支谣言检测模型,其包含两个子分支,一个分支用于学习谣言的源文本的文本特征,另一个分支则用于检测蕴含在嵌入节点序列的传播结构特征。对于Weibo和Twitter的四个常见数据集,本方法能够学习到谣言的传播结构特征,并将其和文本特征进行融合。实验结果表明,本方法不仅拥有优于目前已有的方法的检测效果,还能够在谣言传播的早期就给出判断。

    一种基于知识蒸馏的少样本虚假新闻检测方法

    公开(公告)号:CN112183670B

    公开(公告)日:2022-08-09

    申请号:CN202011220037.7

    申请日:2020-11-05

    Applicant: 南开大学

    Inventor: 陈晨 袁婧 袁晓洁

    Abstract: 本发明开了一种基于知识蒸馏的少样本虚假新闻检测方法,属于人工智能技术领域,命名为FSKD(Detecting Fake News with Few‑Shot Knowledge Distillation)。本方法采用知识蒸馏的思想,以Teacher‑Student(教师‑学生)模型为框架,使用BERT作为Teacher(教师)模型,使用少量的有标签数据进行微调来为无标签的数据给定soft labels(软标签),从而使得模型可以同时使用有标签的数据和无标签的数据进行训练,解决了现有的虚假新闻检测手段需要依赖大量的有标签数据的问题,同时此方法使用了一定的优化算法来避免过拟合问题。实验结果表明,本方法优于目前已有的少样本虚假新闻检测方法的效果。

    一种基于知识感知注意力网络的虚假新闻检测方法

    公开(公告)号:CN112328859A

    公开(公告)日:2021-02-05

    申请号:CN202011219845.1

    申请日:2020-11-05

    Applicant: 南开大学

    Abstract: 一种基于知识感知注意力网络的虚假新闻检测方法,属于人工智能技术领域。包括:基于新闻本文抽取知识图谱中的相关知识,将新闻文本和抽取的相关知识作为输入数据,构建基于知识感知的虚假新闻检测模型,对新闻样本进行分类。首先通过实体链接识别新闻中的实体提及并将其与知识图谱中相应的实体进行对齐,获得实体序列。其次,对于实体序列中的每个实体,获取知识图谱中该实体的邻居实体作为其实体上下文。最后,通过虚假新闻检测模型,将新闻文本与实体和实体上下文特征进行融合,完成虚假新闻检测。本发明能够解决新闻文本中实体提及带来的歧义问题,同时能够为新闻中的实体提供补充信息,学习语义水平和知识水平的新闻表示。

    一种视觉语言模型的多模态通用对抗扰动方法

    公开(公告)号:CN119397282A

    公开(公告)日:2025-02-07

    申请号:CN202411983538.9

    申请日:2024-12-31

    Applicant: 南开大学

    Abstract: 本发明涉及基于特定计算模型的计算机系统技术领域,尤其涉及一种视觉语言模型的多模态通用对抗扰动方法,包括如下步骤:获取数据集及视觉语言模型;用视觉语言模型对训练集和验证集中的文本样本及图像样本进行编码;初始化多模态通用对抗扰动,对多模态通用对抗扰动进行优化;判断是否需要替换更新策略;对训练集和验证集中的样本进行攻击,将攻击失败的样本作为下一对多模态通用对抗扰动的训练集和验证集;迭代训练多模态通用对抗扰动,直至多模态通用对抗扰动攻击成功或者全部攻击失败,记录测试集中攻击成功及失败的输入样本。本发明提供的方法解决了单模态的通用对抗扰动对视觉语言模型攻击效果不足的问题。

    上下文对抗触发器生成方法、系统、设备、产品及介质

    公开(公告)号:CN119203935A

    公开(公告)日:2024-12-27

    申请号:CN202411711071.2

    申请日:2024-11-27

    Applicant: 南开大学

    Abstract: 本发明涉及人工智能安全技术领域,提供上下文对抗触发器生成方法、系统、设备、产品及介质,包括获取源文本和第一上下文对抗触发器,通过第一上下文对抗触发器和源文本得到第一候选词汇表,通过第一候选词汇表得到第二上下文对抗触发器;获取、更新第一掩码语言模型得到第二掩码语言模型;选取标签训练样本,得到第二候选词汇表,根据第二候选词汇表生成第三上下文对抗触发器并迭代,得到第四上下文对抗触发器及最大第二掩码语言模型参数,通过最大第二掩码语言模型参数更新第二掩码语言模型,得到第三掩码语言模型,通过对第三掩码语言模型进行迭代得到目标上下文对抗触发器。本发明能够有效模拟更多样的触发器攻击。

    一种融合成分句法信息的语法错误校正方法

    公开(公告)号:CN116341527A

    公开(公告)日:2023-06-27

    申请号:CN202310326309.9

    申请日:2023-03-30

    Applicant: 南开大学

    Inventor: 陈晨 何博 袁晓洁

    Abstract: 一种融合成分句法信息的语法错误校正方法,属于人工智能技术领域。包括:基于给定语句抽取成分句法信息,将含有错误的语句、对应正确的语句以及成分句法信息作为输入数据,构建融合成分句法信息的多任务语法错误校正模型,对包含错误的语句进行校正。本方法首先基于语法分析的方法,抽取语句的成分句法信息,将语句的成分句法树序列化得到成分句法序列,并构建三元元组对作为输入数据。其次,引入适配器模块,构建一个基于多任务学习的多头注意力机制模型,学习错误语句和正确语句、错误语句和成分句法序列之间的潜在关系。最后,通过预训练和轻量化微调适配器模块,将错误语句、正确语句、成分句法序列的特征进行融合,完成语法错误校正。

    一种根据手机上网日志预测手机信号强度的方法

    公开(公告)号:CN107333285A

    公开(公告)日:2017-11-07

    申请号:CN201710544918.6

    申请日:2017-07-06

    Applicant: 南开大学

    Abstract: 本发明提供了一种根据手机上网日志(httplog数据)预测手机信号强度的方法,其步骤为:根据httplog数据中的IMSI和时间字段,在MME数据中找到对应的用户三元组,通过用户三元组可以在MR数据中提取对应的信号强度数据,将信号强度数据与httplog数据结合成为训练数据,进行数据统计、特征抽取、模型构建、模型训练,最后使用训练好的模型进行预测,根据httplog数据预测手机信号强度。

Patent Agency Ranking