一种面向中文生成大语言模型的偏见检测方法

    公开(公告)号:CN120011556A

    公开(公告)日:2025-05-16

    申请号:CN202510033099.3

    申请日:2025-01-09

    Abstract: 本发明提供一种面向中文生成大模型的偏见检测方法,属于自然语言处理领域,该方法包括定义偏见上下文;生成文本样本;关注度标注和分析;构建中文关注度分类器和使用关注度分类器器评估文本中的偏见。该方法通过分析由不同人口群体提示生成的文本,在中文引入了对人口群体的关注概念,并使用不同人口群体的关注度水平差异作为偏见的衡量指标。本发明还提供了一种基于预训练模型的关注分类器,可用于分析未见过的文本中的偏见。

    一种基于目标标签相似度的文本后门攻击方法

    公开(公告)号:CN118551827A

    公开(公告)日:2024-08-27

    申请号:CN202410772763.1

    申请日:2024-06-14

    Abstract: 该方法在里面通过使用词嵌入技术,在数据集的文本上训练出一个词嵌入模型,对整个数据集中的文本上下文信息进行提取建模,然后攻击者定义后门攻击的目标标签,并通过词嵌入模型在文本中寻找到与目标标签最为相似的文本,粒度可以为字或词,同时将与目标标签相似度最大的位置设置为后门攻击触发器注入的位置,再选定触发器样式之后对选定的文本生成触发器并注入到指定位置。构建出有毒数据,之后将有毒数据与干净数据进行混合用于后门训练。在进行后门训练之前,将预训练语言模型在干净数据集上进行训练评估和测试获得干净性能。最后将预训练语言模型在有毒数据集上微调得到在后门训练下的干净准确度并在有毒测试集上进行测试得到攻击成功率用于评估后门攻击的隐蔽性和有效性。

    一种基于k-匿名的图数据隐私保护方法

    公开(公告)号:CN118194337A

    公开(公告)日:2024-06-14

    申请号:CN202410116922.2

    申请日:2024-01-29

    Abstract: 本文公开了一种基于k‑匿名的图数据隐私保护方法,其主要包括以下几个步骤:首先,基于用户特征指标对用户进行相似性计算,并对此结果进行排序;其次,依据用户的排序相似度建立关系树,为接下来的聚类分组奠定基础;接着,我们需要对树的分支及分支内的节点进行优化调整,以构建出最终的树形结构。在构建过程中,树的每一条分支代表着一个用户分组,即集群分组。通过这样的调整,我们可以更好地理解用户之间的相似性和差异性。最后,根据结构阈值对图进行匿名操作,得到最终的匿名图。本发明致力于在满足不同需求隐私要求的同时,降低对原始数据的修改,提高数据可用性,平衡用户隐私和数据可用性。

    一种基于AKT的知识追踪模型
    4.
    发明公开

    公开(公告)号:CN117933480A

    公开(公告)日:2024-04-26

    申请号:CN202410123096.4

    申请日:2024-01-29

    Inventor: 宋跃 常亮

    Abstract: 本发明公开了一种基于AKT的知识追踪模型,其主要包括:首先,对学生数据进行数据清洗;接下来,通过人工或是半自动的方式构建一个包含所有考察知识点的知识图谱;然后基于知识图谱,对知识点进行分组,再计算学生对每组知识点的掌握程度,接着再根据掌握程度,对学生就行分组。然后,使用自注意力模型AKT对所有组别学生的学习过程,分别进行建模;最后,在预测成绩时,先根据往期测试成绩对学生就行分类,再使用对应分组的训练参数对学生进行成绩预测。本发明致力于引入知识图谱作为先验条件来提高知识追踪模型的性能。

    一种基于情感知识增强的词语分布式表示学习系统

    公开(公告)号:CN114417814B

    公开(公告)日:2022-11-15

    申请号:CN202111531641.6

    申请日:2021-12-14

    Abstract: 本发明涉及情绪侦测与情感分析技术领域,具体地说,涉及一种基于情感知识增强的词语分布式表示学习系统,其包括情感知识整合框架和弱监督知识生成框架;情感知识整合框架包括知识查询模块,知识整合模块以及词表示生成模块;弱监督知识生成框架用于生成一个领域情感词典DSD,DSD整合了目标领域的无标签文本、领域独立的情感词典和目标领域文本的标签三部分的资源。本发明能较佳地进行情感知识整合。

    一种多层次命名实体识别方法

    公开(公告)号:CN110008469B

    公开(公告)日:2022-06-07

    申请号:CN201910207179.0

    申请日:2019-03-19

    Abstract: 本发明提出一种多层次命名实体识别方法,包括:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体。

    一种基于深度会话兴趣交互模型的课程推荐方法

    公开(公告)号:CN114564639A

    公开(公告)日:2022-05-31

    申请号:CN202210114867.4

    申请日:2022-01-31

    Abstract: 本发明公开了一种基于深度会话兴趣交互模型的课程推荐方法,其特征主要包括:筛选和预处理用户数据,将用户与项目的行为信息按照时间排序,并以一天为时间间隔划分会话;为了刻画用户动态变化的兴趣,丰富用户兴趣表示,将GRU应用于捕获用户动态偏好中;接下来,将用户最近行为数据和动态兴趣表示输入到第二层Attention网络中,得到用户的多角度兴趣表示;最后,将用户的多角度兴趣表示和课程向量表示做内积,选择每个候选项目得分高的为学生进行推荐,从而解决目前基于课程推荐方法中,没有考虑到用户与项目的交互过程存在噪声项目的影响以及静态且低秩的向量无法充分表达用户的兴趣的问题。

    一种基于自注意力机制的深度知识追踪模型

    公开(公告)号:CN113704235A

    公开(公告)日:2021-11-26

    申请号:CN202110887444.1

    申请日:2021-08-03

    Inventor: 刘铁园 陈威 常亮

    Abstract: 本发明涉及机器学习,深度学习及数据挖掘等技术领域,具体是一种基于自注意力机制的深度知识追踪模型。针对目前基于循环神经网络的知识追踪方法中普遍存在的可解释性差和长期依赖问题,提供了一种基于自注意力机制的模型,在一定程度提高可解释性且没有长期依赖问题。且利用了学习过程中的时间信息,以时间信息代替位置编码,结合遗忘曲线理论,模拟学习过程中的遗忘行为,同时,使用以知识点信息为主,以题目信息为辅,两者结合的建模方法,以保留题目的差异信息且避免了题目数量过多带来的参数爆炸,造成模型难以训练的问题。

Patent Agency Ranking