-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN118227796B
公开(公告)日:2024-07-19
申请号:CN202410641847.1
申请日:2024-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 长文本特定内容自动分类与阈值优化方法及其系统,涉及自然语言处理长文本领域。为了解决现有的长文本处理方法在自动分类时存在准确性差、效率低、动态调整、阈值自适应差的缺陷,本发明采用基于深度学习的长文本语义分析模型对待处理的长文本信息数据进行自动分类处理;对长文本进行动态分区域处理;对所述长文本信息数据的语义进行上下文感知融合,提高长文本内容自动分类的准确度;采用误差反馈机制动态调整分类阈值,从而实现长文本内容自动分类的阈值优化。本发明主要用于对互联网长文本的内容进行自动分类和阈值优化。
-
公开(公告)号:CN118227796A
公开(公告)日:2024-06-21
申请号:CN202410641847.1
申请日:2024-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 长文本特定内容自动分类与阈值优化方法及其系统,涉及自然语言处理长文本领域。为了解决现有的长文本处理方法在自动分类时存在准确性差、效率低、动态调整、阈值自适应差的缺陷,本发明采用基于深度学习的长文本语义分析模型对待处理的长文本信息数据进行自动分类处理;对长文本进行动态分区域处理;对所述长文本信息数据的语义进行上下文感知融合,提高长文本内容自动分类的准确度;采用误差反馈机制动态调整分类阈值,从而实现长文本内容自动分类的阈值优化。本发明主要用于对互联网长文本的内容进行自动分类和阈值优化。
-
公开(公告)号:CN116702094B
公开(公告)日:2023-12-22
申请号:CN202310957274.9
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN115188039A
公开(公告)日:2022-10-14
申请号:CN202210586229.2
申请日:2022-05-27
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于图像频域信息的深度伪造视频技术溯源方法,对输入深度伪造视频进行抽帧;将抽出的图像利用RetinaFace人脸检测模型检测人脸图像,并进行人脸对齐和缩放;将裁出的人脸图像利用离散余弦傅里叶变换,裁剪算法和离散余弦傅里叶反变换获得其对应的高频频域特征;将原始人脸RGB信息和高频频域信息进行特征融合,得到融合特征;采用Xception作为主干网络进一步提取融合特征,得到对应的分类特征实现深度伪造视频技术溯源结果。本发明提高了对不同伪造技术的分类能力,提高了溯源准确率。
-
公开(公告)号:CN107992473B
公开(公告)日:2021-04-27
申请号:CN201711190871.4
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F16/35
Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
-
公开(公告)号:CN110134947B
公开(公告)日:2021-03-26
申请号:CN201910307654.1
申请日:2019-04-17
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提出一种基于不平衡多源数据的情感分类方法,包括:获取来自多个数据源的训练数据,其中训练数据包含多条文本数据,每条文本数据具有情感类型标签和其对应的数据源;按数据源对训练数据进行分类,以集合每个数据源对应的文本数据作为第一数据集,根据每个第一数据集中各情感类型标签的数量,统计每个第一数据集中情感类型的标准差,选择标准差最小的第一数据作为预训练集,其余第一数据集作为后续训练集;以预训练集训练神经网络模型的权值直到损失函数收敛,输出神经网络模型作为预分类模型,以后续训练集继续训练预分类模型直到损失函数收敛,输出预分类模型作为最终分类模型;将待情感分类文本数据输入最终分类模型,得到其情感类型。
-
公开(公告)号:CN108959351A
公开(公告)日:2018-12-07
申请号:CN201810377825.3
申请日:2018-04-25
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/2785 , G06N3/0481
Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。
-
公开(公告)号:CN107992473A
公开(公告)日:2018-05-04
申请号:CN201711190871.4
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
-
公开(公告)号:CN117149949B
公开(公告)日:2024-12-17
申请号:CN202311059658.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/23
Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。
-
-
-
-
-
-
-
-
-