-
公开(公告)号:CN111159990B
公开(公告)日:2022-09-30
申请号:CN201911244936.8
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31
Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
-
公开(公告)号:CN111143553B
公开(公告)日:2023-04-07
申请号:CN201911244895.2
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/35 , G06F18/2415 , G06N3/045 , G06N3/09 , G06N3/047
Abstract: 本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统,侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别,并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流,识别出文本中隐含的特定信息。
-
公开(公告)号:CN111143553A
公开(公告)日:2020-05-12
申请号:CN201911244895.2
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
Abstract: 本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统,侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别,并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流,识别出文本中隐含的特定信息。
-
公开(公告)号:CN111159990A
公开(公告)日:2020-05-15
申请号:CN201911244936.8
申请日:2019-12-06
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31
Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
-
公开(公告)号:CN111078876A
公开(公告)日:2020-04-28
申请号:CN201911229492.0
申请日:2019-12-04
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/35
Abstract: 本发明提出了一种基于多模型集成的短文本分类方法,包括:选取多个对短文本进行分类的分类模型;对训练样本进行采样,生成与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
-
公开(公告)号:CN112115264A
公开(公告)日:2020-12-22
申请号:CN202010959524.9
申请日:2020-09-14
Applicant: 中国科学院计算技术研究所苏州智能计算产业技术研究院
Abstract: 本发明揭示了一种面向数据分布变化的文本分类模型调整方法,能够根据数据分布情况的变化,先对在线文本数据流进行标签预测,而后通过相似度计算和价值筛选,分类进行人工标注,采用对抗的训练样本数据集分别迭代训练判别网络,动态地对已训练好的识别网络模型进行调整和更新,使得离线模型自适应在线系统数据特征发生变化的情况;同时针对完全手动标注样本困难的情况提供一种有效的半自动化标注数据方法,对于文本分类技术的实际应用效果具有积极作用。
-
公开(公告)号:CN107145897A
公开(公告)日:2017-09-08
申请号:CN201710149488.8
申请日:2017-03-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于通信时空特征的演变网络特殊群体挖掘方法及系统,涉及通讯单社区发现技术领域,该方法包括步骤1,根据通信数据,获取时间特征数据与空间特征数据,其中所述空间特征数据为产生所述通信数据的地点;步骤2,按照所述时间特征数据与所述空间特征数据及通信关系,构建静态通信网络,并构建与所述静态通信网络相对应的拉普拉斯矩阵,计算矩阵特征向量,并对矩阵特征向量进行聚类,将聚类分为特殊群体和非特殊群体两种类簇,并获取聚类结果;步骤3,根据所述聚类结果,采取投票机制,获取最终特殊群体聚类结果。
-
公开(公告)号:CN107092651B
公开(公告)日:2020-07-24
申请号:CN201710149470.8
申请日:2017-03-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2458
Abstract: 本发明提出一种基于通信网络数据分析的关键人物挖掘方法及系统,该方法包括步骤1,获取通信记录并进行预处理,根据预处理后的通信记录构建有向加权通信网络,根据所述有向加权通信网络构建有权邻接矩阵,并计算权威值与枢纽值;步骤2,根据所述权威值,及所述有向加权通信网络中两节点链接边的权重,计算新权威值与新枢纽值;步骤3,设置异常特征参数α,并根据所述新权威值与所述新枢纽值,计算最终权威值,对所述最终权威值进行最大‑最小规范化,获得关键人物。本发明能够快速有效的获取通信网络中关键人物的信息,缩短关键人物发现时间,减少工作量。
-
公开(公告)号:CN107092651A
公开(公告)日:2017-08-25
申请号:CN201710149470.8
申请日:2017-03-14
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/2465
Abstract: 本发明提出一种基于通信网络数据分析的关键人物挖掘方法及系统,该方法包括步骤1,获取通信记录并进行预处理,根据预处理后的通信记录构建有向加权通信网络,根据所述有向加权通信网络构建有权邻接矩阵,并计算权威值与枢纽值;步骤2,根据所述权威值,及所述有向加权通信网络中两节点链接边的权重,计算新权威值与新枢纽值;步骤3,设置异常特征参数α,并根据所述新权威值与所述新枢纽值,计算最终权威值,对所述最终权威值进行最大‑最小规范化,获得关键人物。本发明能够快速有效的获取通信网络中关键人物的信息,缩短关键人物发现时间,减少工作量。
-
公开(公告)号:CN106960245A
公开(公告)日:2017-07-18
申请号:CN201710102269.4
申请日:2017-02-24
Applicant: 中国科学院计算技术研究所
CPC classification number: G06N5/022 , G06F16/2465 , G06F2216/03 , G06N7/005 , G06Q50/205
Abstract: 本发明提出一种基于认知过程链的个体知识评价方法及系统,该方法包括对数据进行预处理,对预处理后生成的数据集合进行初始化,根据初始化后的数据集合,训练BKT模型,其中所述初始化后的数据集合包括学习者集合、知识点集合以及学习者对应的知识点的应答结果序列;根据所述BKT模型,计算所述初始化后的数据集合中每个知识点的难度系数、每位学习者的认知能力;根据所述学习者对某个知识点的回答序列训练新BKT模型,将所述新BKT模型回代到每一次隐含状态的转移中,获取学习者已经掌握的知识点集合;根据所述难度系数以及所述认知能力构建目标知识集合,根据所述学习者已经掌握的知识点集合与所述目标知识集合计算学习者知识评价得分。
-
-
-
-
-
-
-
-
-