-
公开(公告)号:CN110059181A
公开(公告)日:2019-07-26
申请号:CN201910202727.0
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。
-
公开(公告)号:CN109800431B
公开(公告)日:2020-07-28
申请号:CN201910062802.8
申请日:2019-01-23
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F16/35
Abstract: 本发明属于计算机科学技术领域,尤其是涉及一种事件信息关键词提取、监控方法及系统及存储和处理装置,旨在为了解决解决无监督方法提取关键词效果不稳定的问题。本发明提取方法对于获取的待监控的事件信息,基于多种关键词提取技术提取并优选一组相关性很强的关键词作为第一关键词组,而后基于关键词在时域的发展演化选出最新的热点词汇作为第二关键词组,再后对同一时间段内的同一事件的不同报道进行聚类,提取各聚类的关键词合并后作为第三关键字组,最后合并三个关键词组并选定最终的关键词组合。本发明提高了系统的稳定性,同时兼顾了时域及同一事件不同侧面的发展方向。
-
公开(公告)号:CN110059181B
公开(公告)日:2021-06-25
申请号:CN201910202727.0
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。
-
公开(公告)号:CN109800431A
公开(公告)日:2019-05-24
申请号:CN201910062802.8
申请日:2019-01-23
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于计算机科学技术领域,尤其是涉及一种事件信息关键词提取方法、监控方法、及其系统和装置,旨在为了解决解决无监督方法提取关键词效果不稳定的问题。本发明提取方法对于获取的待监控的事件信息,基于多种关键词提取技术提取并优选一组相关性很强的关键词作为第一关键词组,而后基于关键词在时域的发展演化选出最新的热点词汇作为第二关键词组,再后对同一时间段内的同一事件的不同报道进行聚类,提取各聚类的关键词合并后作为第三关键字组,最后合并三个关键词组并选定最终的关键词组合。本发明提高了系统的稳定性,同时兼顾了时域及同一事件不同侧面的发展方向。
-
-
-