-
公开(公告)号:CN118568257A
公开(公告)日:2024-08-30
申请号:CN202410583477.0
申请日:2024-05-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种文本分类方法、装置、设备及存储介质。利用微调好的语言表示模型,对待分类文本中的语句进行处理,得到待分类文本的单词向量表示;从待分类文本的单词向量表示中获取具有语义关联关系的单词向量表示对,构建待分类文本的待处理图结构;利用预先训练的图卷积网络,对待分类文本的待处理图结构进行处理,得到待分类文本的向量表示矩阵;对待分类文本的向量表示矩阵进行分类处理,得到待分类文本的目标类别。这样,联合应用微调好的语言表示模型的表示学习能力和预先训练的图卷积网络的传导学习能力,能够提高文本分类的泛化能力,同时,结合微调好的语言表示模型对语境和语义的分析能力,提高了文本分类的精度。
-
公开(公告)号:CN117556043A
公开(公告)日:2024-02-13
申请号:CN202311490975.2
申请日:2023-11-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/30 , G06F40/253 , G06F40/216 , G06N3/0455
Abstract: 本公开涉及一种热点话题提取方法、装置、电子设备及存储介质。其中,热点话题提取方法包括:获取目标文本;获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量;基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性;基于主题相似度和主题一致性,对多个主题进行合并处理,得到至少一个主题簇;计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,由此,能够在进行热点话题提取时考虑到文本中各个词语之间的语义和语法关联性,提高了提取的热点话题的准确性。
-
公开(公告)号:CN117131190A
公开(公告)日:2023-11-28
申请号:CN202310856800.2
申请日:2023-07-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9535 , G06Q50/00 , G06N3/047 , G06F40/289
Abstract: 本发明涉及文本分类的技术领域,特别是涉及一种基于序贯神经网络模型的社交媒体用户文本分类方法,通过用户分类关键词、训练集数据和序贯模板模型构建社交媒体用户分类序贯神经网络模型,对采集的用户社交媒体发文文本进行相关特征提取,根据社交媒体中文用户分类序贯神经网络模型返回的权重值对用户进行分类;包括以下步骤:首先搜寻典型用户的post文本,收集相关关键词和停用词分别创建关键词词库和停用词词库,通过关键词词库和停用词词库结合典型用户文本构建神经网络训练矩阵,根据训练集和序贯模型创建神经网络模型,然后对采集到的中文用户post文本进行处理,最后通过序贯神经网络模型判定出用户的类型。
-
公开(公告)号:CN111597333B
公开(公告)日:2022-08-02
申请号:CN202010343965.6
申请日:2020-04-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9535 , G06F40/30 , G06F40/289 , G06Q50/26
Abstract: 本发明公开一种面向区块链领域的事件与事件要素抽取方法及装置,该方法包括:步骤一、基于区块链关键词图的web文本聚类,得到区块链文本聚合词图;步骤二、基于所述的区块链文本聚合词图,构建图注意力机制的图表示学习的事件及其要素抽取方法;首先以区块链文本聚合词图作为输入,基于图注意力模型GAT的深度学习模型进行词的表示学习,以事件及其要素进行抽取的模型训练直到模型收敛;基于收敛的模型实现Tensorflow的后台接口,而对于新的待抽取的文本通过该后台接口进行预测,返回输出的抽取值。本发明可以准确提取事件及其事件要素。
-
公开(公告)号:CN113254632B
公开(公告)日:2022-07-22
申请号:CN202110437683.7
申请日:2021-04-22
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。
-
公开(公告)号:CN114417211A
公开(公告)日:2022-04-29
申请号:CN202111319929.7
申请日:2021-11-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/9536 , G06Q50/00
Abstract: 本发明公开了一种面向社交平台的数据采集方法,包括:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。本发明公开了面向社交平台的数据采集系统,包括:Web数据采集模块、APP数据采集模块和双终端数据对齐融合模块。本发明的方法与系统同时适用于Web端和APP端的社交平台数据采集,能够获得全量的社交平台数据。
-
公开(公告)号:CN110442421B
公开(公告)日:2022-04-01
申请号:CN201910578655.X
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/455
Abstract: 本发明提出一种基于Kubernetes的通用服务转换方法和系统,包括:构建由多个节点构成的Kubernetes系统,其中节点的Pod设有用于提供服务的原服务容器,并通过在Pod中新添加容器的方式或通过原容器镜像的方式,在节点的Pod中加入转换程序;每当发生一次服务调用请求,转换容器或程序根据配置,将服务调用请求转换为原服务执行请求,通过调用原服务容器,提供相对应的服务,并转换成该服务调用请求所对应的服务结果。本发明可解决Kubernetes服务与调用者之间接口不一致的问题;并可减少转换程序与服务程序、调用程序之间的网络开销,同时结合Kubernetes特性,服务程序重新部署时,转换程序自动跟随部署。
-
公开(公告)号:CN108628828B
公开(公告)日:2022-04-01
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F40/30 , G06F40/289 , G06F16/35
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self‑attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN113312478A
公开(公告)日:2021-08-27
申请号:CN202110445975.5
申请日:2021-04-25
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06F40/216 , G06N5/02
Abstract: 本发明公开了基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;从待抽取事件文本中抽取事件观点文本;将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场;以及,基于阅读理解的观点挖掘装置。本发明具有使观点挖掘结果更加准确的优点。
-
公开(公告)号:CN113254632A
公开(公告)日:2021-08-13
申请号:CN202110437683.7
申请日:2021-04-22
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了基于事件检测技术的时间线摘要自动生成方法,包括:S10、将新闻文本集合进行聚类,得到新闻事件的子事件文档集合,每个子事件文档集合对应一个子事件;S20、获取每个子事件文档集合的摘要;S30、对所述子事件进行筛选,自动确定时间线摘要长度L′,以及对应的L′个子事件;S40、获取所述L′个子事件对应的子事件文档集合的摘要,按照日期先后顺序对所述摘要进行排序,输出带有时间戳的摘要序列。以及,基于事件检测技术的时间线摘要自动生成装置,电子设备和存储介质。本发明具有能自动确定时间线摘要的长度,灵活性强,能够处理动态变化的新闻事件等优点。
-
-
-
-
-
-
-
-
-