-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN109977227B
公开(公告)日:2021-06-22
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/289 , G06F40/12 , G06N3/00 , G06N3/12
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN110083699A
公开(公告)日:2019-08-02
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN109977227A
公开(公告)日:2019-07-05
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN116306649A
公开(公告)日:2023-06-23
申请号:CN202310181570.4
申请日:2023-02-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/284 , G06F40/242
Abstract: 本发明提供一种词向量的生成方法、装置、电子设备及存储介质,该方法包括:获取至少一个目标词,所述目标词包括所述词典中的至少一个第一词汇,和/或,所述知识库中的至少一个头实体,所述知识库中包括至少两个用于表示知识的三元组数据;确定各所述目标词对应的至少一个释义词,所述释义词包括用于解释所述第一词汇的第二词汇,和/或,所述头实体对应的关系和尾实体;基于所述目标词和所述释义词,确定词向量矩阵,所述词向量矩阵的每一行表示一个词向量,所述词向量用于表征所述目标词或所述释义词的语义信息。本发明提供的词向量的生成方法、装置、电子设备及存储介质可以增强词向量的可解释性。
-
公开(公告)号:CN109325524A
公开(公告)日:2019-02-12
申请号:CN201811014739.2
申请日:2018-08-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备,旨在提高计算效率。本发明的方法包括:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;然后进行话题聚类,选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间;以起始发布时间为起点,绘制待追踪事件在单位时间内的信息量随时间变化的曲线,再进行等时间间隔采样,绘制出平滑后的演化包络线;求出极大值点的个数,进而计算出变化阶段的个数;计算出极大值点和极小值点;在每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。本发明提升了算法的效率,降低了时间复杂度、阈值依赖和形状依赖。
-
公开(公告)号:CN112417102A
公开(公告)日:2021-02-26
申请号:CN202011348511.4
申请日:2020-11-26
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
Abstract: 本发明实施例提供了一种语音查询方法、装置、服务器和可读存储介质,其中方法包括:获取待处理音频,对所述待处理音频进行语音识别,得到目标字符文本;将所述目标字符文本转换为第一拼音文本,根据字典和所述第一拼音文本,确定所述目标字符文本的目标关键词,所述字典中包含多个关键词以及与每个关键词对应的词组拼音;生成包含所述目标关键词的查询语句,在知识图谱中根据所述查询语句获取所述待处理音频的答案文本;输出所述答案文本,可以有效提高语义解析的准确率,进而提高了语音查询的有效性和准确性。
-
公开(公告)号:CN108804412A
公开(公告)日:2018-11-13
申请号:CN201810331227.2
申请日:2018-04-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/2785 , G06F17/2715 , G06F17/2735 , G06Q50/01
Abstract: 本发明涉及自然语言处理领域,提出了一种基于社会媒体的多层级情感分析方法,旨在解决社会媒体中文章灵活多变,训练数据缺失,难以在有限数据集上取得满意的情感分类效果的问题。该方法包括:获取待进行情感分析的社会媒体的文本信息;对上述文本信息进行情感特征分析,根据情感特征分析结果确定上述文本信息的情感。对于来自社会媒体的文章,从词语和篇章两个层级进行优化处理。在词语层级上,进行泛化情感词抽取,以自动化扩充领域词典;在篇章层级上,设计自学习机制,以自动扩充训练样本。本发明实现了对从词和篇章两个层级切入,对社会媒体情感分析中的情感词典和分析模型进行优化。
-
公开(公告)号:CN119808934A
公开(公告)日:2025-04-11
申请号:CN202411666076.8
申请日:2024-11-20
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06N3/0442 , G06Q50/00 , G06N3/042 , G06N3/0464 , G06N3/045 , G06F18/25 , G06F40/16
Abstract: 本发明提供一种基于大模型的社会世界模拟方法、系统以及电子设备,其中,上述方法包括:获取多模态社会事件信息;将社会事件信息输入至基于深度学习模型的事件提示词生成器,得到事件提示词;将事件提示词输入至预训练的多模态大模型,得到社会事件多模态特征;将社会时空信息输入至基于深度学习模型的时空提示词生成器,得到时空提示词;将时空提示词输入至预训练的大语言模型,得到社会事件时空特征;通过预训练的多模态大模型,对社会事件多模态特征与社会事件时空特征进行特征融合,得到事件嵌入向量;将事件嵌入向量对应的推理提示词输入至预训练的大语言模型,得到模拟社会事件集合。通过本发明能够提高社会事件模拟的效率与准确性。
-
公开(公告)号:CN118887029A
公开(公告)日:2024-11-01
申请号:CN202411397294.6
申请日:2024-10-09
Applicant: 中国科学院自动化研究所
IPC: G06Q50/00 , G06N3/006 , G06N3/042 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种基于大模型智能体的社会模拟方法、装置及设备,涉及社会计算技术领域,包括:基于智能体建模规则,构建社会模拟智能体模型;利用采集的数据对所述社会模拟智能体模型进行训练,得到训练完成的社会模拟智能体模型;设置所述训练完成的社会模拟智能体模型的模拟参数,生成智能体交互内容。从互联网采集相关数据,包括网络社交数据以及社会事件数据等,并基于此构建一组异构大模型智能体,实现对可演化的真实社会情境的建模,生成动态、有针对性、个性化的社会交互内容,在社会环境和社会交互的模拟的基础上,模拟社会事件影响的传播机制,以实现对未来传播趋势的预测。
-
-
-
-
-
-
-
-
-