-
公开(公告)号:CN108549718B
公开(公告)日:2019-10-18
申请号:CN201810368425.6
申请日:2018-04-23
Applicant: 南京大学
Abstract: 本发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。
-
公开(公告)号:CN107506823B
公开(公告)日:2020-11-13
申请号:CN201710725762.1
申请日:2017-08-22
Applicant: 南京大学
IPC: G06N3/04 , G06F16/332 , G06F40/211 , G06F40/284
Abstract: 本发明公开了一种用于对话生成的混合神经网络模型的构建方法,包括以下步骤:获取形式为对话语句对的数据集并构建词汇表;生成词嵌入表;初始化特定结构的卷积神经网络,生成对应输入语句的词汇推荐表,判断是否提供了真实输出,若有提供则训练本步中的卷积神经网络的参数;初始化特定结构的循环神经网络,使用上步输出,生成具有语序的词汇标识列表,判断是否提供了真实输出,若有提供则训练本步中的循环神经网络的参数;训练结果满足设定指标后,保存词汇表和词嵌入表,保存卷积神经网络和循环神经网络的参数,即为构建整个模型完毕。本发明解决现有的神经网络对话模型因词汇表长度过大导致的训练速度慢、准确率低、生成语句一般化等问题。
-
公开(公告)号:CN108549718A
公开(公告)日:2018-09-18
申请号:CN201810368425.6
申请日:2018-04-23
Applicant: 南京大学
Abstract: 本发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。
-
公开(公告)号:CN108763207A
公开(公告)日:2018-11-06
申请号:CN201810493178.2
申请日:2018-05-22
Applicant: 南京大学
IPC: G06F17/27
CPC classification number: G06F17/2785
Abstract: 本发明公开了一种LDA主题模型优化采样方法,包括以下步骤:第一步,确定主题数目,并随机初始化每个单词的主题;第二步,对所有文档构建“词项‑文档”倒排索引;第三步,对吉布斯采样公式进行分解;第四步,确定迭代轮数,分轮迭代。每一轮迭代可分为以下四步:第一步,对采样公式第一部分构建AliasTable;第二步,对采样公式第二部分构建SparseAliasTable;第三步,对采样公式第三部分构建累积分布;第四步,根据采样公式对词项进行采样,得到新的主题并更新主题参数。本发明可以显著降低LDA主题模型采样方法的计算复杂度和采样复杂度,解决了现有采样方法模型学习质量低、模型收敛速度慢等问题。
-
公开(公告)号:CN107506823A
公开(公告)日:2017-12-22
申请号:CN201710725762.1
申请日:2017-08-22
Applicant: 南京大学
Abstract: 本发明公开了一种用于对话生成的混合神经网络模型的构建方法,包括以下步骤:获取形式为对话语句对的数据集并构建词汇表;生成词嵌入表;初始化特定结构的卷积神经网络,生成对应输入语句的词汇推荐表,判断是否提供了真实输出,若有提供则训练本步中的卷积神经网络的参数;初始化特定结构的循环神经网络,使用上步输出,生成具有语序的词汇标识列表,判断是否提供了真实输出,若有提供则训练本步中的循环神经网络的参数;训练结果满足设定指标后,保存词汇表和词嵌入表,保存卷积神经网络和循环神经网络的参数,即为构建整个模型完毕。本发明解决现有的神经网络对话模型因词汇表长度过大导致的训练速度慢、准确率低、生成语句一般化等问题。
-
-
-
-