-
公开(公告)号:CN108664633B
公开(公告)日:2020-12-04
申请号:CN201810460235.7
申请日:2018-05-15
Applicant: 南京大学
IPC: G06F16/35 , G06F40/247
Abstract: 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。
-
公开(公告)号:CN108763367A
公开(公告)日:2018-11-06
申请号:CN201810473752.8
申请日:2018-05-17
Applicant: 南京大学
Abstract: 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。
-
公开(公告)号:CN108845994B
公开(公告)日:2020-05-01
申请号:CN201810582125.8
申请日:2018-06-07
Applicant: 南京大学
IPC: G06F40/58
Abstract: 本公开涉及利用外部信息的神经机器翻译系统及翻译系统的训练方法。利用外部信息的神经机器翻译系统包括:源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;目标端解码器神经网络,用于根据源端输入和外部信息输入,计算结合外部信息的翻译预测概率分布,根据结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。本公开提供的翻译系统,在翻译过程中输入外部信息,为翻译提供参考,有效提高了翻译效率;本公开提供的翻译系统的训练方法,能够适应考虑外部信息的神经机器翻译系统。
-
公开(公告)号:CN108845994A
公开(公告)日:2018-11-20
申请号:CN201810582125.8
申请日:2018-06-07
Applicant: 南京大学
IPC: G06F17/28
Abstract: 本公开涉及利用外部信息的神经机器翻译系统及翻译系统的训练方法。利用外部信息的神经机器翻译系统包括:源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;目标端解码器神经网络,用于根据源端输入和外部信息输入,计算结合外部信息的翻译预测概率分布,根据结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。本公开提供的翻译系统,在翻译过程中输入外部信息,为翻译提供参考,有效提高了翻译效率;本公开提供的翻译系统的训练方法,能够适应考虑外部信息的神经机器翻译系统。
-
公开(公告)号:CN108664633A
公开(公告)日:2018-10-16
申请号:CN201810460235.7
申请日:2018-05-15
Applicant: 南京大学
Abstract: 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。
-
公开(公告)号:CN115249317A
公开(公告)日:2022-10-28
申请号:CN202110379492.X
申请日:2021-04-08
Applicant: 南京大学
IPC: G06V10/774 , G06N3/08
Abstract: 本公开涉及一种生成图像描述信息的方法和装置。包括:获取待处理的目标图像;将所述目标图像输入图像描述模型,输出所述目标图像的描述信息,所述图像描述模型被设置为根据样本图像和样本图像的描述信息之间的对应关系训练得到,其中,利用强化学习算法对图像描述模型进行二次训练。本公开利用样本图像和样本图像的描述信息之间的对应关系训练得到图像描述模型,并利用强化学习算法对图像描述模型进行二次训练,能够优化图像描述模型,提高图像描述模型输出的描述信息的准确度和流畅度。
-
公开(公告)号:CN108717434B
公开(公告)日:2020-07-31
申请号:CN201810460253.5
申请日:2018-05-15
Applicant: 南京大学
IPC: G06F16/33
Abstract: 本发明公开了一种混合逐点策略和成对策略的文本排序方法,涉及一种在对句子,句法树等样本排序的过程中更好地利用样本之间的差异信息的排序方法,包括:逐点排序阶段,成对排序阶段。逐点排序阶段对样本进行打分并做第一次排序,并筛选出得分较高的候选,在这些候选基础上,进一步对其进行成对排序阶段,其中成对策略排序采用了一种编码、参照生成、对比、再编码、打分的流程,在参照过程中设计了一种基于跨度的节点加权方法,一种跨度和注意力机制相结合的方法,最后根据样本的基础得分和逐点排序得分,成对排序阶段得分进行综合排序。
-
公开(公告)号:CN112417132B
公开(公告)日:2023-11-17
申请号:CN202011492756.4
申请日:2020-12-17
Applicant: 南京大学
IPC: G06F16/335 , G06F16/38 , G06F40/284 , G06N3/084
Abstract: 本发明提供了一种利用谓宾信息筛选负样本的新意图识别方法,包括如下步骤:步骤1,输入意图标签和人工标注的正样本;步骤2,收集无标注的句子样本,计算无标注样本与意图标签的相似度,排序并筛选后作为用于后续训练意图识别模型的负样本;步骤3,结合正、负样本训练意图识别模型;步骤4,使用训练好的意图识别模型对用户输入进行预测。
-
公开(公告)号:CN112036174B
公开(公告)日:2023-11-07
申请号:CN201910407855.9
申请日:2019-05-15
Applicant: 南京大学
IPC: G06F40/289 , G10L15/26
Abstract: 本公开涉及一种标点标注方法及装置。包括:获取语音识别得到的动态文本,所述动态文本中包括至少一个词语;依次获取所述词语,并将所述词语输入至标注模型,经所述标注模型输出所述词语的预测标点;判断所述预测标点的置信度是否不小于预设值,若所述置信度不小于所述预设值,则在所述词语之后标注所述预测标点。本公开以字或词语作为最小的处理单元,首先通过预测模型对所述字或词进行标点预测,并通过判断置信度的方式,对预测的准确性进行校准,显著的缩短了从音频中出现某个字或词到输出标注结果的时延,输出结果实时性较高,且准确性较强,不需要对标注结果进行二次修正,用户体验好。
-
公开(公告)号:CN108763367B
公开(公告)日:2020-07-10
申请号:CN201810473752.8
申请日:2018-05-17
Applicant: 南京大学
IPC: G06F16/9536 , G06F40/30
Abstract: 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。
-
-
-
-
-
-
-
-
-