-
公开(公告)号:CN114328856A
公开(公告)日:2022-04-12
申请号:CN202111409606.7
申请日:2021-11-25
Applicant: 北京理工大学
IPC: G06F16/332 , G06F40/58
Abstract: 本发明涉及一种面向文本翻译人员的关键词提示方法,属于计算机应用和计算机辅助翻译技术领域。本发明首先将输入序列转换为词向量序列,再将词向量序列通过自注意力神经网络编码器计算,得到输入的源语言句子中每个单词的重要性得分。将得分经过最大最小值缩放后,作为最终得分。最终标注出输入源语言句子各个单词的重要性,用于提示翻译人员重点关注重要词汇。本方法通过事先对输入源语言单词进行重要性标注,以提示翻译人员重点关注这些词汇,避免错译、漏译情况发生,提升翻译准确度。同时,翻译校对人员也可以利用本方法提升校对工作的效率。
-
公开(公告)号:CN111401053A
公开(公告)日:2020-07-10
申请号:CN202010178856.3
申请日:2020-03-15
Applicant: 北京理工大学
IPC: G06F40/284 , G06F40/216 , G06F40/30 , G06F16/35
Abstract: 本发明涉及一种基于词组的概念化主题建模方法,属于自然语言处理中的文本挖掘领域。包括1)挖掘文本语料中的词组;2)从概念知识库获取概念和实体关系;3)设置主题数、Dirichlet分布先验参数及最大迭代次数N;4)随机为每篇文档的每个词组中的词分配概念;5)随机地为每个词组的概念分配相同的主题;6)通过Gibbs采样方法迭代N次,更新概念和主题分配;7)计算文档-主题分布θ和主题-概念分布φ的估计值;8)得出每篇文档中不同主题的占比;9)得出每个主题中不同概念的占比,并结合概念知识库对挖掘出的主题进行解释。所述方法使主题模型在挖掘文本语料主题的过程中,深入理解文本的含义,增强了主题挖掘的语义完整性。
-
公开(公告)号:CN108363704A
公开(公告)日:2018-08-03
申请号:CN201810175915.4
申请日:2018-03-02
Applicant: 北京理工大学
Abstract: 一种基于统计短语表的神经网络机器翻译语料扩展方法,属于机器翻译技术领域。本发明针对神经网络机器翻译技术提出了一种基于统计短语表的机器翻译语料扩展方法,可以在机器翻译原始训练集的基础上有效扩展语料规模;本方法主要包含:训练集扩展阶段和模型训练阶段;阶段一通过统计机器学习方法从原始训练集中学习短语表并将其按照一定的过滤规则与原始训练集融合成新的扩展后的训练集,阶段二对神经机器翻译模型进行训练,先通过扩展后的训练集进行预训练,再由原始训练集进行训练以调优,得到最终模型;实验结果表明,本发明与不使用语料扩展方法的机器翻译模型相比,BLEU测评指标明显提升。
-
公开(公告)号:CN114328856B
公开(公告)日:2024-08-27
申请号:CN202111409606.7
申请日:2021-11-25
Applicant: 北京理工大学
IPC: G06F16/332 , G06F40/58
Abstract: 本发明涉及一种面向文本翻译人员的关键词提示方法,属于计算机应用和计算机辅助翻译技术领域。本发明首先将输入序列转换为词向量序列,再将词向量序列通过自注意力神经网络编码器计算,得到输入的源语言句子中每个单词的重要性得分。将得分经过最大最小值缩放后,作为最终得分。最终标注出输入源语言句子各个单词的重要性,用于提示翻译人员重点关注重要词汇。本方法通过事先对输入源语言单词进行重要性标注,以提示翻译人员重点关注这些词汇,避免错译、漏译情况发生,提升翻译准确度。同时,翻译校对人员也可以利用本方法提升校对工作的效率。
-
公开(公告)号:CN111401053B
公开(公告)日:2021-12-24
申请号:CN202010178856.3
申请日:2020-03-15
Applicant: 北京理工大学
IPC: G06F40/284 , G06F40/216 , G06F40/30 , G06F16/35
Abstract: 本发明涉及一种基于词组的概念化主题建模方法,属于自然语言处理中的文本挖掘领域。包括1)挖掘文本语料中的词组;2)从概念知识库获取概念和实体关系;3)设置主题数、Dirichlet分布先验参数及最大迭代次数N;4)随机为每篇文档的每个词组中的词分配概念;5)随机地为每个词组的概念分配相同的主题;6)通过Gibbs采样方法迭代N次,更新概念和主题分配;7)计算文档‑主题分布θ和主题‑概念分布φ的估计值;8)得出每篇文档中不同主题的占比;9)得出每个主题中不同概念的占比,并结合概念知识库对挖掘出的主题进行解释。所述方法使主题模型在挖掘文本语料主题的过程中,深入理解文本的含义,增强了主题挖掘的语义完整性。
-
公开(公告)号:CN109460483B
公开(公告)日:2021-05-04
申请号:CN201811123947.6
申请日:2018-09-26
Applicant: 北京理工大学
IPC: G06F16/53 , G06F16/951 , G06K9/62 , G06N3/08
Abstract: 本发明涉及一种基于深度注意力机制的图片新闻封面自动选择方法,属于计算机应用技术领域。本方法通过对训练集中的图片进行特征提取,将输入的图片表示成向量,将其作为深度注意力模型的输入,输出为同一条新闻所有图片的注意力值的加权平均;用该加权平均的值和图片的向量表示作为输入,训练一个分类器,通过开发集调整模型的参数。与现有方法相比,本发明方法在不需要人工干预的情况下,可以为图片新闻自动选择封面,可以为工作人员节省很多时间和精力,也可以为传媒公司节约成本。此外,在训练集、开发集和测试集数据相同的情况下,本发明与基于随机算法的图片新闻封面选择方法和基于SVM的图片新闻封面选择方法相比,准确率评测指标有明显提升。
-
公开(公告)号:CN109460483A
公开(公告)日:2019-03-12
申请号:CN201811123947.6
申请日:2018-09-26
Applicant: 北京理工大学
IPC: G06F16/53 , G06F16/951 , G06K9/62 , G06N3/08
Abstract: 本发明涉及一种基于深度注意力机制的图片新闻封面自动选择方法,属于计算机应用技术领域。本方法通过对训练集中的图片进行特征提取,将输入的图片表示成向量,将其作为深度注意力模型的输入,输出为同一条新闻所有图片的注意力值的加权平均;用该加权平均的值和图片的向量表示作为输入,训练一个分类器,通过开发集调整模型的参数。与现有方法相比,本发明方法在不需要人工干预的情况下,可以为图片新闻自动选择封面,可以为工作人员节省很多时间和精力,也可以为传媒公司节约成本。此外,在训练集、开发集和测试集数据相同的情况下,本发明与基于随机算法的图片新闻封面选择方法和基于SVM的图片新闻封面选择方法相比,准确率评测指标有明显提升。
-
-
-
-
-
-