一种基于相似度匹配的枢轴语言翻译方法和装置

    公开(公告)号:CN103605644B

    公开(公告)日:2017-02-01

    申请号:CN201310636884.5

    申请日:2013-12-02

    Abstract: 一种基于相似度匹配的枢轴语言翻译方法和装置,本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联,建立源语言-目标语翻译规则库,通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。

    基于样本重要性的自动机器翻译领域自适应方法

    公开(公告)号:CN105550174A

    公开(公告)日:2016-05-04

    申请号:CN201511023540.2

    申请日:2015-12-30

    CPC classification number: G06F17/289

    Abstract: 基于样本重要性的自动机器翻译领域自适应方法,本发明涉及语言翻译领域,具体涉及一种自动机器翻译领域的自适应方法。为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题,本发明首先对训练样本添加权重,然后通过统计的方法得到训练样本源语言句子的一元词频分布,使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率并建立样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;依据短语对及其翻译概率生成基于样本权重向量的翻译规则,提高翻译系统领域适应性;能够得到具有领域适应能力的翻译系统。本发明适用于语言翻译领域。

    基于人名起源分类的人名音译方法

    公开(公告)号:CN103020046A

    公开(公告)日:2013-04-03

    申请号:CN201210566217.X

    申请日:2012-12-24

    CPC classification number: G06F17/28 G06F17/2863

    Abstract: 基于人名起源分类的人名音译方法,它涉及一种翻译系统。本发明解决了中英人名音译中不同起源国家人名的音译模式不一致问题。本方法如下:一、人名起源分类;二、线性插值系统融合。本发明提出的方法将logistic多分类回归模型应用到人名起源分类中,并根据人名构成用字特征的特征模板进行人名起源分类;对于每一种起源的人名类别训练一个特定的音译(翻译)模型,再对多个音译模型的结果进行系统融合,实现双语人名互译。

    一种动态多文档文摘建模方法

    公开(公告)号:CN102254011A

    公开(公告)日:2011-11-23

    申请号:CN201110200590.9

    申请日:2011-07-18

    Abstract: 一种动态多文档文摘建模方法,涉及一种动态多文档文摘建模方法。本发明是要解决传统的多文档摘要方法难以全局性地把握当前主题下的各个信息侧面的内容、分布以及关联情况,而造成大量摘要片段来自同一个子主题的现象,从而严重影响摘要的全面性的问题。具体步骤:文档集合的预处理;建立特征抽取模块;建立信息过滤模块;建立句子加权模块;建立文摘生成模块,生成最佳文摘;使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。本发明的方法使动态演化的文摘具有较高的信息新颖性和历史信息的演化性,进而提高动态文摘的性能。本发明方法获得的文摘全面性更高。应用于文摘抽取领域。

    多语言信息检索一体化检索方法

    公开(公告)号:CN101763402A

    公开(公告)日:2010-06-30

    申请号:CN200910217462.8

    申请日:2009-12-30

    Abstract: 多语言信息检索一体化检索方法,涉及多语言信息检索方法,解决了现有分离模式的多语言信息检索造成的源语言信息流失、带来大量噪声和检索结果准确性低地问题,具体步骤如下:一、将用户输入的源语言查询关键词翻译成目标语言的关键词;二、目标语言的关键词根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式:精确匹配模式、共现模式和独立模式;三、求得在查询文档D中精确匹配模式的条件概率,共现模式的条件概率,独立模式的条件概率;四、计算在查询文档D中的文档生成查询概率;五、计算源语言查询关键词和查询文档特征向量的相似性;六、计算多语言信息检索的条件概率;七、返回检索结果。本发明适用于跨语言信息检索。

    一种在不对大语言模型进行微调的情况下提升其在社交领域表现的方法

    公开(公告)号:CN120012931A

    公开(公告)日:2025-05-16

    申请号:CN202510092521.2

    申请日:2025-01-21

    Abstract: 本发明公开了一种在不对大语言模型进行微调的情况下提升其在社交领域表现的方法,属于大语言模型优化技术领域。解决了现有技术中传统的大语言模型在社交领域下生成文本社交质量较差的问题;本发明包括以下步骤:S1.构建大语言模型,采集待生成评论语料及其对应的社交领域语料;S2.通过分析社交领域语料筛选出最高质量的文本,结合向量检索库构建主流社交语言的知识库;S3.通过知识库提升大语言模型性能,将当前待生成评论语料输入大语言模型,输出适合社交环境的生成文本。本发明有效提升了大语言模型在社交领域输出的生成文本的社交质量,且无需对大语言模型自身进行微调,可以应用于通过大语言模型发言。

    一种基于混合专家架构的大语言模型自适应多偏好对齐方法及系统

    公开(公告)号:CN119783748A

    公开(公告)日:2025-04-08

    申请号:CN202411977917.7

    申请日:2024-12-31

    Abstract: 一种基于混合专家架构的大语言模型自适应多偏好对齐方法及系统,涉及人工智能领域。解决了现有技术中需要一种拥有自适应能力的多偏好混合方法促使多偏好研究的落地的问题。所述方法包括:在大语言模型上添加已设计的基于混合专家架构的偏好混合模块;冻结大语言模型中主干网络参数,调节偏好混合模块,获得已合成的偏好数据;确定偏好对齐算法,基于已合成的偏好数据,将分组软损失与偏好对齐算法中的损失函数相结合,获得目标损失函数;使用收集包含多种偏好的的数据集,基于所获得的目标损失函数对大语言模型进行训练,获得偏好平衡的大语言模型。还适用于硬件计算能力的增强和算法改进领域。

    一种基于自学习策略的专利成果转化推荐方法及装置

    公开(公告)号:CN117574874B

    公开(公告)日:2025-03-04

    申请号:CN202311396268.7

    申请日:2023-10-25

    Abstract: 一种基于自学习策略的专利成果转化推荐方法及装置,方法包括:获取专利数据集;从每个企业的专利中各抽取一件专利,组成训练集;采用多种方法计算所述训练集中每件专利的摘要文本与所述数据集中剩余专利的摘要文本的相似度;根据采用预设方法计算得到的所述相似度,将所述数据集中剩余专利按照降序排列,得到前m件专利组成样本组,每个样本的样本特征为采用多种方法计算得到的多个所述相似度;基于所述样本组对支持向量机排序模型进行训练;获取待转化专利文本,将所述待转化专利文本输入所述支持向量机排序模型,得到推荐企业结果;该方法不需要人工标注数据,且采用多种方法计算相似度,推荐结果准确率高。

    一种基于思维链的大模型机器翻译强化方法、系统、设备及介质

    公开(公告)号:CN118114686B

    公开(公告)日:2024-10-18

    申请号:CN202410157029.4

    申请日:2024-02-04

    Abstract: 一种基于思维链的大模型机器翻译强化方法、系统、设备及介质,属于机器翻译技术领域,解决了大语言模型在执行训练数据之外或者低资源、特殊领域的翻译任务时翻译效果不好,如果对模型微调,使其继续适应需求,会带来更庞大的计算资源,难以实施的问题。所述方法包括:S1:构建领域知识库,将待翻译原文输入到所述领域知识库中,获得领域知识;S2:构建大语言模型,将待翻译原文和所述领域知识输入到所述大语言模型中,对所述领域知识进行增强,获得增强后的领域知识;S3:根据待翻译原文和增强后的领域知识,构建prompt;S4:采用大语言模型,结合所述prompt,对待翻译原文进行翻译,获得多个翻译结果。本发明适用于各种特定领域的大批量文本翻译场景。

Patent Agency Ranking