基于两两对齐的多语种句对齐方法及装置

    公开(公告)号:CN103617160B

    公开(公告)日:2017-02-08

    申请号:CN201310674134.7

    申请日:2013-12-11

    Abstract: 基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。

    一种基于相似度匹配的枢轴语言翻译方法和装置

    公开(公告)号:CN103605644A

    公开(公告)日:2014-02-26

    申请号:CN201310636884.5

    申请日:2013-12-02

    Abstract: 一种基于相似度匹配的枢轴语言翻译方法和装置,本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联,建立源语言-目标语翻译规则库,通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。

    自适应个性化信息检索系统及方法

    公开(公告)号:CN102779193A

    公开(公告)日:2012-11-14

    申请号:CN201210244519.5

    申请日:2012-07-16

    Abstract: 自适应个性化信息检索系统及方法,涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉,伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,及根据特征矩阵获得训练参数预测模型的数据输入子系统;用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;用于以预测参数组织当前查询、历史查询和历史点击,及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统;和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果,根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。

    一种基于样例反馈的大语言模型自动提示优化方法

    公开(公告)号:CN120067241A

    公开(公告)日:2025-05-30

    申请号:CN202510107858.6

    申请日:2025-01-23

    Abstract: 本发明公开了一种基于样例反馈的大语言模型自动提示优化方法,属于大语言模型提示优化技术领域。解决了现有技术中传统的提示优化方法难以实现自动化调优的问题;本发明构建基于大语言模型的提示优化模块,输入预处理后的输入数据,对其进行基于样例反馈的提示优化,得到修改后的提示;构建基于大语言模型的提示精简模块,对修改后的提示中的超长提示进行精简和改写,得到更新后的提示,传输至提示优化模块进行迭代,得到优化后的提示;构建基于大语言模型的局部搜索模块,对优化后的提示进行局部搜索与调优,得到最优提示。本发明有效提升了针对提示优化的大语言模型的性能,可以应用于采用大语言模型进行自动提示优化。

    一种基于RAG的大模型机器翻译方法

    公开(公告)号:CN117993396B

    公开(公告)日:2024-11-12

    申请号:CN202410091557.4

    申请日:2024-01-23

    Abstract: 本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域,本发明对原始语言序列分词处理,对语言序列嵌入表示转化,基于同语言建立翻译资料库;基于翻译需求,对原始语言进行拆分,进行原文嵌入表示获取;基于原文嵌入表示与翻译资料库,进行相似度计算;根据相似度计算获取和需求接近的翻译示例,结合翻译示例和大模型,生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文,在特定领域翻译和翻译风格化上有着很好的效果。

    一种基于预训练的字音字形知识增强的中文拼写纠正方法

    公开(公告)号:CN114970503B

    公开(公告)日:2024-10-29

    申请号:CN202210598799.3

    申请日:2022-05-30

    Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。

    基于任务链的大模型语病纠错方法、设备和存储介质

    公开(公告)号:CN118747497A

    公开(公告)日:2024-10-08

    申请号:CN202410884233.6

    申请日:2024-07-03

    Abstract: 基于任务链的大模型语病纠错方法、设备和存储介质,属于语言信息处理技术领域,解决基于大语言模型的语病纠错正确性低问题。本发明方法包括:在输出中找出与输入原句子对应的信息类型,信息类型包括语病范围、语病类型和纠错方式三种类型;对不同粒度的语病范围进行标注,针对每种语病类型,计算自动标注的语病范围与人工标注的语病范围之间的相似性分数,选择相似性分数最高的标注粒度作为最终的语病范围标注结果;将训练集中的所有样本随机排序,按照样本的顺序,将每个样本的三条指令数据加入到训练队列中,依次使用每条指令数据对大语言模型进行指令微调;利用指令微调后的大语言模型进行语病纠错。本发明适用于基于大语言模型的语病纠错。

Patent Agency Ranking