一种基于相似度匹配的枢轴语言翻译方法和装置

    公开(公告)号:CN103605644A

    公开(公告)日:2014-02-26

    申请号:CN201310636884.5

    申请日:2013-12-02

    Abstract: 一种基于相似度匹配的枢轴语言翻译方法和装置,本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联,建立源语言-目标语翻译规则库,通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。

    自适应个性化信息检索系统及方法

    公开(公告)号:CN102779193A

    公开(公告)日:2012-11-14

    申请号:CN201210244519.5

    申请日:2012-07-16

    Abstract: 自适应个性化信息检索系统及方法,涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉,伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,及根据特征矩阵获得训练参数预测模型的数据输入子系统;用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;用于以预测参数组织当前查询、历史查询和历史点击,及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统;和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果,根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。

    一种基于RAG的大模型机器翻译方法

    公开(公告)号:CN117993396B

    公开(公告)日:2024-11-12

    申请号:CN202410091557.4

    申请日:2024-01-23

    Abstract: 本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域,本发明对原始语言序列分词处理,对语言序列嵌入表示转化,基于同语言建立翻译资料库;基于翻译需求,对原始语言进行拆分,进行原文嵌入表示获取;基于原文嵌入表示与翻译资料库,进行相似度计算;根据相似度计算获取和需求接近的翻译示例,结合翻译示例和大模型,生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文,在特定领域翻译和翻译风格化上有着很好的效果。

    一种基于预训练的字音字形知识增强的中文拼写纠正方法

    公开(公告)号:CN114970503B

    公开(公告)日:2024-10-29

    申请号:CN202210598799.3

    申请日:2022-05-30

    Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。

    基于任务链的大模型语病纠错方法、设备和存储介质

    公开(公告)号:CN118747497A

    公开(公告)日:2024-10-08

    申请号:CN202410884233.6

    申请日:2024-07-03

    Abstract: 基于任务链的大模型语病纠错方法、设备和存储介质,属于语言信息处理技术领域,解决基于大语言模型的语病纠错正确性低问题。本发明方法包括:在输出中找出与输入原句子对应的信息类型,信息类型包括语病范围、语病类型和纠错方式三种类型;对不同粒度的语病范围进行标注,针对每种语病类型,计算自动标注的语病范围与人工标注的语病范围之间的相似性分数,选择相似性分数最高的标注粒度作为最终的语病范围标注结果;将训练集中的所有样本随机排序,按照样本的顺序,将每个样本的三条指令数据加入到训练队列中,依次使用每条指令数据对大语言模型进行指令微调;利用指令微调后的大语言模型进行语病纠错。本发明适用于基于大语言模型的语病纠错。

    一种基于LoRA嵌入的指令数据挖掘方法和系统

    公开(公告)号:CN117556251A

    公开(公告)日:2024-02-13

    申请号:CN202311332989.1

    申请日:2023-10-16

    Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。

    一种基于语义特征的中文儿童故事生成方法

    公开(公告)号:CN116681080A

    公开(公告)日:2023-09-01

    申请号:CN202310544489.8

    申请日:2023-05-16

    Abstract: 本发明提出一种基于语义特征的中文儿童故事生成方法。所述方法包括构建中文儿童故事数据集;将儿童故事作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;将关键词或者儿童故事开头输入模型;模型通过自编码迭代生成预先设定长度的中文儿童故事。本发明可以在给定关键词或故事开头的情况下,自动生成完整的儿童故事,无需人工处理。本发明可以用于创作儿童故事。

Patent Agency Ranking