基于模板检索的文本到SQL生成方法

    公开(公告)号:CN115203236A

    公开(公告)日:2022-10-18

    申请号:CN202210836518.3

    申请日:2022-07-15

    Abstract: 基于模板检索的文本到SQL生成方法,涉及数据处理技术领域,针对现有技术中针对长度较长的SQL语句解码速度慢的问题,由于非自回归模型的并行性带来时间性能提升的同时,也存在一些缺陷,无法在生成阶段观察到目标序列的上下文信息,因此本申请通过模板检索和多次迭代生成,弥补了非自回归模型的不足,本申请的技术方案对于结构复杂,长度较长的SQL语句,解码速度较传统方式提升了50%以上。本申请技术方案的模板库具有可扩展性,易于迁移,且具有较快的生成速度。

    融入词语信息的中文拼写纠错方法

    公开(公告)号:CN115169331A

    公开(公告)日:2022-10-11

    申请号:CN202210850675.X

    申请日:2022-07-19

    Abstract: 融入词语信息的中文拼写纠错方法,涉及自然语言处理技术领域,针对现有技术中由于缺少词语信息,并不能对整个词都写错的词语进行纠错的问题,本申请在模型当中有效地引入了词语信息,增强了模型的语义表示能力,大幅提升了模型对整个词都写错的情况的纠错能力,提升了模型整体文本纠错能力。本申请在模型中引入专门的神经网络结构用于表示词语信息,并将每个字所在词的词语信息融入到字的表示当中,从而有效引入了词语信息,增强了模型的语义表示能力,大幅提升了模型对整个词都写错的情况的纠错能力,提升了模型整体文本纠错能力。

    基于预训练模型的语义检索方法和系统

    公开(公告)号:CN110309267B

    公开(公告)日:2021-05-25

    申请号:CN201910609351.5

    申请日:2019-07-08

    Abstract: 本发明提供一种基于预训练模型的语义检索方法和系统。该方法包括:采用标注数据对预训练语义表示模型进行训练,获得满足设定优化目标的经训练的预训练语义表示模型;将句子库中的句子输入到所述经训练的预训练语义表示模型,获得该句子库中句子的向量表示;对所述句子库中的句子的向量表示建立语义索引,获得句子库的语义索引;将待查询语句输入到所述经训练的预训练语义表示模型,获得待查询语句的向量表示;将所述待查询语句的向量表示和所述句子库的语义索引进行匹配,获得查询结果。本发明的方法和系统能够提高语义检索的准确率和效率。

    一种语义识别方法、装置、计算机设备和存储介质

    公开(公告)号:CN112052318A

    公开(公告)日:2020-12-08

    申请号:CN202010840252.0

    申请日:2020-08-18

    Abstract: 本申请公开了一种语义识别方法、装置、计算机设备和存储介质,可基于人工智能技术实现语义识别,通过语义识别模型可提取第一用户输入信息样本的文本特征信息,从而识别该样本的预测语义信息,基于该样本的标签和预测语义信息调整语义识别模型的参数;通过调整后的语义识别模型提取第二用户输入信息样本的文本特征信息,从而识别该样本的预测语义信息;基于该样本的标签和预测语义信息再调整语义识别模型的参数,得到训练完成的语义识别模型;基于该语义识别模型对目标用户输入信息进行语义识别得到语义信息,其中,第一用户输入信息样本无需人工标注,可降低对人工标注的依赖,而采用第二用户输入信息样本对模型进行训练,可提升语义识别准确性。

    开放域Text-to-SQL的多跳表格检索方法、系统、存储介质及设备

    公开(公告)号:CN119719146A

    公开(公告)日:2025-03-28

    申请号:CN202411762024.0

    申请日:2024-12-03

    Abstract: 开放域Text‑to‑SQL的多跳表格检索方法、系统、存储介质及设备,属于Text‑to‑SQL技术领域。为了解决现有的表格检索方法存在因实体和很多不相关表格中实体相似导致的不相关表格被检索到的问题,以及实体可能和相关领域不匹配导致的检索到的表格更加远离相关领域的问题。本发明采用多跳检索,第一跳采用原始的用户问题检索表格,而在之后的跳步中,采用LLM改写的表格化的问题检索表格;并且采用束搜索在每一跳保持多个检索结果,通过每一跳检索阶段结束后计算表格与问题相关的概率,选取多组最有可能的检索结果,和原始的用户问题一起输入给改写阶段;对所有表格进行排序,并据此选取表格进行检索。

    一种基于句子级语码转换模型的多语言代码生成方法

    公开(公告)号:CN118535149A

    公开(公告)日:2024-08-23

    申请号:CN202410588587.6

    申请日:2024-05-13

    Abstract: 本发明属于数据增强领域,尤其涉及一种基于句子级语码转换模型的多语言代码生成方法。针对原本语码转换技术一词多义、代码不相关的问题,本发明提出了一种一种基于句子级语码转换模型的多语言代码生成方法,该方法利用机器翻译、代码大模型技术,在模型中有效地引入了代码信息和上下文信息,增强了语码转换句子的上下文一致性和代码一致性,生成的新数据能显著提升模型多语言代码生成能力,本发明关键在于使用句子级别切分代替词级别切分解决一词多义,以及使用代码大模型的PPL组合句子引入代码信息,解决了原本语码转换技术一词多义、代码不相关的问题。从而提高了多语言代码生成技术存在生成的代码的准确性。

    一种图到图结构的自动标注转换方法

    公开(公告)号:CN115391608B

    公开(公告)日:2023-05-23

    申请号:CN202211013667.6

    申请日:2022-08-23

    Abstract: 一种图到图结构的自动标注转换方法,涉及自然语言处理技术领域,针对现有技术中通过人工进行标注规范转换准确率低的问题,本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。

    基于共享表示的多任务语言分析系统及方法

    公开(公告)号:CN110309511B

    公开(公告)日:2022-12-09

    申请号:CN201910600598.0

    申请日:2019-07-04

    Abstract: 基于共享表示的多任务语言分析系统及方法,属于语言分析技术领域。本发明是为了解决目前的语言分析方法存在分析速度慢以及分析准确率低的问题。本发明通过神经网络模型来完成对多个单句文本分析任务处理。这些任务包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。每个任务模块都包含一个独立的子模型,这些子模型的结构各不相同,将在下文逐一解释。同时,模型需要一个共享的表示层模块。主要用于语言的分析。

    一种面向跨语言对话理解的模型预训练系统

    公开(公告)号:CN113312453B

    公开(公告)日:2022-09-23

    申请号:CN202110667409.9

    申请日:2021-06-16

    Abstract: 一种面向跨语言对话理解的模型预训练系统,本发明涉及面向跨语言对话理解的模型预训练系统。本发明的目的是为了解决现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题。一种面向跨语言对话理解的模型预训练系统包括:数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块。本发明用于跨语言对话理解领域。

Patent Agency Ranking