一种基于LoRA嵌入的指令数据挖掘方法和系统

    公开(公告)号:CN117556251A

    公开(公告)日:2024-02-13

    申请号:CN202311332989.1

    申请日:2023-10-16

    Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。

    一种基于语义特征的中文儿童故事生成方法

    公开(公告)号:CN116681080A

    公开(公告)日:2023-09-01

    申请号:CN202310544489.8

    申请日:2023-05-16

    Abstract: 本发明提出一种基于语义特征的中文儿童故事生成方法。所述方法包括构建中文儿童故事数据集;将儿童故事作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;将关键词或者儿童故事开头输入模型;模型通过自编码迭代生成预先设定长度的中文儿童故事。本发明可以在给定关键词或故事开头的情况下,自动生成完整的儿童故事,无需人工处理。本发明可以用于创作儿童故事。

    一种基于多任务学习和注意力机制的英文语法纠正技术

    公开(公告)号:CN116681061A

    公开(公告)日:2023-09-01

    申请号:CN202310630375.5

    申请日:2023-05-31

    Abstract: 一种基于多任务学习和注意力机制的英文语法纠正技术,它涉及一种英文语法纠正技术。本发明为了解决现有英文语法纠正技术适应能力较差,对一些复杂语句的语法纠正不准确的问题。本发明的步骤为:对于输入的句子,从数据库中读取英文分词词表及编辑标签词表;将句子输入预训练编码模型,获取整个句子的上下文表示;将得到的上下文特征向量经过自注意力层;判别输入子词是否需要进行编辑操作,使用词表大小的分类器对输入的子词进行编辑标签分类;根据模型预测的纠正标签对应的意义对输入句子中的单词进行后处理,得到的后处理结果再输入模型进行多次迭代得到最终结果。本发明属于自然语言处理技术领域。

    一种面向法律文本的多关系中主要关系的抽取方法

    公开(公告)号:CN113377916B

    公开(公告)日:2023-03-24

    申请号:CN202110693377.X

    申请日:2021-06-22

    Abstract: 本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。

    一种小样本场景下的自然语言理解方法

    公开(公告)号:CN113326360B

    公开(公告)日:2022-12-13

    申请号:CN202110447496.7

    申请日:2021-04-25

    Abstract: 本发明提出一种小样本场景下的自然语言理解方法,所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义,使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的;本发明的方法能够在小样本的场景下更好的判断出问题的意图,并识别出问题的槽位,从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。

    一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法

    公开(公告)号:CN115034216A

    公开(公告)日:2022-09-09

    申请号:CN202210606979.1

    申请日:2022-05-31

    Abstract: 本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法,本发明首先需要将新闻文本进行清洗,去除其中无用信息;然后通过文本处理模块,得到新闻文本中的潜在关键词和词频信息;之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射,最后融合前述两个模型对关键词的排序分布获得最后关键的分布,从而获得新闻文本关键词;本发明能够改进新闻文本关键词提取的精度,进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性,更为全面地覆盖新闻文本的主要信息,节省人工复核的时间。

    基于多任务学习的篇章级文本连贯性分类方法

    公开(公告)号:CN113312452B

    公开(公告)日:2022-05-27

    申请号:CN202110667388.0

    申请日:2021-06-16

    Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。

    一种专利文本可授权性预测方法及装置

    公开(公告)号:CN113836867A

    公开(公告)日:2021-12-24

    申请号:CN202110998663.7

    申请日:2021-08-27

    Abstract: 本申请提供了一种专利文本可授权性预测方法及装置,属于自然语言处理中的文本匹配技术,目的是为了对撰写的专利申请文件是否符合专利法第26条进行初步预测。所述方法包括:利用4头注意力的transformer编码器对待预测专利文本、授权专利文本、以及未授权专利文本进行向量化编码,分别得到q[1:m]、d1[1:n]、和d2[1:n];对q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF‑kernel来转换M,得到矩阵K1至Kk,对于第p个kernel,计算矩阵Kp:对于授权专利文本和未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。所述装置包括向量化编码模块、第一计算模块、转换模块、第二计算模块和预测模块。

    一种基于自监督的机器翻译译文自动优化的方法和系统

    公开(公告)号:CN111597778A

    公开(公告)日:2020-08-28

    申请号:CN202010294829.2

    申请日:2020-04-15

    Abstract: 本发明涉及一种基于自监督的机器翻译译文自动优化的方法和系统,属于机器翻译领域。所述方法包括以下步骤:步骤一、使用大规模平行语料对模型进行训练,使模型学习替换操作;步骤二、使用人工构造的伪数据对模型进行训练,使模型学习插入操作,得到训练好的模型;步骤三、使用训练好的模型对待优化的译文中的每个词和词间空隙进行候选词预测,完成替换和插入的后编辑操作。本发明利用双语平行语料作为模型预训练的输入,使得模型在不同机器翻译系统上都能获得良好的优化性能,是一种通用的机器翻译自动后编辑模型。

Patent Agency Ranking