Patent search ap:("哈尔滨工业大学") AND inv:"杨沐昀" Page 3

21.

发明授权
一种用于统计机器翻译的参数调整方法有权转让

公开(公告)号：CN103092831B

公开(公告)日：2015-08-19

申请号：CN201310029538.0

申请日：2013-01-25

Applicant: 哈尔滨工业大学

Inventor： 曹海龙 , 张文文 , 刘乐茂 , 赵铁军 , 杨沐昀 , 郑德权 , 朱聪慧 , 徐冰

IPC: G06F17/28

CPC classification number: G06F17/2818 , G06F17/2827 , G06F17/2836 , G06F17/289

Abstract: 一种用于统计机器翻译的参数调整方法，涉及一种参数调整方法。是要解决现有方法在参数调整过程中容易造成参数的过拟合现象及陷入局部最优解的问题。方法：步骤一：利用单语语料库构建翻译所需的语言模型；步骤二：利用双语平行语料库构建翻译模型；步骤三：利用目标函数对参数进行调整。本发明的方法易于实现，能够防止在参数调整过程中出现过拟合现象，并能结合较多的特征数目。另外，由于目标函数是凸的，因此在训练过程中亦能够得到全局的最优解。本发明方法用于翻译系统的参数调整。

22.

发明公开
一种基于相似度匹配的枢轴语言翻译方法和装置有权转让

公开(公告)号：CN103605644A

公开(公告)日：2014-02-26

申请号：CN201310636884.5

申请日：2013-12-02

Applicant: 哈尔滨工业大学

Inventor： 朱聪慧 , 朱晓宁 , 赵铁军 , 郑德权 , 杨沐昀 , 曹海龙 , 徐冰

IPC: G06F17/28

Abstract: 一种基于相似度匹配的枢轴语言翻译方法和装置，本发明属于机器翻译技术领域，涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则，中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联，建立源语言-目标语翻译规则库，通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。

23.

发明公开
一种用于统计机器翻译的参数调整方法有权转让

公开(公告)号：CN103092831A

公开(公告)日：2013-05-08

申请号：CN201310029538.0

申请日：2013-01-25

Applicant: 哈尔滨工业大学

Inventor： 曹海龙 , 张文文 , 刘乐茂 , 赵铁军 , 杨沐昀 , 郑德权 , 朱聪慧 , 徐冰

IPC: G06F17/28

CPC classification number: G06F17/2818 , G06F17/2827 , G06F17/2836 , G06F17/289

Abstract: 一种用于统计机器翻译的参数调整方法，涉及一种参数调整方法。是要解决现有方法在参数调整过程中容易造成参数的过拟合现象及陷入局部最优解的问题。方法：步骤一：利用单语语料库构建翻译所需的语言模型；步骤二：利用双语平行语料库构建翻译模型；步骤三：利用目标函数对参数进行调整。本发明的方法易于实现，能够防止在参数调整过程中出现过拟合现象，并能结合较多的特征数目。另外，由于目标函数是凸的，因此在训练过程中亦能够得到全局的最优解。本发明方法用于翻译系统的参数调整。

24.

发明公开
自适应个性化信息检索系统及方法有权转让

公开(公告)号：CN102779193A

公开(公告)日：2012-11-14

申请号：CN201210244519.5

申请日：2012-07-16

Applicant: 哈尔滨工业大学

Inventor： 杨沐昀 , 王晓春 , 李生 , 齐浩亮 , 赵铁军

IPC: G06F17/30

Abstract: 自适应个性化信息检索系统及方法，涉及计算机信息检索技术。本发明针对分布不规律的用户动态检索需求及时捕捉，伴随用户与搜索引擎的交互及时更新检索模型。所述系统包括用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵，及根据特征矩阵获得训练参数预测模型的数据输入子系统；用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统；用于以预测参数组织当前查询、历史查询和历史点击，及将用户模型和查询模型结合形成个性化查询模型的执行检索子系统；和用于在待检索文档中寻找与个性化查询匹配的文档作为初步检索结果，根据相关性对所述初步检索结果进行排序获得最终检索结果输出的数据输出子系统。

25.

发明授权
一种基于图模型和词嵌入模型的关键词抽取方法有权

公开(公告)号：CN115034216B

公开(公告)日：2025-05-13

申请号：CN202210606979.1

申请日：2022-05-31

Applicant: 哈尔滨工业大学

Inventor： 赵铁军 , 郭常江 , 朱聪慧 , 杨沐昀 , 曹海龙 , 徐冰

IPC: G06F40/289 , G06F40/284 , G06F40/205 , G06F16/953 , G06F18/22 , G06F18/213 , G06F18/24 , G06F18/25 , G06N3/0442 , G06N3/08

Abstract: 本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法，本发明首先需要将新闻文本进行清洗，去除其中无用信息；然后通过文本处理模块，得到新闻文本中的潜在关键词和词频信息；之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射，最后融合前述两个模型对关键词的排序分布获得最后关键的分布，从而获得新闻文本关键词；本发明能够改进新闻文本关键词提取的精度，进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性，更为全面地覆盖新闻文本的主要信息，节省人工复核的时间。

26.

发明授权
一种基于RAG的大模型机器翻译方法有权

公开(公告)号：CN117993396B

公开(公告)日：2024-11-12

申请号：CN202410091557.4

申请日：2024-01-23

Applicant: 哈尔滨工业大学

Inventor： 杨沐昀 , 卢昊 , 朱聪慧 , 徐冰 , 曹海龙 , 赵铁军

IPC: G06F40/58 , G06F40/284 , G06F40/289 , G06F18/22

Abstract: 本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域，本发明对原始语言序列分词处理，对语言序列嵌入表示转化，基于同语言建立翻译资料库；基于翻译需求，对原始语言进行拆分，进行原文嵌入表示获取；基于原文嵌入表示与翻译资料库，进行相似度计算；根据相似度计算获取和需求接近的翻译示例，结合翻译示例和大模型，生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文，在特定领域翻译和翻译风格化上有着很好的效果。

27.

发明授权
一种基于预训练的字音字形知识增强的中文拼写纠正方法有权

公开(公告)号：CN114970503B

公开(公告)日：2024-10-29

申请号：CN202210598799.3

申请日：2022-05-30

Applicant: 哈尔滨工业大学

Inventor： 赵铁军 , 王晨懿 , 徐冰 , 杨沐昀 , 朱聪慧 , 曹海龙

IPC: G06F40/232 , G06F40/30 , G06N3/045 , G06N3/0442 , G06N3/09 , G06F18/2415

Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性，更好地解决字音或字形混淆导致的拼写错误，节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列，然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识，给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务，在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景，提高了校验文章的效率。

28.

发明公开
基于任务链的大模型语病纠错方法、设备和存储介质审中-实审

公开(公告)号：CN118747497A

公开(公告)日：2024-10-08

申请号：CN202410884233.6

申请日：2024-07-03

Applicant: 哈尔滨工业大学

Inventor： 徐冰 , 刘欣鹏 , 杨沐昀 , 朱聪慧 , 曹海龙 , 赵铁军

IPC: G06F40/205 , G06F40/279 , G06F40/284 , G06F18/22 , G06F40/194 , G06N5/02 , G06N5/04

Abstract: 基于任务链的大模型语病纠错方法、设备和存储介质，属于语言信息处理技术领域，解决基于大语言模型的语病纠错正确性低问题。本发明方法包括：在输出中找出与输入原句子对应的信息类型，信息类型包括语病范围、语病类型和纠错方式三种类型；对不同粒度的语病范围进行标注，针对每种语病类型，计算自动标注的语病范围与人工标注的语病范围之间的相似性分数，选择相似性分数最高的标注粒度作为最终的语病范围标注结果；将训练集中的所有样本随机排序，按照样本的顺序，将每个样本的三条指令数据加入到训练队列中，依次使用每条指令数据对大语言模型进行指令微调；利用指令微调后的大语言模型进行语病纠错。本发明适用于基于大语言模型的语病纠错。

29.

发明公开
一种基于LoRA嵌入的指令数据挖掘方法和系统有权

公开(公告)号：CN117556251A

公开(公告)日：2024-02-13

申请号：CN202311332989.1

申请日：2023-10-16

Applicant: 哈尔滨工业大学

Inventor： 杨沐昀 , 黄辉 , 卢昊 , 朱聪慧 , 徐冰 , 曹海龙 , 赵铁军

IPC: G06F18/214 , G06F18/241

Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统，涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高，类似的指令数据反复出现，数据集同质化和冗余的情况较为普遍的问题。所述方法包括：采用LoRA的方式对ShareGPT数据集进行训练，获取所述ShareGPT数据集中指令数据的嵌入表示；通过UMAP算法对所述嵌入表示进行降维，获取每个指令在三维空间中的表示；根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选，获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。

30.

发明公开
一种基于语义特征的中文儿童故事生成方法审中-实审

公开(公告)号：CN116681080A

公开(公告)日：2023-09-01

申请号：CN202310544489.8

申请日：2023-05-16

Applicant: 哈尔滨工业大学

Inventor： 赵铁军 , 徐冰 , 朱聪慧 , 曹海龙 , 杨沐昀 , 姜海龙

IPC: G06F40/30 , G06F18/22 , G06N3/0455 , G06N3/084

Abstract: 本发明提出一种基于语义特征的中文儿童故事生成方法。所述方法包括构建中文儿童故事数据集；将儿童故事作为训练数据，通过所设计的引入句子级语义特征的方法对模型进行训练，提升模型生成的连贯性；将关键词或者儿童故事开头输入模型；模型通过自编码迭代生成预先设定长度的中文儿童故事。本发明可以在给定关键词或故事开头的情况下，自动生成完整的儿童故事，无需人工处理。本发明可以用于创作儿童故事。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification