-
公开(公告)号:CN113627158B
公开(公告)日:2024-12-03
申请号:CN202110751495.1
申请日:2021-07-02
Applicant: 南京理工大学 , 北京理工大学东南信息技术研究院
IPC: G06F40/232 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本申请提出了基于多表征和多预训练模型的中文拼写纠错方法及装置,方法包括:将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;特征值包括词边界特征值以及偏旁特征值;将带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;用预先设定的标记替换待纠正字,获取中间待纠错中文;将中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换待纠正字,获取纠正后的中文。本申请提供的方法能从多个角度识别出拼写错误,提高了拼写纠错的准确率。
-
公开(公告)号:CN117115226A
公开(公告)日:2023-11-24
申请号:CN202311049171.9
申请日:2023-08-21
Applicant: 北京理工大学东南信息技术研究院
Abstract: 本申请提供一种基于计算机视觉的识别脚型尺寸的方法,方法包括:步骤1,图片获取:分别获取被测量者脚放置于白纸上的侧视图,以及俯视图;步骤2,进行图片缩放处理;步骤3,利用多重阈值分割法,分别对A4纸和脚部轮廓进行分割,再使用全新透视矫正法对A4纸轮廓进行矫正,使用掩码法获取目标的脚部区域图像;步骤4,进行俯视图处理获得最大脚宽:分别对A4纸和脚部轮廓进行分割,在使用简易矫正法对A4纸轮廓进行矫正,获取目标的脚部区域图像后,确定目标参数。
-
公开(公告)号:CN114186358A
公开(公告)日:2022-03-15
申请号:CN202111375216.2
申请日:2021-11-19
Applicant: 南京理工大学 , 北京理工大学东南信息技术研究院
IPC: G06F30/17 , G06F30/27 , G06N3/04 , G06N3/08 , G06F119/04
Abstract: 本申请提供基于文本特征和卷积神经网络的轴承寿命预测方法及装置,方法包括:获取待预测滚动轴承的时域振动数据;对时域振动数据进行降噪处理;对降噪后的时域振动数据经过傅里叶变化获取频域数据;提取频域数据的频域特征,以及对频域数据进行编码获取文本特征;将频域特征,以及文本特征输入预先训练好的神经网络模型中,预测待预测滚动轴承的预测寿命。本申请提供的方法使用小波分解、重构的方法进行降噪,避免了阈值挑选的问题;本申请使用的文本特征作为新的退化指标,避免了传统退化指标表征不全面的缺点;并将注意力机制应用到特征通道中,增强了卷积神经网络中的特征关联能力。
-
公开(公告)号:CN115017316B
公开(公告)日:2025-04-08
申请号:CN202210669824.2
申请日:2022-06-14
Applicant: 北京理工大学 , 北京理工大学东南信息技术研究院
IPC: G06F16/35 , G06F40/126 , G06F40/186 , G06F18/214
Abstract: 本发明涉及一种基于动态前缀提示信息的事件抽取方法,属于计算机自然语言处理技术领域。本方法根据输入文本结合所有可能的事件类型,动态构造可调整的稠密的前缀信息,由此增强前缀信息的表现力,提高了数据的利用率。同时,利用相关性分类器将不包含事件实例的文本排除,减少了不相关信息的干扰。本方法克服了现有的基于生成的事件抽取方法中人工构造离散提示文本的次优性,事件类型信息与文本上下文相隔绝等技术缺陷。本方法在精确率、召回率、F1值评测指标等方面都有显著提升。
-
公开(公告)号:CN119311796A
公开(公告)日:2025-01-14
申请号:CN202411264439.5
申请日:2024-09-10
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F16/332 , G06F18/2411 , G06F18/214 , G06F40/186
Abstract: 本申请提供一种用于合成特定领域多轮对话数据的方法,方法包括:步骤一、进行数据集嵌入并进行降维;将文本形式的数据集转换为高维特征向量形式,并进行降维,转换为二维向量形式;步骤二、构建对话合成器的训练数据集;步骤三、使用对抗学习训练对话数据合成器;步骤四、使用对话合成器合成特定领域的数据集;步骤五、基于规则对合成数据进行清洗与筛选。本申请提供的方法填补特定领域对话数据的空缺,增强模型在特定领域的专业能力,降低合成数据的成本。
-
公开(公告)号:CN118395974A
公开(公告)日:2024-07-26
申请号:CN202410576682.4
申请日:2024-05-10
Applicant: 南京理工大学 , 北京理工大学东南信息技术研究院
IPC: G06F40/279 , G06F40/216 , G06F40/211 , G06F16/35 , G06F18/214 , G06N3/09
Abstract: 本申请提供一种融合上下文知识的远程监督关系抽取方法包括:根据篇章级别关系抽取数据集中特有的证明句和具有上下文的篇章信息,将句子级别的远程监督关系抽取数据集中的每个句子作为证明句,构造含有实例包内上下文信息的篇章级数据;针对不含实例包内上下文的句子,构造含有实例包外上下文信息的篇章级数据;将每个句子的篇章信息进行向量化表示,作为文本编码器的信息;抽取出知识图谱的编码信息;将编码之后融合上下文信息的文本信息与知识图谱信息共享,更新各自的隐藏层信息。本申请提供的方法为单个句子增加上下文信息,并将文本编码信息与知识图谱编码信息相结合,提升句子级远程监督关系抽取的准确性。
-
公开(公告)号:CN119514636A
公开(公告)日:2025-02-25
申请号:CN202411485750.2
申请日:2024-10-23
Applicant: 北京理工大学东南信息技术研究院 , 北京理工大学
IPC: G06N3/09 , G06F40/237 , G06F40/284 , G06N3/0464 , G06F40/216 , G06N3/0455 , G06N3/047 , G06N3/084
Abstract: 本申请提供一种轻量级中英双语大语言模型的两阶段训练方法,方法包括:步骤1,进行中英文训练数据收集与预处理;预处理流程包括特殊标记清除,敏感数据清理、数据去重、去除广告、格式化处理;步骤2,第一阶段高资源语言训练,即利用英语进行模型训练;步骤3,进行第二阶段双语混合训练,采用语言迁移训练,将中文数据和英文数据混杂进行第二阶段训练;其中,步骤3包括:步骤31,进行词表扩展;步骤32,语言迁移训练。本申请能够提高双语处理能力。
-
公开(公告)号:CN118445652A
公开(公告)日:2024-08-06
申请号:CN202410457265.8
申请日:2024-04-16
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F18/2323 , G06F18/22 , G06N3/0895 , G06N3/0455 , G06F40/205 , G06F18/241
Abstract: 本发明设计一种长文本匹配任务的训练方法,属于自然语言处理、信息检索和深度学习技术领域,包括:S1,文档内容聚类;S2,文档多视图采样;S3,动态对比学习;S4,聚合推理。其中,步骤S1包括对文档进行预处理并分句,对句子依据相似度聚类;步骤S2依据S1所得聚类,利用多种方法进行采样获取文档的视图;步骤3依据S2中获取的视图,选取不同的视图进行训练,获取文档匹配模型;步骤S4基于S3中训练所得的匹配模型,获取待匹配文档对的多个视图的分数,聚合获取最终的匹配度分数。本发明能获取文档中多种潜在的匹配关系,帮助高效学习到文档中的多种匹配关系,进而通过聚合推理获取更为全面的评估分数,训练效率更高,可适用于多种模型。
-
公开(公告)号:CN112784013B
公开(公告)日:2022-10-04
申请号:CN202110039994.8
申请日:2021-01-13
Applicant: 北京理工大学 , 北京理工大学东南信息技术研究院
Abstract: 本发明涉及一种基于上下文语义的多粒度文本推荐方法,属于计算机自然语言处理技术领域。本方法利用文档级的主题过滤方法,缩减了候选文本集合的大小,大大缩减模型推荐的时间,同时提高文本推荐的准确性。本方法首次提出了多粒度的文本推荐方法,能够在文档级、段落级和句子级等多个语言粒度上进行文本推荐,并通过单一的模型完成推荐过程,提高了用户的使用效率。
-
公开(公告)号:CN115017316A
公开(公告)日:2022-09-06
申请号:CN202210669824.2
申请日:2022-06-14
Applicant: 北京理工大学 , 北京理工大学东南信息技术研究院
IPC: G06F16/35 , G06F40/126 , G06F40/186 , G06K9/62
Abstract: 本发明涉及一种基于动态前缀提示信息的事件抽取方法,属于计算机自然语言处理技术领域。本方法根据输入文本结合所有可能的事件类型,动态构造可调整的稠密的前缀信息,由此增强前缀信息的表现力,提高了数据的利用率。同时,利用相关性分类器将不包含事件实例的文本排除,减少了不相关信息的干扰。本方法克服了现有的基于生成的事件抽取方法中人工构造离散提示文本的次优性,事件类型信息与文本上下文相隔绝等技术缺陷。本方法在精确率、召回率、F1值评测指标等方面都有显著提升。
-
-
-
-
-
-
-
-
-