-
公开(公告)号:CN118823779A
公开(公告)日:2024-10-22
申请号:CN202410726500.7
申请日:2024-06-06
Applicant: 北京理工大学
IPC: G06V20/70 , G06V10/74 , G06V10/82 , G06F16/332 , G06F16/51 , G06F16/583 , G06F40/58 , G06N3/0455 , G06N3/0895 , G06N3/092
Abstract: 本发明涉及一种基于大语言模型与检索对比的小语种图片描述生成方法,属于图片和自然语言处理技术领域。首先构建大语种到小语种平行语料数据集,以及大语种和小语种图片描述对数据集。然后进行多语理解大语言模型训练。之后进行图像文本对齐,向量数据库检索生成提示。最后根据训练好的模型和生成的提示词生成描述。本方法直接使用大语言模型生成,无需经过翻译步骤,从而提高了生成效率。图片描述生成直接针对小语种展开,通过引入检索对比技术,进一步提升了生成质量和准确率。本方法使得小语种图片描述生成更为可行,为相关领域的研究和应用提供了有力的技术支持。
-
公开(公告)号:CN118363984A
公开(公告)日:2024-07-19
申请号:CN202410594860.6
申请日:2024-05-14
Applicant: 北京理工大学
IPC: G06F16/2452 , G06F16/242 , G06F16/2455 , G06F16/248
Abstract: 本发明涉及一种基于大语言模型的数据库自动人机交互方法,属于大数据分析与挖掘技术领域。本方法在处理用户需求时,充分利用大语言模型的性能优势,将用户对需要获取数据结果的自然语言解析成为SQL语句,准确从数据库获取对应数据后,绘制直观图表。本方法充分利用了大语言模型的性能优势,对用户的自然语言需求做充分地分析自动转换为所需代码语句。本方法充分考虑了用户对数据库信息获取结果的直观性需求,将用户所需数据做恰当的图表绘制,大幅提升了数据挖掘的深度。
-
公开(公告)号:CN114385859B
公开(公告)日:2024-07-16
申请号:CN202111631648.5
申请日:2021-12-29
Applicant: 北京理工大学
IPC: G06F16/783 , G06F16/735
Abstract: 本发明公开了一种面向视频内容的多模态检索方法,属于多媒体分析与处理技术领域。本方法面向视频内容,对视频数据和检索数据中的多模态特征进行提取和转化,将多模态特征转化为文本特征,然后通过对文本特征的检索实现对视频内容的检索与定位。本方法充分利用了视频内容中的多模态特征,并支持利用多模态数据进行检索,方便用户以多种方式进行针对视频内容的检索,使无标注情况下针对视频内容的检索更加准确全面。本方法极大方便了用户以多种形式在海量视频数据中快速寻找到自己感兴趣的内容,可以在海量无标注视频中找到用户所感兴趣的内容,节约了人工观看视频进行筛选的时间,可用于视频敏感内容筛选、目标人锁定等,实现数据的高效利用。
-
公开(公告)号:CN116775869A
公开(公告)日:2023-09-19
申请号:CN202310689085.8
申请日:2023-06-12
Applicant: 北京理工大学
IPC: G06F16/35 , G06N3/0464 , G06N3/08 , G06F18/241
Abstract: 本发明涉及一种基于可解释模型的文本持续分类方法,包括文本分类、可持续学习、可解释学习、经验回放等多方面技术,属于自然处理技术领域。本发明包括两大部分。第一部分是自解释的文本分类模型,输入样本,输出对应样本的预测类别和可解释词;第二部分为特征池,用以存储自解释模型输出的可解释特征,作为回放的旧任务特征。这里自解释的文本分类模型具体为融合短语结构知识的自解释模型,包含三层,第一层输入层,通过编码器得到文本表示,并进一步得到输入样本对应的短语结构知识。第二层为短语结构知识进一步融合的解释层,第三层为线性层,将解释层的输出映射到类别向量空间,得到预测类别标签和样本的解释。
-
公开(公告)号:CN113065002B
公开(公告)日:2022-10-14
申请号:CN202110417960.8
申请日:2021-04-19
Applicant: 北京理工大学
IPC: G06F16/36 , G06F40/30 , G06F40/289 , G06F40/242
Abstract: 本发明涉及一种基于知识图谱和上下文语境的中文语义消歧方法,属于自然语言处理技术领域。本发明通过构建消歧知识图谱和基于上下文语境的语义消歧,可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系,同时将上下文语境作为消歧词实体的属性,从而将消歧知识沉淀于知识图谱,赋能语义消歧工作。本发明可以在新的待消歧文本中准确地发现已登录的歧义词。本发明实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境。
-
公开(公告)号:CN114443855A
公开(公告)日:2022-05-06
申请号:CN202210020693.5
申请日:2022-01-10
Applicant: 北京理工大学
IPC: G06F16/36 , G06F16/31 , G06F16/951 , G06F16/35 , G06F40/263 , G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息,通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐,保证了融合后的数据更准确全面,提高了在跨语言领域进行快速分析和智能搜索的效率。
-
公开(公告)号:CN114443855B
公开(公告)日:2025-05-06
申请号:CN202210020693.5
申请日:2022-01-10
Applicant: 北京理工大学
IPC: G06F16/36 , G06F16/31 , G06F16/951 , G06F16/35 , G06F40/263 , G06F40/295 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/042
Abstract: 本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息,通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐,保证了融合后的数据更准确全面,提高了在跨语言领域进行快速分析和智能搜索的效率。
-
公开(公告)号:CN119271873A
公开(公告)日:2025-01-07
申请号:CN202411045781.6
申请日:2024-08-01
Applicant: 北京理工大学
IPC: G06F16/9535 , G06Q50/20 , G06Q10/0639 , G06F18/213 , G06N3/0455 , G06N3/0895
Abstract: 本发明涉及一种基于知识追踪模型的个性化编程题推荐方法,属于信息推荐技术领域。本方法通过知识追踪模型,将学习者的知识状态变化过程融合到编程题推荐过程中,使所推荐的编程题符合学习者当前的学习进程和学习能力。本发明提出了一种基于特征增强和注意力机制的知识追踪模型,充分利用编程题信息和学习者历史知识状态信息更准确地预测学习者未来的答题表现。结合上述模型,本发明采用了个性化编程题推荐策略,将学习者的知识状态变化情况融入推荐过程,从而推荐出符合学习者当前的学习进程和学习能力的编程题。本方法能够更加准确地预测学习者在下一个时间步的答题表现,使编程题推荐策略能够及时根据学习者的知识状态变化情况调整推荐题目。
-
公开(公告)号:CN118446202A
公开(公告)日:2024-08-06
申请号:CN202410558437.0
申请日:2024-05-08
Applicant: 北京理工大学
IPC: G06F40/194 , G06F40/16 , G06F18/22 , G06F18/214 , G06F18/21 , G06F18/25
Abstract: 本发明涉及一种基于写作风格的生成文本来源检测方法,属于人工智能与文本检测技术领域,该方法包括:S1,生成文本内容的识别与编码;S2,特征提取;S3,特征输入与融合;S4,损失函数计算与优化;S5,训练模型;S6,根据训练好的模型,验证集评估模型的准确率和召回率,根据结果优化模型参数。在步骤S3中,对于每个文本样本,使用Llama2计算其困惑度分数。本发明使用多维特征融合框架,通过计算文本困惑度分数和嵌入向量并将其融合来代表各个文本生成源的写作风格,有效捕获了群体写作风格的核心特征,增强了文本源的区分能力,显著地提升了基于写作风格的识别性能,对保护文本的真实性有重要的意义。
-
公开(公告)号:CN117407703A
公开(公告)日:2024-01-16
申请号:CN202310673127.9
申请日:2023-06-07
Applicant: 北京理工大学
IPC: G06F18/214 , G06N3/045 , G06N3/048 , G06N3/082 , G06F18/22 , G06F40/30 , G06F40/216
Abstract: 本发明涉及一种基于机器阅读理解的冲突因素编码预测方法,属于自然语言处理技术领域。本方法根据冲突文本发布时间判断当前冲突发展阶段,确定可选因素列表;通过BERT微调的模型对冲突文本和可选冲突因素进行向量化表示;计算冲突文本和冲突因素的语义相似度,筛选与冲突文本最相关的冲突因素和冲突因素最相关的冲突文本句子;利用“冲突文本‑相关冲突因素”集合,生成原始冲突因素标注数据集;利用基于BERT微调的机器阅读理解模型,将处理好的冲突因素标注数据输入模型,获得冲突文本的相关冲突因素标注预测。本发明有效解决了基于海量新闻文本的冲突因素标注预测问题,提高了冲突量化分析效率。降低了冲突量化模型的使用者门槛。
-
-
-
-
-
-
-
-
-