-
公开(公告)号:CN118780287A
公开(公告)日:2024-10-15
申请号:CN202310365798.9
申请日:2023-04-07
Applicant: 北京大学
IPC: G06F40/30 , G06F40/194 , G06F16/335 , G06F16/34 , G06N20/00
Abstract: 本发明涉及一种文本的语义匹配方法和系统。该方法的步骤包括:根据基于规则的粗筛算法从备选文本中得到待匹配文本;将目标文本使用摘要算法生成长度合适的文本作为匹配目标;采用基于提示学习的文本匹配方法,计算匹配目标和待匹配文本之间的语义相似度,语义相似度的排序结果即为匹配结果。本发明可以匹配长度不同、甚至非常悬殊的两段文本,可以实现高精度和高召回的匹配性能;对于大规模的待匹配文本,本发明通过两阶段的方式来同时保证结果精度和时间效率。
-
公开(公告)号:CN117669693A
公开(公告)日:2024-03-08
申请号:CN202311422140.3
申请日:2023-10-30
Applicant: 北京大学
Abstract: 本发明公开了一种基于多教师多模态模型的知识蒸馏方法及系统,属于自然语言处理领域,本发明通过多个教师模型联合进行多模态知识蒸馏到学生模型,这些教师模型具有不同的架构、初始化、训练数据或任务,这种多样性有助于提取不同角度和类型的知识,从而提高了学生模型的鲁棒性以及对图像、文本和图文多模态的理解能力,提升图像识别的准确性、文本理解的准确性和多模态检索的召回率和准确性。
-
公开(公告)号:CN119476470A
公开(公告)日:2025-02-18
申请号:CN202411381593.0
申请日:2024-09-30
Applicant: 北京大学
IPC: G06N5/04 , G06N5/025 , G06N3/0455 , G06F40/279 , G06F40/211
Abstract: 本发明公开了一种基于因果推断的知识获取方法及系统,属于自然语言处理领域。本发明首先通过识别文本中事件之间的因果依赖关系,构建因果图。然后输入含缺失步骤的过程文本和候选步骤,抽取事件并通过因果图判断是否存在因果关系,将相关因果信息作为额外特征。分别计算候选步骤中包含和不包含主导实体的概率,通过两种模型进行编码,结合多层感知器计算候选步骤作为缺失步骤的概率。最后将所有候选步骤的概率与负类阈值比较,确定最符合条件的候选步骤或判断不存在正确步骤。本发明额外引入了事件之间的因果关系,从而实现更准确的知识获取能力。
-
公开(公告)号:CN117763154A
公开(公告)日:2024-03-26
申请号:CN202211159343.3
申请日:2022-09-22
Applicant: 北京大学
IPC: G06F16/36 , G06F40/247 , G06F40/289 , G06F40/30 , G06N3/084 , G06N3/09 , G06N5/022
Abstract: 本发明公开了一种基于外部知识增强的故事生成方法及系统。本方法为:构造一知识库#imgabs0#包括目标领域内的知识集合#imgabs1#和通用的知识集合#imgabs2#所述知识库#imgabs3#内每条知识均为一真实故事文本;将每条所述知识划分为两部分:索引部分和扩展部分;知识检索模块根据输入的提示x从所述知识库#imgabs4#中检索到匹配的索引,将每一匹配的索引对应的扩展部分作为候选知识,从各所述候选知识中选取若干关键词作为外部知识;知识选择模块根据输入x和所述候选知识为每个所选关键词预测一个分数,然后根据各关键词的预测分数选取用于故事生成的知识;故事生成模块根据所选取用于故事生成的知识,生成故事文本y;然后x和y拼接成一个连贯的故事。
-
公开(公告)号:CN116522894A
公开(公告)日:2023-08-01
申请号:CN202310425111.6
申请日:2023-04-20
Applicant: 北京大学
IPC: G06F40/194 , G06F40/247 , G06F40/279 , G06F40/126 , G06F16/31 , G06F18/214
Abstract: 本发明公开了一种多阶段文本生成方法,其步骤包括:1)构建知识库2)构建多个样本,每一样本包括提示x、概念c和后续文本y,x与y构成一个标准故事,c来源于y中的词;故事生成模型包括知识检索模块、知识选择模块和故事生成模块;3)利用样本训练故事生成模型,知识检索模块根据输入样本中的提示x,根据数据库中检索出相似度最高的N条知识生成外部知识将x与c拼接得到联合提示x’,将x’和输入知识选择模块,生成输入信息中每个词的相关系数;故事生成模块根据各词的相关系数生成预测故事,优化模型参数;4)根据待生成的目标故事确定提示并将其输入训练后的故事生成模型,得到目标故事文本。本发明可生成长文本。
-
公开(公告)号:CN118279421A
公开(公告)日:2024-07-02
申请号:CN202410208792.5
申请日:2024-02-26
Applicant: 北京大学
IPC: G06T11/00 , G06N5/04 , G06T9/00 , G06N3/0455
Abstract: 本发明涉及一种直接基于对话的图像生成方法和系统。该方法的步骤包括:在每轮对话之前通过添加分隔符进行文本连接;对连接后的文本进行文本编码,得到文本嵌入层向量;对输入图像进行图像编码,得到图像嵌入层向量;利用文本嵌入层向量和图像嵌入层向量,采用训练算法对联合噪声预测网络进行微调训练;将给定的对话内容输入微调训练后得到的联合噪声预测网络,联合噪声预测网络利用采样算法得到最终的图像。本发明针对现有技术中存在的问题,在原有文本生成图像模型基础上进行针对性微调,实现直接基于对话的图像生成,并在分辨率、真实性等维度上,较原有的文本生成图像模型,提升了生成图片的质量。
-
公开(公告)号:CN118012994A
公开(公告)日:2024-05-10
申请号:CN202211406508.2
申请日:2022-11-10
Applicant: 北京大学 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/2458 , G06F18/22 , G06N5/02 , G06N3/045
Abstract: 本发明公开了一种基于理论知识库的搜索和问答系统,包括预计算模块、分流模块、模搜索模块、知识点提取模块、知识点问答类问询的意图识别模块、理论盘点类问询的知识点及场景提取模块、回答生成模块;输入与预计算模块用于计算理论知识库中每一个知识点的向量并存储;分流模块用于将收到的问询分成四类:模糊搜索类问询、知识点问答类问询、理论盘点类问询;所搜索模块用于根据所述问询构建对应的问询向量,在理论句子向量库中搜索与所述问询向量匹配的理论句子返回输出;知识点提取模块用于从所述问询中抽取关键词,以及将所述问询中的每一关键词映射到所述理论知识库中匹配的知识点;回答生成模块用于基于匹配的知识点和场景生成回复信息。
-
公开(公告)号:CN117709395A
公开(公告)日:2024-03-15
申请号:CN202311456296.3
申请日:2023-11-03
Applicant: 北京大学
Abstract: 本发明公开了一种结合知识蒸馏和动态词剪枝的语言模型轻量化方法,属于自然语言处理领域,本方法结合了知识蒸馏和动态词剪枝,针对一个小语言模型,在知识蒸馏的训练的过程中通过目标函数的设计在传递知识的同时提升了其面向动态词剪枝的鲁棒性,从而可以在计算时在相同的词剪枝比例下取得更好的性能,从而使得语言模型在性能一致时实现更高的加速比。
-
公开(公告)号:CN115221335A
公开(公告)日:2022-10-21
申请号:CN202210729506.0
申请日:2022-06-24
Applicant: 北京大学
IPC: G06F16/36 , G06F40/194 , G06F40/289 , G06F40/30
Abstract: 本发明公开了一种知识图谱的构建方法,其步骤包括:1)在没有标注的政治理论语料文本上自动抽取政治理论知识;2)对政治理论知识进行筛选和标注;3)利用训练文本训练政治知识抽取模型;4)使用训练后的政治知识抽取模型对语料库进行知识抽取,得到政治理论知识;5)对于任意两个政治理论知识,计算二者在所述语料库的共现度和语义相似度,如果共现度或语义相似度不为零,则在该两个政治理论知识之间连接一条边,从而得到语料库对应的知识图谱;6)将专家标注的带上下位结构的知识体系与步骤5)所生成的知识图谱进行知识对齐,将知识体系中专家标注的主题词之间的上下位关系融入所述知识图谱。本发明解决了无法抽取较长概念的问题。
-
-
-
-
-
-
-
-