-
公开(公告)号:CN114444467A
公开(公告)日:2022-05-06
申请号:CN202111581455.3
申请日:2021-12-22
Applicant: 北京大学 , 中国中医科学院中医基础理论研究所
IPC: G06F40/211 , G06F40/237
Abstract: 本发明公开了一种中医文献内容分析方法和装置。本方法为:对获取的文言文本进行预处理,得到无监督预训练数据对所选大规模语言模型Bert进行预训练;将上述预训练后的模型Bert与条件随机场模型结合得到序列标注模型;用标注的中医文献内容分析数据对得到的序列标注模型进行训练;将待分析中医文献的每个段落切分成子句输入所述序列标注模型,得到每个子句的编码序列,根据子句的编码序列生成对应子句所属标签的概率分布序列;将子句的概率分布序列输入条件随机场模型,得到子句的序列标注为不同标签序列的概率;选择最大概率的标签序列作为预测结果,合并相邻预测为同标签的子句,连接文献各个段落,得到所述中医文献的内容分析结果。
-
公开(公告)号:CN106970981B
公开(公告)日:2021-01-19
申请号:CN201710193366.9
申请日:2017-03-28
Applicant: 北京大学
IPC: G06F16/36 , G06F40/279
Abstract: 本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为:1)选择基础关系抽取模型M,其输入为一个句子或描述同一对主体和客体的一组句子,其输出为输入句子或输入的一组句子所描述的关系的分布pi,并在中间结果中生成输入句子或输入的一组句子的向量表示si;2)根据si构建一个转移矩阵Ti;3)将该模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子或输入的一组句子可能被标注成的关系的分布oi;4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型。本模型可以免受噪声的影响,从而可以取得更好的关系抽取效果。
-
公开(公告)号:CN107832326B
公开(公告)日:2021-06-08
申请号:CN201710841026.2
申请日:2017-09-18
Applicant: 北京大学
IPC: G06F16/332 , G06F40/30 , G06F40/284 , G06N3/04
Abstract: 本发明公开一种基于深层卷积神经网络的自然语言问答方法。该方法包括以下步骤:1)将自然语言问题和数据库信息集中的信息表示成具有序列结构的向量,并形成向量矩阵;2)采用深层卷积神经网络对向量矩阵进行处理,提取对应的深层语义特征;3)根据深层语义特征计算自然语言问题与数据库信息集中的信息的语义相关度;4)根据计算得出的语义相关度选择数据库信息集中的信息,生成自然语言问题的回答。本发明可以更好地提取深层概括的语义特征,精准定位支持数据信息,从而可以取得更好的自然语言问答效果。
-
公开(公告)号:CN112528667A
公开(公告)日:2021-03-19
申请号:CN202011356225.2
申请日:2020-11-27
Applicant: 北京大学
IPC: G06F40/30 , G06F40/216 , G06F16/35 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种语义解析上的领域迁移方法和装置。本方法为:1)根据源领域的问题和标注的逻辑表达式、以及目标领域下的问题和标注的逻辑表达式,得到领域无关的中间表达式;2)以问题X为输入、中间表达式A为输出,训练序列到序列的神经网络;3)以X和A为输入、逻辑表达式Y为输出,训练序列到序列的神经网络;4)在步骤2)训练后的神经网络中输入目标领域的问题x,得到中间表达式a;然后在步骤3)训练后的神经网络中输入目标领域的问题x及其对应的中间表达式a,得到目标领域问题x的逻辑表达式y。本发明利用源领域上大量标注好的数据,通过中间表达式分离领域无关与领域相关的部分,训练目标领域的模型,能够取得很好的效果。
-
公开(公告)号:CN112528667B
公开(公告)日:2022-10-14
申请号:CN202011356225.2
申请日:2020-11-27
Applicant: 北京大学
IPC: G06F40/30 , G06F40/216 , G06F16/35 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种语义解析上的领域迁移方法和装置。本方法为:1)根据源领域的问题和标注的逻辑表达式、以及目标领域下的问题和标注的逻辑表达式,得到领域无关的中间表达式;2)以问题X为输入、中间表达式A为输出,训练序列到序列的神经网络;3)以X和A为输入、逻辑表达式Y为输出,训练序列到序列的神经网络;4)在步骤2)训练后的神经网络中输入目标领域的问题x,得到中间表达式a;然后在步骤3)训练后的神经网络中输入目标领域的问题x及其对应的中间表达式a,得到目标领域问题x的逻辑表达式y。本发明利用源领域上大量标注好的数据,通过中间表达式分离领域无关与领域相关的部分,训练目标领域的模型,能够取得很好的效果。
-
公开(公告)号:CN112434152B
公开(公告)日:2022-10-14
申请号:CN202011384874.3
申请日:2020-12-01
Applicant: 北京大学
IPC: G06F16/335 , G06N3/04 , G06N3/08 , G06Q50/20
Abstract: 本发明公开一种基于多通道卷积神经网络的初等教育类选择题解答方法和装置。本方法为:1)给定一道以文本形式呈现的选择题,将每个选项补充成为断言,利用学科知识库对每条断言进行检索,通过桥接规则进行筛选,得到高置信度证据;2)使用多通道卷积神经网络处理问题信息与高置信度证据,得到选项间的置信度竞争结果;3)根据选项间的置信度竞争结果判断出最佳选项。本发明能够利用桥接注意力机制从学科知识库中检索出高置信证据,随后通过门控多通道卷积神经网络同时处理题目和证据,得到选项间的比较分数,进而基于所有选项对间比较的累积分数确定最佳选项,从而使机器可以解答初等教育阶段的特定学科选择题,并取得较好的表现。
-
公开(公告)号:CN107832326A
公开(公告)日:2018-03-23
申请号:CN201710841026.2
申请日:2017-09-18
Applicant: 北京大学
CPC classification number: G06F17/30654 , G06F17/2785 , G06N3/0454
Abstract: 本发明公开一种基于深层卷积神经网络的自然语言问答方法。该方法包括以下步骤:1)将自然语言问题和数据库信息集中的信息表示成具有序列结构的向量,并形成向量矩阵;2)采用深层卷积神经网络对向量矩阵进行处理,提取对应的深层语义特征;3)根据深层语义特征计算自然语言问题与数据库信息集中的信息的语义相关度;4)根据计算得出的语义相关度选择数据库信息集中的信息,生成自然语言问题的回答。本发明可以更好地提取深层概括的语义特征,精准定位支持数据信息,从而可以取得更好的自然语言问答效果。
-
公开(公告)号:CN107239481A
公开(公告)日:2017-10-10
申请号:CN201710236165.2
申请日:2017-04-12
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向多源网络百科的知识库构建方法。本方法为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,得到知识库的概念集合;4)从页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立知识库。本发明不仅可以输出实体的类别体系,还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。
-
公开(公告)号:CN103150667B
公开(公告)日:2016-06-15
申请号:CN201310082157.9
申请日:2013-03-14
Applicant: 北京大学
IPC: G06Q30/02
Abstract: 本发明涉及一种基于本体结构的个性化推荐方法,步骤包括:1)根据本体结构组成一概念词典;2)将待推荐物品按照概念词典进行分词,将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该物品;3)在设定的时间内将用户浏览过的物品集合表示为用户的兴趣内容,用概念词典对用户兴趣内容进行分词,并将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该用户;4)根据本体相似度计算模型,对待推荐物品和用户兴趣内容的相似度进行计算,推荐相似度最大的n个物品或相似度大于一设定阈值的物品给用户。本发明提高推荐的准确性,克服了传统推荐方法的不足。
-
公开(公告)号:CN104794168A
公开(公告)日:2015-07-22
申请号:CN201510145575.7
申请日:2015-03-30
Applicant: 明博教育科技有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种知识点关联方法及系统,属于互联网技术中的数据挖掘领域,包括:获取待加入已有知识体系结构的学科术语,根据待加入学科术语与该领域的已有知识体系结构中的学科术语之间的相似度,确定待加入学科术语在体系结构中的位置,完善已有知识体系结构;获取待提取知识点的语料中的学科术语,并计算每个学科术语的重要度;最后根据学科术语的重要度和其在已有知识体系结构中的位置,计算已有知识体系结构中节点位置的权重,将权重最大的节点位置处的学科术语确定为所述语料的知识点。该方法及系统实现了对已有知识体系结构不断完善,能够为用户匹配出最相关的知识点,以便为用户推荐与所述知识点相关的资源,提高了用户的感知。
-
-
-
-
-
-
-
-
-