-
公开(公告)号:CN116955596A
公开(公告)日:2023-10-27
申请号:CN202310780486.4
申请日:2023-06-28
Applicant: 清华大学
Abstract: 本发明提供一种慕课的课程概念抽取方法和装置,首先,充分利用预训练语言模型的知识,学习词表中每一个概念的领域分布特征;而后,利用词表中每一个概念的领域分布特征辅助执行视频字幕文本课程概念的自动化标注,去掉领域无关噪音;之后,基于自动化标注的视频字幕文本,构建用于最小化视频字幕文本BIO标注中概念噪声和概念缺失的慕课课程概念标注模型;最后将慕课课程概念标注模型应用到慕课课程概念抽取任务中,从而高效准确地抽取课程中的高质量概念。
-
公开(公告)号:CN116226324A
公开(公告)日:2023-06-06
申请号:CN202211559799.9
申请日:2022-12-06
Applicant: 清华大学
IPC: G06F16/33 , G06F40/14 , G06F40/194 , G06F40/211 , G06F40/30 , G06F18/214
Abstract: 本发明提供一种开放信息抽取模型的训练方法和装置,包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。本发明基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。
-
公开(公告)号:CN113268651B
公开(公告)日:2023-06-06
申请号:CN202110587256.7
申请日:2021-05-27
Applicant: 清华大学
IPC: G06F16/953 , G06F16/9035 , G06F16/9038 , G06F16/9032 , G06N3/044 , G06N3/047 , G06N3/084
Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。
-
公开(公告)号:CN115617954B
公开(公告)日:2023-03-28
申请号:CN202211440775.1
申请日:2022-11-17
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332 , G06N5/04
Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、装置、电子设备及存储介质,其中方法包括:将问题输入生成模型,获得问题对应的推理程序;基于目标知识库执行问题对应的推理程序得到问题的答案;生成模型是基于目标知识库之外的外部知识库和对应的第一数据集,以及目标知识库和对应的第二数据集,进行训练得到的,第一数据集包括第一问题样本和对应的第一推理程序标签,第二数据集包括第二问题样本和对应的答案样本;生成模型用于通过解码程序的树形结构所转换的序列中每个位置的词汇得到问题对应的推理程序;或者,通过解析程序骨架以及程序骨架所需的参数得到问题对应的推理程序。解决平行语料缺失的问题,提升了问答性能。
-
公开(公告)号:CN115617954A
公开(公告)日:2023-01-17
申请号:CN202211440775.1
申请日:2022-11-17
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332 , G06N5/04
Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、装置、电子设备及存储介质,其中方法包括:将问题输入生成模型,获得问题对应的推理程序;基于目标知识库执行问题对应的推理程序得到问题的答案;生成模型是基于目标知识库之外的外部知识库和对应的第一数据集,以及目标知识库和对应的第二数据集,进行训练得到的,第一数据集包括第一问题样本和对应的第一推理程序标签,第二数据集包括第二问题样本和对应的答案样本;生成模型用于通过解码程序的树形结构所转换的序列中每个位置的词汇得到问题对应的推理程序;或者,通过解析程序骨架以及程序骨架所需的参数得到问题对应的推理程序。解决平行语料缺失的问题,提升了问答性能。
-
公开(公告)号:CN114036307B
公开(公告)日:2022-09-13
申请号:CN202111095446.3
申请日:2021-09-17
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种知识图谱实体对齐方法及装置,包括:获取待融合的两个知识图谱的数据;分别对两个知识图谱的数据进行邻域聚合的实体表示学习,得到两个知识图谱中各实体的实体表示;根据实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;根据实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个知识图谱实体对齐的结果。将概念与概念层次体系融合进实体对齐框架并使其发挥作用,提高实体对齐的准确率。
-
公开(公告)号:CN114817510A
公开(公告)日:2022-07-29
申请号:CN202210715592.X
申请日:2022-06-23
Applicant: 清华大学
IPC: G06F16/332 , G06F40/186 , G06N5/04
Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、问答数据集生成方法及装置,方法包括:获取待回答问题,将待回答问题输入至问答模型,得到待回答问题的答案;问答模型是基于问答数据集得到的,针对提问策略库的每种问题模板,从提问对象库中选择与第一占位符对应的若干目标元素,基于元素描述策略库的M种元素描述模板生成目标元素的M个元素描述信息,将若干目标元素的M个元素描述信息依次替换问题模板中对应的第一占位符,生成多个第一问题;基于第一问题中具有别名的元素将第一问题转写成第二问题,并通过生成第二问题的释义将第二问题转写成第三问题;基于所有第三问题及目标元素生成问答数据集,解决了问答数据集的质量问题,提高了质量。
-
公开(公告)号:CN114781471A
公开(公告)日:2022-07-22
申请号:CN202110614418.1
申请日:2021-06-02
Applicant: 清华大学
IPC: G06K9/62 , G06N3/04 , G06N3/08 , G06F40/295
Abstract: 本发明提供一种实体记录匹配方法及系统,该方法包括:获取待匹配的实体记录集合,所述实体记录集合中的实体记录是由实体的属性和属性值组成的;将所述实体记录集合输入到训练好的实体记录匹配模型,得到所述实体记录集合中实体记录之间的匹配结果,其中,所述训练好的实体记录匹配模型是由自监督学习方法训练后的神经网络和决策树算法训练后的决策树模型构建得到的。本发明通过神经网络对实体转换为属性值向量,利用自动构建的关键属性树,克服深度学习可解释性差的缺点,能将学习到的关键属性树转化成匹配规则,运用到其他数据集中;同时,本发明对应模型的训练仅需要少量的标记实体记录对,克服了现有方法需要大量标记实体记录对的缺点。
-
公开(公告)号:CN114036307A
公开(公告)日:2022-02-11
申请号:CN202111095446.3
申请日:2021-09-17
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种知识图谱实体对齐方法及装置,包括:获取待融合的两个知识图谱的数据;分别对两个知识图谱的数据进行邻域聚合的实体表示学习,得到两个知识图谱中各实体的实体表示;根据实体表示进行增强实体语义的关系表示学习,对实体间的关系进行建模,得到实体关系表示;根据实体表示进行概念与概念层次体系表示学习,对实体与概念、概念与概念之间的关系进行建模,得到概念与概念层次体系表示;通过实体关系表示、概念与概念层次体系表示对实体表示在基于向量距离的实体对齐过程中进行约束,得到两个知识图谱实体对齐的结果。将概念与概念层次体系融合进实体对齐框架并使其发挥作用,提高实体对齐的准确率。
-
公开(公告)号:CN112100398B
公开(公告)日:2021-09-14
申请号:CN202010931215.0
申请日:2020-09-07
Applicant: 清华大学
Abstract: 本发明实施例提供一种专利空白预测方法及系统,包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。本发明实施例提供的专利空白预测方法及系统,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。
-
-
-
-
-
-
-
-
-