-
公开(公告)号:CN119357324A
公开(公告)日:2025-01-24
申请号:CN202411374260.5
申请日:2024-09-29
Applicant: 清华大学
IPC: G06F16/332 , G06F16/36 , G06F40/284
Abstract: 本发明提供一种基于知识引导的访谈交互数据处理方法及系统,该方法包括:在当前访谈交互过程的每轮对话中获得当前上下文内容,基于当前上下文内容及行动映射策略进行拼接处理,获得第一提示词;将第一提示词输入到语言模型,获得输出的下一轮对话中采用的至少一个目标行动策略;基于语言模型对获取的访谈指南信息和至少一个目标行动策略进行处理,获得语言模型输出的下一轮对话的访谈交互问题;在基于语言模型确定当前访谈交互过程完成的情况下,获得输出的与当前访谈交互过程对应的全部对话交互内容,并对全部对话交互内容进行分析,获得对话交互内容分析结果。本发明提供的方法,能够有效提高访谈交互数据处理的效率,从而大幅降低了人力成本。
-
公开(公告)号:CN116955596A
公开(公告)日:2023-10-27
申请号:CN202310780486.4
申请日:2023-06-28
Applicant: 清华大学
Abstract: 本发明提供一种慕课的课程概念抽取方法和装置,首先,充分利用预训练语言模型的知识,学习词表中每一个概念的领域分布特征;而后,利用词表中每一个概念的领域分布特征辅助执行视频字幕文本课程概念的自动化标注,去掉领域无关噪音;之后,基于自动化标注的视频字幕文本,构建用于最小化视频字幕文本BIO标注中概念噪声和概念缺失的慕课课程概念标注模型;最后将慕课课程概念标注模型应用到慕课课程概念抽取任务中,从而高效准确地抽取课程中的高质量概念。
-
公开(公告)号:CN116822807A
公开(公告)日:2023-09-29
申请号:CN202210260914.6
申请日:2022-03-16
Applicant: 中国移动通信有限公司研究院 , 清华大学 , 中国移动通信集团有限公司
IPC: G06Q10/0631
Abstract: 本申请公开了一种任务推荐方法、装置、分类系统及可读存储介质,属于知识图谱领域。本申请实施例的任务推荐方法包括:获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;根据获取的标注水平分数值,计算每位标注员对应的混淆矩阵;该混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,该实例被标注为第二概念的概率;计算多个待标注实例中的每个待标注实例被标注为各个叶子概念的后验概率;根据每个待标注实例被标注为各个叶子概念的后验概率,从多个待标注实例中选取目标待标注实例,并将目标待标注实例推荐给目标标注员进行标注。根据本申请实施例,可以提升标注质量。
-
公开(公告)号:CN115617954B
公开(公告)日:2023-03-28
申请号:CN202211440775.1
申请日:2022-11-17
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332 , G06N5/04
Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、装置、电子设备及存储介质,其中方法包括:将问题输入生成模型,获得问题对应的推理程序;基于目标知识库执行问题对应的推理程序得到问题的答案;生成模型是基于目标知识库之外的外部知识库和对应的第一数据集,以及目标知识库和对应的第二数据集,进行训练得到的,第一数据集包括第一问题样本和对应的第一推理程序标签,第二数据集包括第二问题样本和对应的答案样本;生成模型用于通过解码程序的树形结构所转换的序列中每个位置的词汇得到问题对应的推理程序;或者,通过解析程序骨架以及程序骨架所需的参数得到问题对应的推理程序。解决平行语料缺失的问题,提升了问答性能。
-
公开(公告)号:CN115617954A
公开(公告)日:2023-01-17
申请号:CN202211440775.1
申请日:2022-11-17
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332 , G06N5/04
Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、装置、电子设备及存储介质,其中方法包括:将问题输入生成模型,获得问题对应的推理程序;基于目标知识库执行问题对应的推理程序得到问题的答案;生成模型是基于目标知识库之外的外部知识库和对应的第一数据集,以及目标知识库和对应的第二数据集,进行训练得到的,第一数据集包括第一问题样本和对应的第一推理程序标签,第二数据集包括第二问题样本和对应的答案样本;生成模型用于通过解码程序的树形结构所转换的序列中每个位置的词汇得到问题对应的推理程序;或者,通过解析程序骨架以及程序骨架所需的参数得到问题对应的推理程序。解决平行语料缺失的问题,提升了问答性能。
-
公开(公告)号:CN112734608A
公开(公告)日:2021-04-30
申请号:CN202011583108.X
申请日:2020-12-28
Applicant: 清华大学
Abstract: 本发明实施例提供一种扩充慕课课程概念的方法及系统,该方法包括:将在线的交互式游戏作为训练环境,训练得到强化学习模型;基于课内概念集合和所述强化学习模型进行概念扩展,并在扩展过程中获取用户反馈,所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的;将所述用户反馈返回所述交互式游戏中重新进行扩展,直至达到预设目标,得到扩展结果。本发明实施例通过使用强化学习的训练方法,可以在某些特定课程上进行训练后大规模应用于新设立的课程,相比传统的方法节省了大量人工标注,因此具有较强的延展性。同时,并且由于多层次的训练模式,可以在处理涉及多学科的领域的课程时,保持产生较高质量的扩展结果。
-
公开(公告)号:CN114567815B
公开(公告)日:2023-05-02
申请号:CN202210068224.0
申请日:2022-01-20
Applicant: 清华大学
IPC: H04N21/466 , H04N21/442 , G09B5/06 , G06F40/295
Abstract: 本发明公开了一种基于预训练的慕课自适应学习系统构建方法和装置,其中,该方法包括:获取第一预设时间内慕课平台记录的学生学习行为数据,以及预设条件下的辅助信息,辅助信息至少包括课程结构元信息和视频字幕文本;基于学生学习行为数据,以预设的粒度对学习行为日志进行聚合与处理,得到学生学习行为序列;基于辅助信息进行知识挖掘,获取课程结构元信息与视频的初始表示;基于学生学习行为序列和初始表示构建学习行为预训练模型,并采用掩码预测任务训练模型;将学习行为预训练模型应用于学习资源推荐和学习资源评估两个核心下游任务。本发明能够对慕课场景的学习行为、学习资源进行统一建模,构建出性能更强、更通用的自适应学习系统。
-
公开(公告)号:CN115827838A
公开(公告)日:2023-03-21
申请号:CN202211475495.4
申请日:2022-11-23
Applicant: 北京智谱华章科技有限公司 , 清华大学
IPC: G06F16/332 , G06F16/36 , G06F16/23
Abstract: 本申请提出一种基于故事续写和动态知识库的对话生成方法及系统,该方法包括:获取用户输入的初始故事,并从初始故事中确定对话角色;构建知识库,从初始故事中抽取出与对话角色相关的知识存入知识库,并获取与知识库中已有知识相关的外部补充知识,以对知识库进行更新;基于更新后的知识库中的知识和初始故事,生成与用户交互的对话,并获取用户返回的对话;抽取对话内容中的事件知识,并基于初始故事和事件知识进行故事续写,将续写后的故事存入知识库;基于续写后的故事,循环进行知识库的更新、与用户的交互对话和故事续写,直至对话结束。该方法基于动态知识库和角色故事续写的框架生成对话,提高了与AI对话的拟真度和趣味性。
-
公开(公告)号:CN112527977A
公开(公告)日:2021-03-19
申请号:CN202011241251.0
申请日:2020-11-09
Applicant: 清华大学
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的词表对待提取文本进行术语抽取,获取第一候选概念列表,并根据预设的知识图谱对待提取文本进行实体链接,获取第二候选概念列表;对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序,根据重排序的结果获取待提取文本的概念抽取结果;其中,待提取文本为非结构化文本。本发明实施例提供的概念抽取方法、装置、电子设备及存储介质,通过对待提取文本进行术语抽取和实体链接获取的各候选概念进行重排序,根据重排序的结果获取概念抽取结果,能在标注数据较少甚至没有标注数据的情况下,从非结构化文本中更高效、准确等抽取出概念。
-
-
-
-
-
-
-
-