平行语料的生成方法及装置和无监督同义转写方法及装置

    公开(公告)号:CN115809658A

    公开(公告)日:2023-03-17

    申请号:CN202211497311.4

    申请日:2022-11-25

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种平行语料的生成方法及装置和无监督同义转写方法及装置,其中平行语料的生成方法包括:获取待转写语料和所述待转写语料的上下文;基于所述待转写语料获得关键词集合;将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料。无监督同义转写方法包括:获取待转写语句;将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;其中,所述同义转写模型是基于平行语料对训练得到的。本发明实施例能够获得优秀的同义转写句。

    百科知识图谱动态更新方法、装置、设备及介质

    公开(公告)号:CN115658931A

    公开(公告)日:2023-01-31

    申请号:CN202211681737.5

    申请日:2022-12-27

    Applicant: 清华大学

    Abstract: 本申请涉及计算机技术领域,特别涉及一种百科知识图谱动态更新方法、装置、设备及介质,其中,包括:获取百科知识图谱的待更新数据列表,其中,待更新数据列表包括待更新词条的页面文本和/或词条简介中链接的页面文本;根据预设更新周期遍历待更新数据列表,抽取待更新数据列表中页面文本的预设关键信息,基于预设关键信息更新百科知识图谱中三元组,得到更新结果;对更新结果进行结构化,得到更新后的百科知识图谱,并基于更新后的百科知识图谱更新数据库中存储的百科知识图谱。由此,解决了相关技术中需人工手动修改审核更新,无法自动更新和维护百科知识图谱,导致更新效率较低、维护成本较高等问题。

    文本数据分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113094469B

    公开(公告)日:2022-07-05

    申请号:CN202110363310.X

    申请日:2021-04-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。

    三元组作为节点的知识图谱的表示学习方法、装置及设备

    公开(公告)号:CN114661916A

    公开(公告)日:2022-06-24

    申请号:CN202210220916.2

    申请日:2022-03-08

    Applicant: 清华大学

    Abstract: 本发明提供一种三元组作为节点的知识图谱的表示学习方法、装置及设备,属于机器学习技术领域,方法通过初始化预测模型的参数,参数包括知识图谱中实体和关系的向量表示,知识图谱是三元组作为节点所构成的;遍历知识图谱中的每个三元组,确定预测模型针对每个三元组的损失;基于每个三元组的损失,利用优化器对实体和关系的向量表示进行优化,由于知识图谱本身是以三元组作为节点所构成的,该类型的知识图谱可以极大地丰富知识图谱的表示能力,且基于该知识图谱的表示学习方法,能够很好的对这类知识图谱进行表示学习。

    用于自动胎心判读的方法和装置

    公开(公告)号:CN113192629B

    公开(公告)日:2022-04-29

    申请号:CN202110501350.6

    申请日:2021-05-08

    Applicant: 清华大学

    Inventor: 许斌 孔彦 赵博文

    Abstract: 本发明提供一种用于自动胎心判读的方法和装置,其中,方法包括:对输入的胎心评价数据进行特征抽取,生成多个胎心评价特征;将胎心评价特征组输入至类型分析模型中,输出每个胎心评价特征组对应的概率密度;其中,类型分析模型为基于胎心评价样本特征及其对应的类型进行训练得到;基于每个胎心评价特征的权重值和概率密度,确定胎心评价特征组属于各个类型的概率分布;将胎心评价数据的概率分布进行线性回归处理,得到预测结果。本发明通过对每个特征的权重进行分析处理,并采用分析类型模式的方法,允许部分特征缺失提高了信息增益和采用对数据进行综合评分的处理方式,具有比传统的深度学习方法有更好的鲁棒性并且过拟合程度低。

    新闻分类方法、装置、设备及介质

    公开(公告)号:CN114398884A

    公开(公告)日:2022-04-26

    申请号:CN202111468086.7

    申请日:2021-12-03

    Applicant: 清华大学

    Abstract: 本发明提供一种新闻分类方法、装置、设备及介质,获取当前新闻数据;对所述当前新闻数据进行向量化处理,得到当前向量;确定所述当前向量和各历史聚类中心的第一距离中的最小距离;当所述最小距离小于预设值时,将所述当前向量添加到所述最小距离对应的历史聚类中心,得到待处理聚类中心;计算所述待处理聚类中心中任意两个向量之间的第二距离;当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心;将包括有所述当前向量的子聚类中心对应的类别,作为所述当前新闻数据的类别。本发明以解决现有技术中新闻分类的准确率较低的缺陷。

    一种基于大数据的物价实时监测方法和系统

    公开(公告)号:CN114358879A

    公开(公告)日:2022-04-15

    申请号:CN202111670800.0

    申请日:2021-12-31

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于大数据的物价实时监测方法和系统,涉及人工智能和数据库技术领域,该方法首先对多个平台中的相同类型商品进行自动匹配,以获得出现在至少两个平台上的相同类型商品;其次将匹配结果保存至标准文档中,并将匹配结果中的各个相同类型商品归类至物价变化指数下设的多个子类中,再对标准文档中的商品进行异常监控,以确定处于异常状态的商品数据;接着,将标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成目标子类在不同周期粒度下的物价变化指数,以此实现了一种基于互联网在线数据的居民消费价格指数的实时监测、生成方案。

    知识图谱的构建方法及系统
    58.
    发明公开

    公开(公告)号:CN114064910A

    公开(公告)日:2022-02-18

    申请号:CN202111152235.9

    申请日:2021-09-29

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱的构建方法及系统,本发明提供的知识图谱的构建方法及系统,通过获取原始数据和背景知识图谱,基于背景知识图谱,对原始数据进行知识建模,生成概念层数据,从而获得更为完整的概念层数据;同时,基于背景知识图谱,对原始数据进行百科三元组抽取和/或关系三元组抽取,获得实例层数据,从而利用百科三元组抽取和开放关系抽取相结合的方式获得更为完整的实例层数据;最后基于概念层数据和实例层数据,构建得到新的知识图谱,利用新的知识图谱可以对背景知识图谱进行更新,从而实现了对知识图谱的动态更新和在使用过程中的扩展。

    一种旅游知识语义分析方法及装置

    公开(公告)号:CN114036956A

    公开(公告)日:2022-02-11

    申请号:CN202111371152.9

    申请日:2021-11-18

    Applicant: 清华大学

    Abstract: 本发明提供一种旅游知识语义分析方法及装置。其中,该方法包括:获取待理解旅游知识文本;将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中,得到所述预训练语言模型输出的语义理解结果;其中,所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本,并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。本发明提供的旅游知识语义分析方法,能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析,以提高旅游知识文本语义理解的准确度和鲁棒性,从而提升用户的使用体验。

    融合关系短语知识的关系抽取方法、装置和电子设备

    公开(公告)号:CN113705237A

    公开(公告)日:2021-11-26

    申请号:CN202110881415.4

    申请日:2021-08-02

    Applicant: 清华大学

    Abstract: 本发明提供一种融合关系短语知识的关系抽取方法、装置和电子设备,包括:确定待抽取关系语句,以及该语句中的待抽取关系的两个实体的位置信息;将所述待抽取关系语句和所述位置信息输入抽取模型,输出所述两个实体的关系类型;其中,所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的,所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。本发明提供的方法、装置和电子设备,实现了融合关系短语的语义信息到关系类型中,提高了语句中关系类型抽取的准确率。

Patent Agency Ranking