基于异构图的数据重要性评估方法及装置

    公开(公告)号:CN117932285A

    公开(公告)日:2024-04-26

    申请号:CN202410340062.0

    申请日:2024-03-25

    Applicant: 清华大学

    Abstract: 本发明涉及数据处理技术领域,特别涉及一种基于异构图的数据重要性评估方法及装置,其中,方法包括:基于实际需求和已有数据,建立已有数据的数据异构图;通过数据重要性分数的预设公式计算数据异构图的图节点对应的数据重要性分数;利用数据异构图和图节点对应的数据重要性分数训练目标模型,生成数据重要性评估模型,评估其他图节点的数据重要性评估结果,其中,目标模型为基于HGDM‑GNN的目标模型。由此,解决了相关技术中,利用GNN对专利数据价值进行评估预测没有对含有不同边类型的异构图直接建模,实用性较差,而利用GNN获得客户数据的最终价值没有明确给出使用GNN的方法和公式,较为宽泛,较难指导应用等技术问题。

    心电信号处理方法、装置、设备及存储介质

    公开(公告)号:CN115067963A

    公开(公告)日:2022-09-20

    申请号:CN202210468734.7

    申请日:2022-04-29

    Applicant: 清华大学

    Abstract: 本申请提供一种心电信号处理方法、装置、设备及存储介质。该方法包括:从开放数据库中获取原始训练集,所述原始训练集包括多个心电数据;在所述多个心电数据中获取至少两个心电异常数据,并将所述心电异常数据输入数据生成模型,得到新的心电异常数据,所述数据生成模型为基于带通滤波器为编码器的卷积神经模型;根据所述新的心电异常数据和所述原始训练集,得到新的训练集;根据所述新的训练集对心电分类模型进行分类训练,得到训练完成的心电分类模型。本申请的方法提升特征抽取能力、数据表现力和分类的准确率。

    基于图像的处理方法、装置和设备

    公开(公告)号:CN114974519A

    公开(公告)日:2022-08-30

    申请号:CN202210481688.4

    申请日:2022-05-05

    Applicant: 清华大学

    Abstract: 本申请提供一种基于图像的处理方法、装置和设备,涉及数据处理技术和图像处理技术等技术领域。该方法包括:获取初始TCT图像信息;根据初始TCT图像信息,生成表格;对表格所记录的初始TCT图像进行采样处理,生成采样后的TCT图像;根据采样后的TCT图像,生成多个文件;根据文件内容生成训练图像集合和验证图像集合。本申请的方法,将图像信息的格式统一化,可以更快速地读取图像信息,提高图像处理的效率。

    专业百科命名实体识别方法、系统及电子设备

    公开(公告)号:CN113065355B

    公开(公告)日:2022-08-26

    申请号:CN202110525518.7

    申请日:2021-05-12

    Applicant: 清华大学

    Abstract: 本发明涉及一种人工智能,揭露一种专业百科命名实体识别方法,包括:通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。利用本发明,能够克服现有的监督学习实体识别方法中由于标注中专业语料的缺失以及人工标注文本所需的极高人力成本的缺陷,有效提高百科类文本信息抽取和实体识别的效率。

    基于病历文本的病人相似性度量装置及方法

    公开(公告)号:CN108877880B

    公开(公告)日:2020-11-20

    申请号:CN201810697392.X

    申请日:2018-06-29

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于病历文本的病人相似性度量装置及方法,包括病历向量样本库存储部,存储第一病历向量;标签标注部;预处理部,将第一病历向量转化为第一连续数值型病历向量;连续病历向量存储部,存储第一连续数值型病历向量;距离度量矩阵获得部,学习第一连续数值型病历向量,获得距离度量矩阵;病历向量提取部,提取第二病历向量;连续病历向量获得部,获得第二连续数值型病历向量;比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;输出部,选取与第二病历文本的相似的一个或多个第一病历文本并输出。本发明可以得到不同评价指标下病人的相似性。

    胶质瘤的类型识别方法、模型训练方法、装置、设备

    公开(公告)号:CN114972849B

    公开(公告)日:2025-03-25

    申请号:CN202210505393.6

    申请日:2022-05-10

    Applicant: 清华大学

    Abstract: 本公开提供的一种胶质瘤的类型识别方法、模型训练方法、装置、设备,涉及图像处理技术,包括:获取胶质瘤的组织病理图像;将组织病理图像输入预设识别模型,提取胶质瘤中各目标图块的各特征向量,基于第一通道对各特征向量进行处理,得到与每种类型对应的第一分类信息以及目标向量,基于第二通道对目标向量进行处理,得到与每种类型对应的第二分类信息;对第一分类信息和第二分类信息进行处理,得到目标分类结果。本方案中,可以通过第一通道得到每种类型对应的第一分类信息以及目标向量;通过第二通道对目标向量进行处理,得到每种类型对应的第二分类信息;根据第一、第二分类信息,得到分类结果。可在一定程度上提高分型的准确率。

    二阶段联邦学习方法、系统

    公开(公告)号:CN113723617B

    公开(公告)日:2024-08-06

    申请号:CN202110986930.9

    申请日:2021-08-26

    Applicant: 清华大学

    Abstract: 本发明提供一种二阶段联邦学习方法、系统,按照预设的第一轮次数重复基于特征融合算法根据本地模型和新全局模型进行一阶段联邦学习,以更新本地模型的本地权重和新全局模型的参数,并将更新的新全局模型作为二阶段全局模型,再通过预设的测试数据对二阶段全局模型进行收敛测试以获取准确率,若准确率收敛,则将二阶段全局模型作为客户端的二阶段本地模型,并重复基于联邦平均算法进行二阶段联邦学习,以更新二阶段本地模型的本地权重,若重复次数达到预设的第二轮次数,则完成二阶段联邦学习,如此,改变原模型训练的损失函数,使得本地模型在更新时更接近于从服务器端收到的全局模型,从而减轻用户本地数据的过多影响,进而使模型更快地具有泛化能力,提高收敛速度。

    安全分布式时间管理方法、系统

    公开(公告)号:CN114422137B

    公开(公告)日:2024-04-30

    申请号:CN202111508147.8

    申请日:2021-12-10

    Applicant: 清华大学

    Abstract: 本发明提供一种安全分布式时间管理方法,首先对各个节点进行协议初始化处理,使各个节点对哈希算法的参数的选择达成共识,并根据预设的单轮时间按轮次执行协议,基于该协议中的状态算法接收需要登记时间戳的记录,将所述记录封装为区块并广播,实时接收其他节点产生的区块,并将区块连接为有向无环图,通过时间戳算法输出记录的时间戳,通过证明算法输出用于验证时间戳与记录的轮次证明;而后通过验证算法对轮次证明进行参数解析以判断时间戳的有效性,若时间戳有效则完成当前的时间戳管理,整个过程以有向无环图链存储和管理时间戳,且经过验证算法的验证,如此提高安全性和可靠性,并且具有高节点容量和高吞吐量,能够支持大规模时间戳应用。

Patent Agency Ranking