基于异构图的数据重要性评估方法及装置

    公开(公告)号:CN117932285A

    公开(公告)日:2024-04-26

    申请号:CN202410340062.0

    申请日:2024-03-25

    Applicant: 清华大学

    Abstract: 本发明涉及数据处理技术领域,特别涉及一种基于异构图的数据重要性评估方法及装置,其中,方法包括:基于实际需求和已有数据,建立已有数据的数据异构图;通过数据重要性分数的预设公式计算数据异构图的图节点对应的数据重要性分数;利用数据异构图和图节点对应的数据重要性分数训练目标模型,生成数据重要性评估模型,评估其他图节点的数据重要性评估结果,其中,目标模型为基于HGDM‑GNN的目标模型。由此,解决了相关技术中,利用GNN对专利数据价值进行评估预测没有对含有不同边类型的异构图直接建模,实用性较差,而利用GNN获得客户数据的最终价值没有明确给出使用GNN的方法和公式,较为宽泛,较难指导应用等技术问题。

    心电信号处理方法、装置、设备及存储介质

    公开(公告)号:CN115067963A

    公开(公告)日:2022-09-20

    申请号:CN202210468734.7

    申请日:2022-04-29

    Applicant: 清华大学

    Abstract: 本申请提供一种心电信号处理方法、装置、设备及存储介质。该方法包括:从开放数据库中获取原始训练集,所述原始训练集包括多个心电数据;在所述多个心电数据中获取至少两个心电异常数据,并将所述心电异常数据输入数据生成模型,得到新的心电异常数据,所述数据生成模型为基于带通滤波器为编码器的卷积神经模型;根据所述新的心电异常数据和所述原始训练集,得到新的训练集;根据所述新的训练集对心电分类模型进行分类训练,得到训练完成的心电分类模型。本申请的方法提升特征抽取能力、数据表现力和分类的准确率。

    基于图像的处理方法、装置和设备

    公开(公告)号:CN114974519A

    公开(公告)日:2022-08-30

    申请号:CN202210481688.4

    申请日:2022-05-05

    Applicant: 清华大学

    Abstract: 本申请提供一种基于图像的处理方法、装置和设备,涉及数据处理技术和图像处理技术等技术领域。该方法包括:获取初始TCT图像信息;根据初始TCT图像信息,生成表格;对表格所记录的初始TCT图像进行采样处理,生成采样后的TCT图像;根据采样后的TCT图像,生成多个文件;根据文件内容生成训练图像集合和验证图像集合。本申请的方法,将图像信息的格式统一化,可以更快速地读取图像信息,提高图像处理的效率。

    专业百科命名实体识别方法、系统及电子设备

    公开(公告)号:CN113065355B

    公开(公告)日:2022-08-26

    申请号:CN202110525518.7

    申请日:2021-05-12

    Applicant: 清华大学

    Abstract: 本发明涉及一种人工智能,揭露一种专业百科命名实体识别方法,包括:通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。利用本发明,能够克服现有的监督学习实体识别方法中由于标注中专业语料的缺失以及人工标注文本所需的极高人力成本的缺陷,有效提高百科类文本信息抽取和实体识别的效率。

    细胞图像中细胞轮廓弯曲程度的衡量方法、系统及介质

    公开(公告)号:CN110232365B

    公开(公告)日:2021-08-24

    申请号:CN201910532431.5

    申请日:2019-06-19

    Applicant: 清华大学

    Inventor: 江瑞 谢宇恒

    Abstract: 本发明涉及图像分析技术领域,提供一种细胞图像中细胞轮廓弯曲程度的衡量方法、系统及介质。其中,方法包括:读取细胞分割掩膜图;对细胞分割掩膜图进行轮廓提取,得到初步的细胞轮廓图;对初步的细胞轮廓图中的轮廓点进行筛选处理,得到处理后的轮廓图;将处理后的轮廓图中的轮廓点坐标按序转存;将转存后的每个轮廓点坐标转化为极坐标,将半径进行归一化处理;计算半径方差和角度变化率方差,采用所述半径方差和角度变化率方差表示细胞轮廓的弯曲程度。采用本发明能够解决现有技术中难以对细胞图像中细胞轮廓的弯曲程度进行表述的问题,且表示细胞轮廓弯曲程度的两个量具有旋转不变性和相似不变性。

    一种数据标注方法、装置及计算机存储介质

    公开(公告)号:CN111046262A

    公开(公告)日:2020-04-21

    申请号:CN201911304609.7

    申请日:2019-12-17

    Applicant: 清华大学

    Abstract: 本申请公开了一种数据标注方法、装置及计算机存储介质,其中,数据标注方法包括步骤:确定目标数据集的属性信息,所述属性信息包括所述目标数据集的容量信息、数据格式信息、数据源信息、数据标签信息中的至少一项;根据所述目标数据集的属性信息、预设处理规则处理所述目标数据集并生成预处理结果;将预处理后的目标数据集导入目标自动标注模型中,以通过所述目标自动标注模型完成所述目标数据集的标注。本申请能够是实现数据集的自动标注。

    一种基于专用语料库字向量的无监督中文分词方法

    公开(公告)号:CN110263320A

    公开(公告)日:2019-09-20

    申请号:CN201910366794.6

    申请日:2019-05-05

    Applicant: 清华大学

    Inventor: 江瑞 黄浩 鲁永浩

    Abstract: 本发明公开了一种基于专用语料库字向量的无监督中文分词方法,该方法包括预处理语料库,得到在语料库上的每个字对应的字向量;根据所述字向量计算出字间粘连度;计算出最佳分词路径实现无监督中文分词。对于字向量的训练,采用开源的word2vec方法,将中文语料中的每一个字对应得到一个向量,训练后,基于句子中每个字的字向量,计算每两个相邻字的字向量粘连度,在相邻字之间粘连度最小处分割,实现分词。该方法可以通过对语料进行无监督的训练进行信息提取,并利用信息直接对输入语句进行分词,便于对语料进行命名实体识别等其他任务的处理。

    病理图像相似性检测方法及检测装置

    公开(公告)号:CN110245657A

    公开(公告)日:2019-09-17

    申请号:CN201910411362.2

    申请日:2019-05-17

    Applicant: 清华大学

    Inventor: 江瑞 杨鹏帅

    Abstract: 一种病理图像相似性检测方法及检测装置,检测方法包括:获取病理图像,对病理图像上至少一个感兴趣区域进行标注,并将各标注的感兴趣区域归类整理;将所有标注的感兴趣区域划分为两部分,一部分作为训练图像,另一部分用来建立病理图像库;将训练图像的前景切分为多个图块,为图块分配与所属感兴趣区域同样的类别;采用深度卷积神经网络模型提取具有类别标签的图块中的特征并分类,从而训练深度卷积神经网络模型;将测试图像输入到训练好的深度卷积神经网络模型中,深度卷积神经网络模型输出该测试图像所属的类别,并根据该测试图像所属类别,在病理图像库中搜索相应类别的病理图像。本方法可快速提高病理医生的阅片能力以及阅片结果的可信度。

    宫颈病理图像处理方法和装置

    公开(公告)号:CN114972209B

    公开(公告)日:2024-12-27

    申请号:CN202210482530.9

    申请日:2022-05-05

    Applicant: 清华大学

    Abstract: 本申请提供一种宫颈病理图像处理方法和装置,涉及图像处理技术领域。该方法包括:获取宫颈病理图像,并将宫颈病理图像转换为灰度图像;获取灰度图像的掩膜图像;对掩膜图像的图像边缘进行求解,确定具有第一外接圆的第一掩膜图像;对灰度图像的感兴趣区域以外的区域进行检测,确定是否存在出界点,感兴趣区域为灰度图像中与第一掩膜图像取交集的区域;若感兴趣区域以外的区域存在出界点,则对第一外接圆进行再次求解,直至确定具有第二外接圆的第二掩膜图像,第二掩膜图像使得感兴趣区域以外的区域不存在出界点;采用第二掩膜图像对宫颈病理图像进行掩膜切割,得到宫颈病理图像的目标分割图像。本申请的方法提高了宫颈病理图像处理的准确率。

Patent Agency Ranking