基于逐层感知机制的生物医学嵌套类型实体识别方法

    公开(公告)号:CN113033207B

    公开(公告)日:2023-08-29

    申请号:CN202110373760.7

    申请日:2021-04-07

    Applicant: 东北大学

    Abstract: 本发明提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法,涉及数据挖掘和自然语言处理技术领域。该方法包括基于向量模式的生物医学文本表示、基于循环神经网络的隐藏特征编码与解码、基于多任务逐层感知机制的嵌套类型实体识别。步骤1为生物医学文本表示步骤,利用一位编码法和预训练特征向量对文本单词构建字符特征和语义特征。步骤2为隐藏特征提取,利用循环神经网络和RELU激活函数对初始特征进行隐藏信息发现、编码与解码。步骤3为多任务逐层感知机制,利用归一化函数在步骤2基础上,识别简单实体,通过迭代组合方法,逐层感知识别嵌套类型实体。本发明可以对生物医学文本中的嵌套类型实体进行识别提取,并取得较好的效果。

    一种融合知识图谱和时序特征的可解释兴趣点推荐方法

    公开(公告)号:CN113656709B

    公开(公告)日:2023-07-25

    申请号:CN202110972282.1

    申请日:2021-08-24

    Applicant: 东北大学

    Abstract: 本发明公开了一种融合知识图谱和时序特征的可解释兴趣点推荐方法,涉及兴趣点推荐技术领域。该方法主要包括三个部分:知识图谱构建、实体间的潜在关系表示学习及用户行为的时序动态性捕捉、输出可解释的推荐结果,实体间的潜在关系表示学习是基于构建的知识图谱实现的,通过捕捉实体间的多条潜在关系路径,学习实体间的潜在关系表示,并进一步利用用户的签到序列,即融合路径静态信息和时序动态信息来学习用户偏好,最后基于学习到的用户偏好为用户推荐兴趣点,并提供推荐结果的解释。本发明能够在保证推荐精准度的同时,生成可解释的推理路径,通过提供推荐结果的解释,保证推荐方法的透明度,进而提高用户对推荐结果的信任水平和接受度。

    一种面向数据集成的多粒度溯源方法

    公开(公告)号:CN116304220A

    公开(公告)日:2023-06-23

    申请号:CN202211545898.1

    申请日:2022-12-05

    Applicant: 东北大学

    Abstract: 本发明提供一种面向数据集成的多粒度溯源方法,首先分析现有面向数据集成任务的溯源方法的不足,依据数据集成任务的特点提出多粒度溯源模型;其次构建一个数据集成溯源过程模型,用户可以选择使用数据集成溯源工具箱中任意多个数据集成子单元来构建数据集成工作流;再次基于溯源模型和数据集成工作流产生的溯源元信息,在图数据库中构建多粒度溯源图;最后设计多粒度溯源查询,从多个粒度回放数据集成的过程,包括粗粒度溯源查询和细粒度溯源查询。采用本发明提出的面向数据集成的多粒度溯源方法,可以从活动级和实体级回放数据集成过程,提高数据集成的可解释性、可信性和可重复性。

    一种基于CPU-GPU异构体系结构的并行相似性连接方法

    公开(公告)号:CN111046092B

    公开(公告)日:2022-06-17

    申请号:CN201911057101.1

    申请日:2019-11-01

    Applicant: 东北大学

    Abstract: 本发明公开一种基于CPU‑GPU异构体系结构的并行相似性连接方法,属于计算机数据库技术与并行计算技术领域。该方法通过对数据相似性连接方法进行分析设计,构建新的倒排索引结构,实现在GPU上并行构建倒排索引,对相似性连接方法进行分解,根据两种处理器不同的计算特性重新设计计算过程,基于GPU实现双重前缀过滤,有效减小候选集体积。本发明提供的基于CPU‑GPU异构体系结构的相似性连接方法能够将传统的数据相似性连接准确地转换到CPU‑GPU异构计算体系上,从而有效提高大规模数据集相似性连接的处理效率。

    基于概率图模型的网络表格列类型检测方法

    公开(公告)号:CN114417885A

    公开(公告)日:2022-04-29

    申请号:CN202210070769.5

    申请日:2022-01-21

    Applicant: 东北大学

    Abstract: 本发明提供一种基于概率图模型的网络表格列类型检测方法,属于语义网中的表格解释领域。该方法包括:将来自同一网站下属于相同模式的表格拼接成一张表格;针对拼接表格进行单列分类:首先将所述拼接表格中的列划分为数值型列和字符型列,然后分别针对数值型列和字符型列进行分类;在单列分类结果的基础上通过构建概率图模型挖掘列间隐含的语义关系,实现对整张表的列类型序列的检测。可以对网络表格中列的语义类型进行检测并取得较好的效果,相对于其它列类型检测方法,准确率均有10%及以上提高。

    一种融合知识图谱和时序特征的可解释兴趣点推荐方法

    公开(公告)号:CN113656709A

    公开(公告)日:2021-11-16

    申请号:CN202110972282.1

    申请日:2021-08-24

    Applicant: 东北大学

    Abstract: 本发明公开了一种融合知识图谱和时序特征的可解释兴趣点推荐方法,涉及兴趣点推荐技术领域。该方法主要包括三个部分:知识图谱构建、实体间的潜在关系表示学习及用户行为的时序动态性捕捉、输出可解释的推荐结果,实体间的潜在关系表示学习是基于构建的知识图谱实现的,通过捕捉实体间的多条潜在关系路径,学习实体间的潜在关系表示,并进一步利用用户的签到序列,即融合路径静态信息和时序动态信息来学习用户偏好,最后基于学习到的用户偏好为用户推荐兴趣点,并提供推荐结果的解释。本发明能够在保证推荐精准度的同时,生成可解释的推理路径,通过提供推荐结果的解释,保证推荐方法的透明度,进而提高用户对推荐结果的信任水平和接受度。

    一种安全多方数值型记录匹配方法

    公开(公告)号:CN108334577B

    公开(公告)日:2020-02-07

    申请号:CN201810067980.5

    申请日:2018-01-24

    Applicant: 东北大学

    Abstract: 本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。

    一种基于NVM存储设备的自适应基数树ART与跳表的混合索引结构

    公开(公告)号:CN120030196A

    公开(公告)日:2025-05-23

    申请号:CN202510517793.2

    申请日:2025-04-24

    Applicant: 东北大学

    Abstract: 本发明属于数据库技术领域,公开了一种基于NVM存储设备的自适应基数树ART与跳表的混合索引结构。包括主索引结构和辅助索引结构;辅助索引结构基于主索引结构构建,用于加速主索引结构的索引过程;主索引结构为NVM存储设备下的ART索引结构;辅助索引结构为跳表。本发明解决深层次索引效率低下问题,而且充分利用ART索引结构的前缀特性,维护简单,高效更新机制减少部分性能衰减。基于新型存储设备,可以持久化,读写延迟相对磁盘低,通过更新操作解耦等特定优化,充分利用NVM存储设备的特性。提出的动态监测模块不需要调整整体结构,只是改变其执行策略,操作简单,成本低。

    一种在区块链数据库上针对关键字key的索引方法

    公开(公告)号:CN109165224B

    公开(公告)日:2021-02-19

    申请号:CN201810971875.4

    申请日:2018-08-24

    Applicant: 东北大学

    Abstract: 本发明提供一种在区块链数据库上针对关键字key的索引方法,涉及区块链数据查询技术领域。该方法首先普通节点根据用户输入的带关键字key的原始数据生成交易记录;存储节点将交易打包到区块中;将区块数据追加写入磁盘文件;根据key值查询交易数据,输出查询结果;普通用户对结果进行可信性验证。本发明直接根据数据关键字进行索引,实现数据的可查询性;将传统区块链中的交易结构扩展到可存储类似于传统数据库的模式结构,提高适用性;根据数字签名技术管理数据权限,提高数据安全性;根据MerkleRBTree自我感知索引是否被篡改,根据交易哈希感知交易是否被篡改,从而保证数据不可篡改性;同时实现轻量级节点的数据验证功能,使得查询端能有效检测数据可信性。

    一种支持用户私有IP发现的跨屏追踪方法

    公开(公告)号:CN108924246B

    公开(公告)日:2021-01-01

    申请号:CN201810826981.3

    申请日:2018-07-25

    Applicant: 东北大学

    Abstract: 本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF‑IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F‑0.5值上都有较大幅度的提升。

Patent Agency Ranking