一种面向流式数据的非重复采样方法

    公开(公告)号:CN110609832B

    公开(公告)日:2022-12-09

    申请号:CN201910811871.4

    申请日:2019-08-30

    Applicant: 南开大学

    Abstract: 一种面向流式数据的非重复采样方法,包括:判断全局组团直径数组的稳定性;存储部分流式数据作为训练数据集,进行数据清洗,去除冗余、不规范数据点;基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;更新全局组团直径数组;结合局部敏感哈希,对流式数据进行非重复采样,并实时维护接收集合与拒绝集合;最后每当查询到来,就可以从接受集合中随机采样出结果集合。本发明提出的面向流式数据的非重复采样方法,能够根据数据点的空间分布,信息特征准确、高效的采样具有代表性的数据点,能够极大的减少数据量,同时高度保留原始数据的信息,方便上层应用进行快捷、高效的实时分析。

    文档级别的事件论元抽取方法

    公开(公告)号:CN112528676B

    公开(公告)日:2022-07-08

    申请号:CN202011506990.8

    申请日:2020-12-18

    Applicant: 南开大学

    Abstract: 本发明提出了一种文档级别的事件论元抽取方法,本发明公开的方法是以非结构化的文档文本作为输入数据,构建基于深度学习的文档级别事件论元抽取模型,包含两个阶段,一个预训练阶段用于微调训练好的文本表示模型,一个抽取模型的训练和预测阶段用于学习各类事件角色的特征和生成预测结果,在两个阶段中均利用了事件角色的语义信息作为文本特征的扩充,以生成更加准确的事件论元抽取结果。对于普遍使用的文档级别事件论元抽取数据集,本发明的方法效果显著优于目前现有的文档级别事件论元抽取方法,证明事件角色的语义信息有助于从文档中进行事件论元的抽取。

    一种基于向量空间模型的关系词映射方法

    公开(公告)号:CN108153736B

    公开(公告)日:2021-07-02

    申请号:CN201711453984.9

    申请日:2017-12-28

    Applicant: 南开大学

    Abstract: 本发明公布了一种基于向量空间模型的关系词映射方法,属于自然语言处理领域。本发明方法的基本步骤如下:首先采用关系词与实体对之间的对应关系,通过统计实体对出现的频率及特异性构造每个关系词的特征向量。其次采用向量空间模型计算关系词与对应谓语的相似度,选取相似度值较高的谓语作为关系词的候选。最后将所有关系词的候选排序,选取具有最高可信度的谓语候选构造映射词典。本发明提出的关系词谓语映射方法,能够为自然语言中关系词与RDF图数据中谓语的自动映射提供一种有效的解决方案,达到使自然语言转换为图数据进行相应匹配的目的。

    一种无交互频率隐藏的密文插入查询删除方法

    公开(公告)号:CN112231752A

    公开(公告)日:2021-01-15

    申请号:CN202011125979.7

    申请日:2020-10-20

    Applicant: 南开大学

    Abstract: 本发明属于数据加密领域,主要应用在云存储背景下大数据存储,更具体地,涉及一种无交互频率隐藏的密文插入查询删除方法。该方法包括以下步骤,步骤S1、客户端初始化加密状态,初始化加密密钥和存储信息的数据结构,服务器端的数据库始化B+树索引;步骤S2、客户发起插入请求,客户端首先将插入sql语句进行处理,发送到服务器端,服务器端通过自定义UDF函数解析sql语句,执行数据库插入操作;步骤S3、客户发起查询请求,客户端将查询sql语句处理发送到数据库,数据库按照特定方式查询数据库并返回结果;步骤S4、客户发起删除请求,客户端进行sql语句处理发送到数据库端,数据库删除被删除项的索引并删除数据库中对应记录,返回删除结果。

    基于最近邻搜索的关系表集合外键识别方法

    公开(公告)号:CN105095522A

    公开(公告)日:2015-11-25

    申请号:CN201510616597.7

    申请日:2015-09-22

    Applicant: 南开大学

    CPC classification number: G06F17/30536

    Abstract: 本发明公布了一种基于最近邻搜索的关系表集合外键识别方法,属于数据库技术应用领域。本发明的基本步骤如下:首先改进现有的包含依赖识别方法,找出关系表中单属性和多属性的包含依赖;然后计算满足包含依赖的属性特征,包括特异元组个数、属性名、元组均值、元组方差、元组平均长度和中位数等,并将这些特征映射到高维欧氏空间中,用得到的高维向量表示原属性;最后基于外键是主键的最近邻,通过最近邻查找方法找出关系表集合中所有的外键。本发明提出的关系表集合外键识别方法,能够为大规模关系表集合自动构建外键关系提供一种有效的解决方案,该发明能应用于数据库设计、数据集成、模式匹配等领域。

    基于自注意力机制的学生退课行为可解释预测方法

    公开(公告)号:CN114626618B

    公开(公告)日:2024-08-20

    申请号:CN202210278551.9

    申请日:2022-03-17

    Applicant: 南开大学

    Abstract: 本发明属于人工智能技术领域,具体涉及一种基于自注意力机制并利用学生的在线学习行为信息和自然统计信息进行的学生退课行为可解释预测方法。相比于其他学生退课行为预测方法,本发明关注到人工智能产品的可解释性。在数据处理阶段,本发明基于对大型真实数据集的统计分析,提出了一个可拓展的跨平台特征工程策略,提取与退课行为相关的有效信息,减少无关信息的输入。在预测阶段,本发明利用自注意力机制在特征和时间两个维度上对于序列进行编码,捕捉多种特征之间的相互影响与时间阶段之间的相互依赖,从而得到最终的预测结果。此外,可以根据注意力权重的分布对预测结果进行解释,即权重越大的特征或时间阶段对于该学生的退课行为影响越大。

    基于预训练文本编码模型的分类体系扩展方法

    公开(公告)号:CN113407720B

    公开(公告)日:2023-04-25

    申请号:CN202110711017.8

    申请日:2021-06-25

    Applicant: 南开大学

    Abstract: 本发明提出了一种基于预训练文本编码模型的分类体系扩展方法。本发明利用需要扩展的分类体系和分类体系中词汇的定义文本作为输入数据,通过微调自监督训练已经在广泛域下预训练过的模型,得到根据分类路径以及词定义打分的判断模型。在自监督训练过程中,本发明使用动态差额损失函数,并基于任务设计了对应的动态差额计算方法。相比大部分需要使用大量相关语料训练和预测的现有方法,本发明减少了在训练和预测过程中所需要的语料。实验结果表明,本方法具有显著优于现有其它方法的判断准确率。

    一种面向多来源数据管理的半自动化数据采集更新方法

    公开(公告)号:CN113094382B

    公开(公告)日:2022-12-06

    申请号:CN202110363545.9

    申请日:2021-04-02

    Applicant: 南开大学

    Abstract: 本发明属于计算机领域,具体涉及用户在采集大量的有不同来源的数据时,通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。该方法包括如下步骤,步骤1、用户建立数据类型库,并为类型库配置不同来源;步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。

    一种无交互频率隐藏的密文插入查询删除方法

    公开(公告)号:CN112231752B

    公开(公告)日:2022-09-09

    申请号:CN202011125979.7

    申请日:2020-10-20

    Applicant: 南开大学

    Abstract: 本发明属于数据加密领域,主要应用在云存储背景下大数据存储,更具体地,涉及一种无交互频率隐藏的密文插入查询删除方法。该方法包括以下步骤,步骤S1、客户端初始化加密状态,初始化加密密钥和存储信息的数据结构,服务器端的数据库始化B+树索引;步骤S2、客户发起插入请求,客户端首先将插入sql语句进行处理,发送到服务器端,服务器端通过自定义UDF函数解析sql语句,执行数据库插入操作;步骤S3、客户发起查询请求,客户端将查询sql语句处理发送到数据库,数据库按照特定方式查询数据库并返回结果;步骤S4、客户发起删除请求,客户端进行sql语句处理发送到数据库端,数据库删除被删除项的索引并删除数据库中对应记录,返回删除(56)对比文件Florian Kerschbaum.“Frequency-hidingorder-preserving encryption”《.InProceedings of the 22nd ACM SIGSACConference on Computer andCommunications》.2015,

    一种面向多来源数据管理的半自动化数据采集更新方法

    公开(公告)号:CN113094382A

    公开(公告)日:2021-07-09

    申请号:CN202110363545.9

    申请日:2021-04-02

    Applicant: 南开大学

    Abstract: 本发明属于计算机领域,具体涉及用户在采集大量的有不同来源的数据时,通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。该方法包括如下步骤,步骤1、用户建立数据类型库,并为类型库配置不同来源;步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。

Patent Agency Ranking