-
公开(公告)号:CN119939039A
公开(公告)日:2025-05-06
申请号:CN202510436912.1
申请日:2025-04-09
Applicant: 南开大学
IPC: G06F16/9535 , G06F18/213 , G06F18/25 , G06N3/042 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明涉及数据挖掘技术领域,提供一种基于反事实对比预训练的多模态推荐方法、系统和装置。获取用户数据、项目数据和用户项目之间的交互数据得到用户项目交互图,根据用户项目交互图构建反事实交互图;根据项目原始多模态特征得到净化后的项目模态特征;根据反事实交互图得到用户模态特征;根据协同特征和模态特征得到预训练的多模态表征;根据协同过滤模型,在用户项目交互图上微调预训练的多模态表征,得到最终用户表征和最终项目表征,根据最终表征计算用户对每个项目的偏好得分,根据偏好得分进行排序得到推荐列表。本发明通过充分利用未交互项目的多模态内容,有效地捕捉了用户的潜在兴趣偏好,可以明显提升推荐准确性。
-
公开(公告)号:CN114626618A
公开(公告)日:2022-06-14
申请号:CN202210278551.9
申请日:2022-03-17
Applicant: 南开大学
IPC: G06Q10/04 , G06Q50/20 , G06F16/2458 , G06K9/62
Abstract: 本发明属于人工智能技术领域,具体涉及一种基于自注意力机制并利用学生的在线学习行为信息和自然统计信息进行的学生退课行为可解释预测方法。相比于其他学生退课行为预测方法,本发明关注到人工智能产品的可解释性。在数据处理阶段,本发明基于对大型真实数据集的统计分析,提出了一个可拓展的跨平台特征工程策略,提取与退课行为相关的有效信息,减少无关信息的输入。在预测阶段,本发明利用自注意力机制在特征和时间两个维度上对于序列进行编码,捕捉多种特征之间的相互影响与时间阶段之间的相互依赖,从而得到最终的预测结果。此外,可以根据注意力权重的分布对预测结果进行解释,即权重越大的特征或时间阶段对于该学生的退课行为影响越大。
-
公开(公告)号:CN107992608B
公开(公告)日:2021-07-02
申请号:CN201711344360.3
申请日:2017-12-15
Applicant: 南开大学
IPC: G06F16/242
Abstract: 一种基于关键字上下文的SPARQL查询语句自动生成方法,属于数据库技术应用领域。包括:采用RDF数据到标签图的映射方法,基于实体类型和实体之间关系对RDF标签图进行模式摘要处理;构建包含节点在RDF标签图中位置信息的两层关键字索引;利用关键字索引将用户输入的关键字映射至RDF标签图中节点,采用后向搜索算法在RDF模式图中寻找包含关键字的子图;最后基于子图与用户查询意图的相关度对结果进行计分排序,将得分较高的结果转化为SPARQL查询语句。本发明提出的SPARQL查询语句自动生成方法,能够根据关键字准p确、高效地生成符合用户查询意图的SPARQL查询语句,达到帮助用户快速查询信息的目的。
-
公开(公告)号:CN110597857A
公开(公告)日:2019-12-20
申请号:CN201910811714.3
申请日:2019-08-30
Applicant: 南开大学
IPC: G06F16/2455
Abstract: 一种基于共享样本的在线聚集方法,属于数据库技术应用领域。该方法包括:基于查询子句的特征和数据表特征,在线生成样本表;建立样本缓存池,将创建好的样本存储在样本缓存池中备用;指定共享样本的策略,当新的查询到来时,首先去样本缓存池中查询是否有需要的样本,如果没有的话再创建新的样本。相比于离线采样的方法来说,本发明在创建样本时考虑到了查询的特征,能够使查询所使用的样本更有效。同时,本发明适用于处理多条连续查询,通过样本缓存池存储样本和不同查询之间共享样本,避免重复创建样本,提高了连续查询的查询效率。
-
公开(公告)号:CN116230146A
公开(公告)日:2023-06-06
申请号:CN202211228635.8
申请日:2022-10-09
Applicant: 马上消费金融股份有限公司 , 南开大学
IPC: G16H10/60 , G06F40/216 , G06F40/279 , G06N3/0464
Abstract: 本申请公开了一种数据处理方法、ICD编码模型的训练方法及相关设备,用于解决相关技术中存在的ICD编码的获取效率低和准确性低的问题。数据处理方法包括:从目标对象的线上病历数据中获取目标对象的生理特征数据,并通过ICD编码模型的决策树模块对生理特征数据进行嵌入处理得到第一表示向量;从目标对象的线下病历数据中获取与目标对象的临床表现相关的目标词语,并通过ICD编码模型的文本编码模块对目标词语进行嵌入处理得到第二表示向量;通过ICD编码模型的注意力处理模块基于注意力机制将第一表示向量和第二表示向量融合为多模态表示向量,并基于多模态表示向量对目标对象进行分类识别,得到第一目标ICD编码。
-
公开(公告)号:CN110597857B
公开(公告)日:2023-03-24
申请号:CN201910811714.3
申请日:2019-08-30
Applicant: 南开大学
IPC: G06F16/2455
Abstract: 一种基于共享样本的在线聚集方法,属于数据库技术应用领域。该方法包括:基于查询子句的特征和数据表特征,在线生成样本表;建立样本缓存池,将创建好的样本存储在样本缓存池中备用;指定共享样本的策略,当新的查询到来时,首先去样本缓存池中查询是否有需要的样本,如果没有的话再创建新的样本。相比于离线采样的方法来说,本发明在创建样本时考虑到了查询的特征,能够使查询所使用的样本更有效。同时,本发明适用于处理多条连续查询,通过样本缓存池存储样本和不同查询之间共享样本,避免重复创建样本,提高了连续查询的查询效率。
-
公开(公告)号:CN110597876A
公开(公告)日:2019-12-20
申请号:CN201910812371.2
申请日:2019-08-30
Applicant: 南开大学
IPC: G06F16/2458
Abstract: 一种基于离线学习历史查询预测未来查询的近似查询方法,属于数据库技术应用领域。步骤如下:第1、离线学习历史查询对底层数据分布建模,第1.1、将复杂的SQL查询拆分为简单查询;第1.2、提取SQL查询和近似结果中包含的特征;第1.3、利用历史查询、近似结果和真实结果对底层数据分布建模;第2、在线预测新到来查询的结果,第2.1、将新到来的查询拆分为简单查询;第2.2、为每个简单查询在线预测查询结果;第2.3、将简单查询的预测结果合并输出最终的预测结果。本发明可以降低构建底层数据分布模型的复杂度同时提高其精确度,在没有多余时间消耗的情况下可以提高查询的精确度。
-
公开(公告)号:CN105095522B
公开(公告)日:2018-09-25
申请号:CN201510616597.7
申请日:2015-09-22
Applicant: 南开大学
IPC: G06F17/30
Abstract: 本发明公布了一种基于最近邻搜索的关系表集合外键识别方法,属于数据库技术应用领域。本发明的基本步骤如下:首先改进现有的包含依赖识别方法,找出关系表中单属性和多属性的包含依赖;然后计算满足包含依赖的属性特征,包括特异元组个数、属性名、元组均值、元组方差、元组平均长度和中位数等,并将这些特征映射到高维欧氏空间中,用得到的高维向量表示原属性;最后基于外键是主键的最近邻,通过最近邻查找方法找出关系表集合中所有的外键。本发明提出的关系表集合外键识别方法,能够为大规模关系表集合自动构建外键关系提供一种有效的解决方案,该发明能应用于数据库设计、数据集成、模式匹配等领域。
-
公开(公告)号:CN120046772A
公开(公告)日:2025-05-27
申请号:CN202510048462.9
申请日:2025-01-13
Applicant: 南开大学 , 新奥新智科技有限公司
Abstract: 本发明涉及多变量时序数据预测技术领域,尤其涉及一种自适应滞后关系建模的供热数据预测方法、系统及装置。具体步骤包括:对工业数据集进行数据预处理,得到归一化后时间序列并进行分割得到时序数据的真实值;对时序数据的真实值进行滞后关系计算得到滞后关系表征;将滞后关系表征进行辅助预测得到时序数据的预测值;根据时序数据的真实值和时序数据的预测值计算滞后关系损失和均方误差,根据滞后关系损失和均方误差联合训练,得到供热数据预测模型;将待预测数据输入到供热数据预测模型得到供热数据预测结果。本发明解决了预测供热系统数据的不稳定、鲁棒性低的问题,达到了提高了对实时供热系统数据预测的适应性和稳健性。
-
公开(公告)号:CN110597876B
公开(公告)日:2023-03-24
申请号:CN201910812371.2
申请日:2019-08-30
Applicant: 南开大学
IPC: G06F16/2458
Abstract: 一种基于离线学习历史查询预测未来查询的近似查询方法,属于数据库技术应用领域。步骤如下:第1、离线学习历史查询对底层数据分布建模,第1.1、将复杂的SQL查询拆分为简单查询;第1.2、提取SQL查询和近似结果中包含的特征;第1.3、利用历史查询、近似结果和真实结果对底层数据分布建模;第2、在线预测新到来查询的结果,第2.1、将新到来的查询拆分为简单查询;第2.2、为每个简单查询在线预测查询结果;第2.3、将简单查询的预测结果合并输出最终的预测结果。本发明可以降低构建底层数据分布模型的复杂度同时提高其精确度,在没有多余时间消耗的情况下可以提高查询的精确度。
-
-
-
-
-
-
-
-
-