-
公开(公告)号:CN114118273B
公开(公告)日:2024-04-26
申请号:CN202111425938.4
申请日:2021-11-24
Applicant: 南开大学
IPC: G06F18/241 , G06F40/30 , G06F40/284
Abstract: 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法,包括:选择原始数据集;通过BERT学习文本中每个词的高层语义表示;将文本切分成等长的若干个文本块,通过对文本块内每个词的高层语义表示求平均,获得整个文本块的表示;通过注意力机制计算每个文本块的表示和标签的向量表示的相关度,对所有文本块的表示进行融合,经过训练后得到完整的标签‑文本块关系模型,再根据相关度进行数据增强,最终输出增强后的新数据集。本发明考虑了标签和文本块之间的关系,利用模型学习标签和文本之间的关联性,基于“长尾”标签相关联的文本块对原始数据中不重要的文本块进行替换,对各种已有模型在新数据集上的多标签分类效果获得了显著的提升。
-
公开(公告)号:CN116089576A
公开(公告)日:2023-05-09
申请号:CN202211398794.2
申请日:2022-11-09
Applicant: 南开大学
IPC: G06F16/332 , G06F16/35 , G06F40/242 , G06F40/35 , G06N3/0455 , G06N3/047 , G06N3/08
Abstract: 一种基于预训练模型的完全生成式知识问答对生成方法,包括:选择原始数据集,处理成 的格式;通过预训练模型学习文本中每个词的高层语义表示以及问题和答案的最终输出表示;结合答案的输出表达与学习到的文本高层语义表示,借助指针生成网络可以从源文本中复制单词,最终通过生成器最终的答案;在生成完答案之后,将已经生成的信息通过答案引导的多头注意力机制融入到问题的输出表示中,最后利用生成器生成问题。本发明考虑了答案和问题生成的语义兼容性,利用统一生成式的模型解决在训练过程中答案和问题之间跨任务交流,提高了答案生成的综合表达能力,缓解了由于任务难度引起了优化不平衡问题。
-
公开(公告)号:CN109409561B
公开(公告)日:2022-04-19
申请号:CN201810958160.5
申请日:2018-08-22
Abstract: 本发明公开了一种多时间尺度时间序列协同预测模型的构建方法,包括:步骤1),输入用户用电情况随着时间的变化而产生的记录数据,根据所述记录数据构建相关的时序表示;步骤2),基于步骤1)得到的时序表示,对所有用电数据进行分析,捕获不同的特征并分析其相对应的变化规律,并以此来构建时间尺度矩阵序列;步骤3),根据步骤1)和步骤2)的输出,构建用电数据时间序列的预测模型,所述时间序列的预测模型为多尺度RNN模型;步骤4),根据步骤1)、步骤2)和步骤3)的输出,以及外部因素的输出进行加权融合求解,得到多时间尺度用电时序数据协同预测模型。本发明的方法使得用户用电情况预测的准确率得到提升。
-
公开(公告)号:CN114118273A
公开(公告)日:2022-03-01
申请号:CN202111425938.4
申请日:2021-11-24
Applicant: 南开大学
IPC: G06K9/62 , G06F40/30 , G06F40/284
Abstract: 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法,包括:选择原始数据集;通过BERT学习文本中每个词的高层语义表示;将文本切分成等长的若干个文本块,通过对文本块内每个词的高层语义表示求平均,获得整个文本块的表示;通过注意力机制计算每个文本块的表示和标签的向量表示的相关度,对所有文本块的表示进行融合,经过训练后得到完整的标签‑文本块关系模型,再根据相关度进行数据增强,最终输出增强后的新数据集。本发明考虑了标签和文本块之间的关系,利用模型学习标签和文本之间的关联性,基于“长尾”标签相关联的文本块对原始数据中不重要的文本块进行替换,对各种已有模型在新数据集上的多标签分类效果获得了显著的提升。
-
公开(公告)号:CN111667238A
公开(公告)日:2020-09-15
申请号:CN202010453590.9
申请日:2020-05-26
Applicant: 南开大学
Abstract: 一种基于技能感知多注意力机制的招聘启事生成方法,涉及计算机应用技术领域。将基本信息数据拆分为词序列,初始化为词向量的形式作为词的浅层语义表示;利用全局的招聘启事数据构建知识图谱,输入经处理后的局部信息,初始化每个词的浅层语义表示,同时输入全局信息和对应基本信息。基于局部信息的输出,学习工作任务中每个词的高层语义表示生成技能词序列、文本词序列,并优化文本词序列中的技能词。本发明既考虑了局部的工作任务的语义特征以及基于它预测的技能词序列特征,又考虑了全局的先验专业技能知识语义特征,并将两部分预测到的词概率分布进行了加权求和,可以挖掘出招聘启事广告中的技能信息,提高了技能需求文档的生成质量。
-
公开(公告)号:CN111104797A
公开(公告)日:2020-05-05
申请号:CN201911300281.1
申请日:2019-12-17
Applicant: 南开大学
IPC: G06F40/279 , G06F40/289 , G06F40/30 , G06F40/58
Abstract: 一种基于对偶的序列到序列生成的论文网络表示学习方法,该方法包括:论文平行序列生成部分;论文节点识别部分(论文内容嵌入,论文内容序列编码,论文标识序列生成);论文内容生成部分(论文节点标识嵌入,论文标识序列编码,论文语义解码,论文内容生成);和对偶融合部分。本发明综合论文网络中论文节点的内容信息(即论文的题目或摘要)和论文间的结构信息(即论文间的引用关系),通过两种信息的互相映射过程将两种信息融合得更充分,学习到更具有含义的论文节点的表征。本发明还可以在解码出输入论文序列的文本内容之后继续解码出新的文本,即考虑到输入的论文序列的结构信息和内容信息之后预测出的新的论文内容。
-
公开(公告)号:CN106778880A
公开(公告)日:2017-05-31
申请号:CN201611203288.8
申请日:2016-12-23
Applicant: 南开大学
Abstract: 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。本发明通过对微博中话题标签进行分析,综合利用话题标签间共现信息及话题标签所在微博的向量空间表达这两种模态进行话题标签的表达建模。通过这两种信息得到的表达同时包含了话题标签本身相似性及所在微博的相似性。对话题标签的共现信息及微博的向量空间表达分别采用不同的深度玻尔兹曼机进行建模,最后将两个模态结果通过多模态的深度玻尔兹曼机进行联合学习,从而得到对联合两种模态的多模态表达。通过对得到的话题标签的多模态表达进行聚类,可将其中相似的话题标签聚到一起,从而提取出相应的微博主题。对于不含话题标签的微博,也可通过本模型生成话题标签,进而进行主题发现。
-
公开(公告)号:CN103861869A
公开(公告)日:2014-06-18
申请号:CN201410136171.7
申请日:2014-04-05
Applicant: 南开大学
IPC: B09C1/08
Abstract: 本发明提供了一种氯氰菊酯污染土壤的修复方法,属于土壤生态修复的应用领域。本方法利用玉米秸秆为主要原材料,使用马弗炉热解制备土壤修复剂生物炭,而后以一定比例施用到被氯氰菊酯污染的土壤中,对其进行修复。主要包括以下步骤:(1)原材料的采集和土壤修复剂的制备(2)将土壤修复剂以一定比例施用到氯氰菊酯污染土壤中(3)氯氰菊酯污染物质降解状况的检测控制。本方法流程简单,成本低,具有广阔的应用范围和条件;生物炭的原材料为农林废弃物及生物转化废弃物,其来源广泛,并且生物炭的施用能有效修复氯氰菊酯污染土壤。
-
公开(公告)号:CN103778785A
公开(公告)日:2014-05-07
申请号:CN201210403965.6
申请日:2012-10-23
Applicant: 南开大学
IPC: G08G1/017
Abstract: 本发明公开了一种基于停车场环境视频监控的车辆跟踪与检测方法,涉及模式识别领域,运动目标的检测、跟踪,视频监控问题。通过本发明,停车场环境的监控问题不但被更准确的获得,而且相对传统人工监控手段,本发明具有实时不间断监控的特点,而且引入了模式识别的算法的使用,通过对车辆目标的检测以及时间段内的各帧图像之间的关联分析等方式,获得了车辆的目标状态,进而得到停车场的环境状况,解决了停车场环境的智能监控问题。
-
公开(公告)号:CN103778141A
公开(公告)日:2014-05-07
申请号:CN201210404052.6
申请日:2012-10-23
Applicant: 南开大学
IPC: G06F17/30
CPC classification number: G06F17/2282 , G06F17/2745
Abstract: 本发明公开了一种混合PDF图书目录自动抽取方法,涉及信息抽取领域,XML数据的抽取分析任务,目录抽取问题。通过本发明,PDF图书目录不但被更准确的识别,而且相对目前现有的基于目录页内容分析的目录抽取方法,具有处理无目录页图书的目录的能力,而且通过获得的目录项的分析,完成了目录项的定位导航功能,并对目录项进行分级的操作,方便用户更好的理解图书的层级结构,完成了PDF图书的目录抽取建立任务,提升了用户的浏览体验。
-
-
-
-
-
-
-
-
-