数据处理方法及装置、电子设备、计算机可读存储介质

    公开(公告)号:CN116150700A

    公开(公告)日:2023-05-23

    申请号:CN202211556844.5

    申请日:2022-12-06

    Abstract: 本公开提供了一种数据处理方法及装置、电子设备、计算机可读存储介质。该方法包括:基于目标对象的时间序列数据获取目标对象的隐藏特征向量;基于目标对象的文本数据获取目标对象的实体特征向量和全局特征向量;其中,实体特征向量用于表征文本数据中实体的特征,全局特征向量用于表征文本数据的特征;将实体特征向量融合隐藏特征向量,获得实体融合特征向量,以及,将隐藏特征向量融合实体特征向量,获得隐藏融合特征向量;基于隐藏融合特征向量、实体融合特征向量和全局特征向量确定目标对象的多模态融合特征;基于目标对象的多模态融合特征预测目标对象出现目标状态的概率。本公开的实施例能够提高预测的准确性。

    一种关系表非键属性特征抽取与数据生成方法

    公开(公告)号:CN108920501B

    公开(公告)日:2021-09-03

    申请号:CN201810511653.4

    申请日:2018-05-25

    Applicant: 南开大学

    Abstract: 本发明提供了一种关系表非键属性特征抽取与数据生成方法。该方法可细分为三个处理阶段:特征抽取、特征变换、目标数据集生成。该方法首先对原始数据集进行特征抽取,获取特征空间,对两非键属性间频数的联合分布进行相关性度量排序;然后对抽取自原始数据集的特征空间进行特征变换;最后依照相关性度量系列从特征变换后的特征空间生成目标数据集。本发明提供了两种应用场景:特定数据模式下数据生成场景和预测数据集随时间变化的场景。本发明不但完善了关系表数据生成的研究,而且拓展了数据生成的应用场景。

    数据处理方法及计算机可读存储介质

    公开(公告)号:CN116151254A

    公开(公告)日:2023-05-23

    申请号:CN202211556169.6

    申请日:2022-12-06

    Abstract: 本公开提供了一种数据处理方法及计算机可读存储介质,所述数据处理方法用于对命名实体识别模型进行训练,包括:获取有标签训练样本对和无标签训练样本对;对应每个训练样本对,得到相应训练样本对对应的潜在表示特征并融合,进而,通过进行命名实体预测,得到有标签训练样本对的第一预测结果,以及无标签训练样本对的第二预测结果;根据每个训练样本对的潜在表示特征得到相应训练样本对的重构特征;基于第一预测结果、第二预测结果、各样本对和各样本对的重构特征确定三个损失函数,根据三个损失函数对命名实体识别模型进行训练。本公开实施例采用半监督训练,能够在保证模型准确率的情况下降低训练成本。

    一种关系表非键属性特征抽取与数据生成方法

    公开(公告)号:CN108920501A

    公开(公告)日:2018-11-30

    申请号:CN201810511653.4

    申请日:2018-05-25

    Applicant: 南开大学

    Abstract: 本发明提供了一种关系表非键属性特征抽取与数据生成方法。该方法可细分为三个处理阶段:特征抽取、特征变换、目标数据集生成。该方法首先对原始数据集进行特征抽取,获取特征空间,对两非键属性间频数的联合分布进行相关性度量排序;然后对抽取自原始数据集的特征空间进行特征变换;最后依照相关性度量系列从特征变换后的特征空间生成目标数据集。本发明提供了两种应用场景:特定数据模式下数据生成场景和预测数据集随时间变化的场景。本发明不但完善了关系表数据生成的研究,而且拓展了数据生成的应用场景。

    一种多源异构行业领域大数据处理全链路解决方案

    公开(公告)号:CN107193967A

    公开(公告)日:2017-09-22

    申请号:CN201710376130.9

    申请日:2017-05-25

    Applicant: 南开大学

    Abstract: 一种多源异构行业领域大数据处理全链路解决方案。本发明在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上,根据行业领域管理决策的应用需求,设计与实现了多源异构行业领域大数据处理全链路解决方案。本解决方案首先总结归纳了行业领域大数据处理流程,然后提出了面向行业领域大数据的三层存储架构方案,又提出了面向管理决策的多层次多维度数据分析与知识发现方案,最后搭建了面向行业领域大数据的全链路数据处理平台。

Patent Agency Ranking