-
公开(公告)号:CN109977988A
公开(公告)日:2019-07-05
申请号:CN201811643314.8
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06K9/62
Abstract: 本发明提出一种针对海量类别数据进行分批分类的机器学习方法及系统,包括:将海量类别数据拆分成多个子分类任务,每个子分类任务只建立局部类别的分类器,满足内存资源可以实现;多个子分类器结果进行集成,进行二次分类,确定最终的分类结果。通过本发明,可解决分类数量过多时,导致的模型存储空间,超过计算机语言自身限制,导致无法进行机器学习训练问题;可解决将单机训练性能慢,无法满足时间要求问题;可解决单台服务器无法满足训练的资源要求问题。
-
公开(公告)号:CN109784387A
公开(公告)日:2019-05-21
申请号:CN201811647945.7
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06K9/62
Abstract: 本发明提出一种基于神经网络和贝叶斯模型的多层次递进分类方法及系统,包括:神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;待分类样本的预测步骤。本发明充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
-
公开(公告)号:CN109885569A
公开(公告)日:2019-06-14
申请号:CN201811643489.9
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供了一种基于配置文件对XML数据进行字段提取及结构化方法,包括如下步骤:读取配置文件,在数据库中创建表;读取单个的XML文件,根据对应的配置文件进行XML节点定位;对定位的XML节点进行XML数据提取;对提取的XML数据进行数据后处理;将处理后的数据存入数据库中创建的表。本发明实现了XML文件到关系数据库的自动转换,通过基于配置文件的XML标签格式描述和处理方式的自动识别策略,实现了信息提取的代码无关化和操作的批量化。
-
公开(公告)号:CN109857758A
公开(公告)日:2019-06-07
申请号:CN201811647923.0
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F16/245 , G06F16/28
Abstract: 本发明提出一种基于邻居窗口的关联分析方法及系统,在关联分析中,通过将数据和自身关联窗口以及邻居窗口的联合关联分析,解决跨越关联窗口边界的关联数据分析;使用有限的空间资源实时挖掘关联窗口中所有数据项之间的关联规则。本发明能以有限的空间代价实时挖掘数据项之间存在的所有关联规则,并具有较高的效率和优良的可扩展性。
-
-
-