-
公开(公告)号:CN109726225A
公开(公告)日:2019-05-07
申请号:CN201910026601.2
申请日:2019-01-11
Applicant: 广东工业大学
IPC: G06F16/2455 , G06F16/22 , G06F16/182
Abstract: 本发明提供一种基于Storm的分布式流数据存储与查询方法,本发明基于Storm数据流式计算框架,CEPHFS作为数据底层存储系统下,通过对分布式流式数据的特征分析,对数据进行实时的分区与索引构建,将分区好的数据块压缩存入CEPHFS。查找操作时根据数据块的key与temporal两个维度的属性,将查询分解为对应的子查询,并通过bloomFilter方法只读取可能含有所需数据的文件,由predicate选择出符合条件的数据,提交子查询结果合并后进行aggregate操作,返回给用户。充分利用计算资源来提高数据存储与查询的效率。本发明具有应用场景广泛、低时延、负载均衡的特点,并且能够实现高速存储。
-
公开(公告)号:CN108875000A
公开(公告)日:2018-11-23
申请号:CN201810614041.8
申请日:2018-06-14
Applicant: 广东工业大学
Abstract: 本发明涉及自然语言处理技术领域,涉及一种融合多句法结构的语义关系分类方法,包括以下步骤,先对文本序列进行数据预处理;然后对文本序列的向量进行双向编码,利用注意力机制对编码信息进行加权学习,通过CRF对加权后的编码信息进行双向解码,获取文本序列上的实体标签信息;然后构造联合向量,构造融合多句法的复杂网络,利用共享参数进行端到端的训练,获取三元组上的隐状态并进行拼接,经线性变换后输出语义关系类别。本发明基于叠层的循环神经网络模型,将多种句法结构进行融合,解决了单一句法结构模型无法有效适应其他句法结构的问题,从而能有效处理不同的句法结构,提高了模型的鲁邦性,并提升了分类效率。
-
公开(公告)号:CN108182347A
公开(公告)日:2018-06-19
申请号:CN201810043836.8
申请日:2018-01-17
Applicant: 广东工业大学
IPC: G06F19/24
Abstract: 本发明公开了一种大规模跨平台基因表达数据分类方法,包括以下步骤:S1、获取训练集,初始化分类器;S2、对训练集进行数据转换;S3、根据训练集计算相对偏移表;S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r;S5、更新分类器和训练集;S6、判断样本量与最小支持度θ的大小;S7、设定分类器CL缺省类;S8、预测分类。本发明针对跨平台基因数据挖掘这个问题,通过数据转换,提出了新的偏序对规则挖掘算法和分类模式,可以处理跨平台基因数据的差异性,不仅可以应对更复杂的数据分布,并且通过相对偏移表进行规则预筛选,显著提升了挖掘效率,能够应用于大规模数据上。
-
公开(公告)号:CN107871167A
公开(公告)日:2018-04-03
申请号:CN201710981783.X
申请日:2017-10-20
Applicant: 广东工业大学
IPC: G06N99/00
CPC classification number: G06N20/00
Abstract: 本发明提供一种基于似然度的因果结构学习方法,其主要通过对初始化处理后的结构图D进行增加有向边、删除有向边、翻转有向边处理,并利用观测数据计算每个因果结构图的评分值 选取最大评分值 对应的因果结构图,并比较因果结构图的最大评分值的增加值与阈值ε的大小,通过多次迭代,得到最终的因果结构图;本发明通过高效地融合似然度与结构方程的搜索,解决了传统方法因存在马尔科夫等价类而无法识别因果结构的问题,并将结构方程模型与似然度结合,使得在可以应用在高维的因果结构搜索;本方法还通过利用了xgboost分类算法,以及核密度估计方法,进一步扩大了该因果结构学习方法使用范围,可以运用于线性或非线性数据。
-
-
公开(公告)号:CN110457130B
公开(公告)日:2023-09-01
申请号:CN201910673163.9
申请日:2019-07-24
Applicant: 广东工业大学
IPC: G06F9/50
Abstract: 本发明涉及数据处理应用领域,公开了一种分布式资源弹性调度模型、方法、电子设备及存储介质,实现任务层动态资源调度和系统层资源调度的协同工作,实时的响应流处理任务的资源需求,分配合理的物理资源,达到真正意义上的自动弹性资源调度,弹性增减分布式流处理系统占用的物理资源,满足流处理任务随时变化的资源需求,在保证分布式流处理系统稳定运行与流处理系统工作稳定高效工作的同时,提高资源利用率,降低成本。
-
公开(公告)号:CN110245984B
公开(公告)日:2023-08-01
申请号:CN201910494079.0
申请日:2019-06-09
Applicant: 广东工业大学
IPC: G06Q30/0201 , G06N3/0464 , G06N3/044 , G06N3/08 , G06Q50/00 , G06Q30/0203
Abstract: 本发明涉及数据挖掘、社交网络、因果推断领域,公开了一种基于因果推断的网络购物行为分析方法和系统,通过融合用户属性特征、社交行为特征和历史购物行为特征、用户关系等多层次、跨领域特征,能够充分获取用户行为特征和兴趣偏好;经过合理设计的分析系统,利用因果网络模型,去除无用的特征,减少了噪声特征的干扰,并可解释用户行为的因果性及其行为动机,提高用户购物行为预测的准确度。
-
公开(公告)号:CN110347791B
公开(公告)日:2023-06-16
申请号:CN201910541695.7
申请日:2019-06-20
Applicant: 广东工业大学
IPC: G06F16/33 , G06F16/35 , G06N3/0464
Abstract: 本发明涉及教育领域,更具体的,涉及一种基于多标签分类卷积神经网络的题目推荐方法,本发明突出训练集中的高相关标签间的相关性,将相关性高于一定阈值的标签对都视为高相关标签对,能够调整每个标签的不平衡率以及让模型更好的学习高相关性以提高分类的准确度,并且本发明的卷积神经网络可以自动提取题目关键词的特征,能够更好的帮助卷积神经网络对考点特征标签的分类,此外,本发明在卷积神经网络中的第一层全连接层中加入标签间的相关性信息,让模型在训练中考虑标签间的相关性,以提高效率、网络识别分类的准确度。
-
公开(公告)号:CN110599195B
公开(公告)日:2023-04-14
申请号:CN201910713859.X
申请日:2019-08-02
Applicant: 广东工业大学
IPC: G06Q30/018 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N3/0985 , G06F16/335 , G06F40/284
Abstract: 本发明涉及一种识别刷单的方法,包括以下步骤:获取大量用户的大量有效评论文本集合,并训练出各评论文本每个词的词向量;多次随机组合两个评论文本与其是否属于同一用户的标识值构成训练集;搭建并训练卷积神经网络,用于预测两个评论文本是否为同一人所写;一个商家若存在大量不同用户的两个评论文本却被预测为同一人所评论的情况,则预测该商家存在刷单行为。本发明利用了人说话、打字具有一定个性的语言、格式风格习惯的特点,利用该思路进而识别刷单,借助神经网络模型通过细节特征、学习评论文本中所带有的语言习惯,进而识别评论文本是否由同一个人所写,最后再基于该模型通过一定方法识别某个网店是否具有刷单行为。
-
公开(公告)号:CN108182347B
公开(公告)日:2022-02-22
申请号:CN201810043836.8
申请日:2018-01-17
Applicant: 广东工业大学
IPC: G16B40/20
Abstract: 本发明公开了一种大规模跨平台基因表达数据分类方法,包括以下步骤:S1、获取训练集,初始化分类器;S2、对训练集进行数据转换;S3、根据训练集计算相对偏移表;S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r;S5、更新分类器和训练集;S6、判断样本量与最小支持度θ的大小;S7、设定分类器CL缺省类;S8、预测分类。本发明针对跨平台基因数据挖掘这个问题,通过数据转换,提出了新的偏序对规则挖掘算法和分类模式,可以处理跨平台基因数据的差异性,不仅可以应对更复杂的数据分布,并且通过相对偏移表进行规则预筛选,显著提升了挖掘效率,能够应用于大规模数据上。
-
-
-
-
-
-
-
-
-