-
公开(公告)号:CN109726225A
公开(公告)日:2019-05-07
申请号:CN201910026601.2
申请日:2019-01-11
Applicant: 广东工业大学
IPC: G06F16/2455 , G06F16/22 , G06F16/182
Abstract: 本发明提供一种基于Storm的分布式流数据存储与查询方法,本发明基于Storm数据流式计算框架,CEPHFS作为数据底层存储系统下,通过对分布式流式数据的特征分析,对数据进行实时的分区与索引构建,将分区好的数据块压缩存入CEPHFS。查找操作时根据数据块的key与temporal两个维度的属性,将查询分解为对应的子查询,并通过bloomFilter方法只读取可能含有所需数据的文件,由predicate选择出符合条件的数据,提交子查询结果合并后进行aggregate操作,返回给用户。充分利用计算资源来提高数据存储与查询的效率。本发明具有应用场景广泛、低时延、负载均衡的特点,并且能够实现高速存储。
-
公开(公告)号:CN109460785A
公开(公告)日:2019-03-12
申请号:CN201811240257.9
申请日:2018-10-24
Applicant: 广东工业大学
Abstract: 本发明提供一种基于GPU加速的锋电位实时分类的方法,通过将Masked EM算法的各个步骤都划分为互不相关的计算任务,从而使每个步骤内部的计算可以并行化并在GPU运行,使GPU的超强并行计算能力得到发挥,同时各个步骤之间的执行调度和迭代控制由CPU来完成,本发明在基于mask EM聚类算法的基础上,利用GPU对算法进行了加速实现,并对算法的各个流程进行了任务的合理划分和线程的合理分配,使得充分利用计算资源的情况下,一方面保证了结果的准确性,另一方面,大大加快了锋电位分类的计算速度,达到了实时的标准,对于神经科学的研究带来了很大的便利。
-
公开(公告)号:CN108875000A
公开(公告)日:2018-11-23
申请号:CN201810614041.8
申请日:2018-06-14
Applicant: 广东工业大学
Abstract: 本发明涉及自然语言处理技术领域,涉及一种融合多句法结构的语义关系分类方法,包括以下步骤,先对文本序列进行数据预处理;然后对文本序列的向量进行双向编码,利用注意力机制对编码信息进行加权学习,通过CRF对加权后的编码信息进行双向解码,获取文本序列上的实体标签信息;然后构造联合向量,构造融合多句法的复杂网络,利用共享参数进行端到端的训练,获取三元组上的隐状态并进行拼接,经线性变换后输出语义关系类别。本发明基于叠层的循环神经网络模型,将多种句法结构进行融合,解决了单一句法结构模型无法有效适应其他句法结构的问题,从而能有效处理不同的句法结构,提高了模型的鲁邦性,并提升了分类效率。
-
公开(公告)号:CN105630772B
公开(公告)日:2018-10-12
申请号:CN201610053347.1
申请日:2016-01-26
Applicant: 广东工业大学
IPC: G06F17/27
Abstract: 一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。本申请降低了时间复杂度,提高了抽取效率和抽取的准确率,且人工干预少,抽取过程全自动,适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。
-
公开(公告)号:CN108197077A
公开(公告)日:2018-06-22
申请号:CN201810058793.0
申请日:2018-01-22
Applicant: 广东工业大学
IPC: G06F17/16
CPC classification number: G06F17/16
Abstract: 本发明涉及一种基于小波包分解的MEAs生物信号的数据降维方法,包括数据降维模型的建立、依次对MEAs采集的每一信道的信号进行小波包分解、并选取时频空间的最优基、再提取最优基中的小波包分解系数特征索引,从而得到小波包分解系数的最优索引位置对生物脑电信号进行降维处理,本发明设计合理、使用方便,通过生物脑电信号数据降维模型建立,得到小波包最优基,再在最优基内选择小波包分解系数的特征索引,通过选取特定索引位置的系数达到对数据的降维作用;本发明相对傅立叶分析克服了其时域特征表现差的缺点,相对短时傅立叶变换克服了其时频分辨率固定的缺点,同时弥补了小波分析在高频处特征提取的不足。
-
公开(公告)号:CN108182347A
公开(公告)日:2018-06-19
申请号:CN201810043836.8
申请日:2018-01-17
Applicant: 广东工业大学
IPC: G06F19/24
Abstract: 本发明公开了一种大规模跨平台基因表达数据分类方法,包括以下步骤:S1、获取训练集,初始化分类器;S2、对训练集进行数据转换;S3、根据训练集计算相对偏移表;S4、生成候选偏序对,并计算出候选偏序对中的top偏序规则r;S5、更新分类器和训练集;S6、判断样本量与最小支持度θ的大小;S7、设定分类器CL缺省类;S8、预测分类。本发明针对跨平台基因数据挖掘这个问题,通过数据转换,提出了新的偏序对规则挖掘算法和分类模式,可以处理跨平台基因数据的差异性,不仅可以应对更复杂的数据分布,并且通过相对偏移表进行规则预筛选,显著提升了挖掘效率,能够应用于大规模数据上。
-
公开(公告)号:CN107871167A
公开(公告)日:2018-04-03
申请号:CN201710981783.X
申请日:2017-10-20
Applicant: 广东工业大学
IPC: G06N99/00
CPC classification number: G06N20/00
Abstract: 本发明提供一种基于似然度的因果结构学习方法,其主要通过对初始化处理后的结构图D进行增加有向边、删除有向边、翻转有向边处理,并利用观测数据计算每个因果结构图的评分值 选取最大评分值 对应的因果结构图,并比较因果结构图的最大评分值的增加值与阈值ε的大小,通过多次迭代,得到最终的因果结构图;本发明通过高效地融合似然度与结构方程的搜索,解决了传统方法因存在马尔科夫等价类而无法识别因果结构的问题,并将结构方程模型与似然度结合,使得在可以应用在高维的因果结构搜索;本方法还通过利用了xgboost分类算法,以及核密度估计方法,进一步扩大了该因果结构学习方法使用范围,可以运用于线性或非线性数据。
-
公开(公告)号:CN105897503A
公开(公告)日:2016-08-24
申请号:CN201610192350.1
申请日:2016-03-30
Applicant: 广东工业大学
IPC: H04L12/26
CPC classification number: H04L43/16
Abstract: 本发明公布了基于资源信息增益的Hadoop集群瓶颈检测算法。该算法包括三部分:监测集群中每个节点的响应满意度RS,当RS下降到一定阀值时,则判断该节点出现瓶颈;针对出现瓶颈的节点采集样本,并对样本进行离散化处理;根据样本,计算出各资源的在样本中的信息增益,将信息增益较大的作为瓶颈资源。本发明方法可清楚地了解各个组件运行情况,优化资源利用率,提高Hadoop系统的可扩展性。
-
公开(公告)号:CN105825078A
公开(公告)日:2016-08-03
申请号:CN201610150049.4
申请日:2016-03-16
Applicant: 广东工业大学
IPC: G06F19/20
Abstract: 本发明公开了基于基因大数据的小样本基因表达数据分类方法,其技术步骤为:确定训练样本基因表达数据和类标签,构建矩阵;根据L阶频数统计结果和2阶频数统计结果,计算L+1阶估分,去除估分小于阈值的非频繁集;计算到最大阶数Lmax;计算不同类别差异化的缺失情况;对各阶评分表进行排序,建立决策表;根据决策表对测试样本进行判别并输出类别。本发明基于基因大数据的跨平台分类器训练模型,结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练,有效的提高了分类效果。同时,该方法解决了跨平台所带来的缺失值的影响。
-
公开(公告)号:CN105630772A
公开(公告)日:2016-06-01
申请号:CN201610053347.1
申请日:2016-01-26
Applicant: 广东工业大学
IPC: G06F17/27
CPC classification number: G06F17/2765
Abstract: 一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。本申请降低了时间复杂度,提高了抽取效率和抽取的准确率,且人工干预少,抽取过程全自动,适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。
-
-
-
-
-
-
-
-
-