-
公开(公告)号:CN105389194B
公开(公告)日:2019-02-01
申请号:CN201510681039.9
申请日:2015-10-19
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
IPC: G06F8/41
Abstract: 本发明实施例公开了一种确定应用程序计算逻辑的方法及装置,涉及计算机技术领域,实现了一组应用程序的自动分析,提高了对应用程序进行分析的效率,并且扩大了设计得到的体系结构的适用范围。具体方案为:获取一组应用程序中每个应用程序的数据流图;通过分析每个应用程序的数据流图,得到至少一个第一公共频繁子图;根据第一公共频繁子图和每个应用程序的数据流图,计算每个应用程序的流图相似度;根据每个应用程序的流图相似度,得到对一组应用程序中的应用程序的分组结果,分组结果包括至少一个子应用组;根据子应用组中应用程序的数据流图,确定子应用组中应用程序的计算逻辑。本发明用于应用程序的体系结构过程中。
-
公开(公告)号:CN109189478A
公开(公告)日:2019-01-11
申请号:CN201810980602.6
申请日:2018-08-27
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F9/3887 , G06F9/30047 , G06F9/321
Abstract: 本发明提供一种针对应用程序的反馈优化方法,所述方法包括:步骤1)根据执行应用程序的计算平台的体系结构特征,计算在所述计算平台上所述应用程序经编译得到的计算指令的执行时间以及执行所述应用程序所需的访存时间;步骤2)比较所述计算指令的执行时间和所述访存时间的大小,根据比较结果反馈相应的应用程序优化方案。本发明可以有针对性地给开发者反馈优化建议以及可以达到的预计效果,减少了应用程序开发者使用不同方法去尝试优化应用程序的时间,提高了应用程序优化的效率。
-
公开(公告)号:CN106846236A
公开(公告)日:2017-06-13
申请号:CN201611215270.X
申请日:2016-12-26
Applicant: 中国科学院计算技术研究所 , 中国科学院国有资产经营有限责任公司
Abstract: 本发明提出一种可扩展的分布式GPU加速方法及装置,涉及计算机体系结构技术领域,该装置包括多个节点,所述节点包括CPU、多个GPU,所述CPU与所述GPU进行数据交互,多个所述节点之间通过InfiniBand进行连接,所述CPU控制所述GPU。
-
公开(公告)号:CN106843993A
公开(公告)日:2017-06-13
申请号:CN201611215249.X
申请日:2016-12-26
Applicant: 中国科学院计算技术研究所 , 中国科学院国有资产经营有限责任公司
IPC: G06F9/45
Abstract: 本发明提出一种逆向解析GPU指令的方法及系统,涉及GPU微体系结构、编译器代码生成技术和程序优化技术领域,该方法包括将所述GPU指令进行编译,生成编译文件,将所述编译文件进行反汇编,生成反汇编文件,通过汇编解析器将所述反汇编文件表示成instMap变量,其中所述instMap变量的变量类型包括操作码、修饰码、指令、操作数与对应的操作数类型;将所述instMap变量输入到解码求解器,所述解码求解器判断所述instMap变量的变量类型,并通过已经确定的所述操作码或修饰码查找相对应的编码。本发明在破解指令编码的基础上,结合PTX文档,可构造GPU汇编器;为GPU编译器提供了一些编译辅助功能,提高GPU程序的效率;可设计和标准化一系列的微基准测试程序来探测GPU微架构特性和参数。
-
公开(公告)号:CN106681694A
公开(公告)日:2017-05-17
申请号:CN201611260732.X
申请日:2016-12-30
Applicant: 中国科学院计算技术研究所 , 中国科学院国有资产经营有限责任公司
CPC classification number: G06T1/20 , G06F9/30036 , G06F9/3012 , G06F17/16
Abstract: 本发明涉及单精度矩阵乘优化方法,该方法基于NVIDIA Kepler GPU汇编指令,包括:根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块,每个block处理 维度的输出矩阵C;在GPU二级存储上创建4个暂存空间smA,smB,smAx和smBx;从GPU一级存储上的矩阵A读取该smA大小的矩阵到该smA,从矩阵B读取该smB大小的矩阵到该smB;每次从该smA加载一列A矩阵分块数据到寄存器,从该smB加载一行B矩阵分块数据到寄存器,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,且在做矩阵乘运算的同时,从该GPU一级存储读取下一个该smA的一列到该smAx,并储读取下一个该smB的一行到该smBx;步骤5,做完该smA和该smB的矩阵乘以后,将该smA和该mAx地址互换,将该smB和该smBx地址互换。
-
-
-
-