https://d.wanfangdata.com.cn/thesis/ChhUaGVzaXNOZXdTMjAyNDA5MjAxNTE3MjUSCFkzODUwMTA1GghobW03OG91Nw%3D%3D
摘要:随着计算机信息技术的发展,图形处理器(GraphicsProcessingUnit,GPU)在人们生产生活中占据越来越重要的地位。我国GPU产业集中于显卡生产与软件开发,很少涉及GPU的结构设计。随着我国包括中央处理器(CentralProcessingUnit,CPU)和操作系统在内的基础软硬件的快速发展,我国GPU的结构设计研究迫在眉睫。发展GPU的结构设计,关键是要做好自己的GPU研究体系。GPU研究体系中最为重要的三个部分是“设计、分析、优化”,只有掌握这三个部分的核心技术,国产GPU才可以持续改进,形成螺旋上升的发展趋势。 “设计”指GPU结构设计。GPU作为图形应用加速芯片,与面向通用处理的CPU有很大区别,所以不能按照的CPU设计思想进行GPU设计。“分析”指GPU性能分析。性能分析为根据芯片实际表现来发现结构设计中的性能瓶颈。“优化”指GPU性能优化。在完成性能分析之后,GPU设计人员根据工作负载特性与性能瓶颈,提出解决方案,并确定下一代GPU的设计方向。本文从“设计、分析、优化”的路线入手,为国产GPU研究提供一些参考思路。本文的研究内容和主要贡献如下: 1、完成了GPU结构设计及RTL平台实现。 设计了一款GPU架构,GPU-Hi,并实现为寄存器传输级(RegisterTransferLevel,RTL)研究平台。该平台支持OpenGL2.0图形渲染框架,支持4重采样抗锯齿;每周期处理1个顶点数据,1个三角形数据,16个像素点数据,2个纹理数据;流处理器模块每周期可以执行64个浮点运算,同时可保存1280组线程状态;在使用28纳米的设计工艺进行物理设计,目标主频为500MHz,设计面积为7.9平方毫米。实验结果表明,该平台可以正确执行glmark2、piglit、数字地球等测试集的2000余个测试项,满足OpenGL2.0图形渲染框架标准。 2、完成了图形应用行为分析与GPURTL平台性能分析。 通过在GPU中设置硬件性能计数器,分析了分辨率变化对GPU工作负载的影响,同时分析了光栅化模块与流处理器模块工作负载产生的负载不均衡问题。实验结果表明:(1)分辨率变化与其所带来的工作负载变化并不是等比例相关,并且光栅化任务与着色器任务存在明显的负载不均衡问题;(2)虽然光栅化模块并不执行着色器程序指令,也不直接进行显存的读写操作,但其工作效率极大地受到流处理器与访存能力的影响,并且各模块性能参数的不匹配会导致光栅化模块功耗浪费。 3、提出了基于相邻帧相似特性的GPU低功耗优化方法。 该方法可以在不影响GPU整体工作时间的情况下,通过降低光栅化模块的工作频率,达到降低功耗的目的。实验结果表明,该方法在所选取的5项测试中,有4项测试满足相邻帧相似特性;进一步实验结果表明,光栅化模块工作频率预测准确度平均为82.5%,光栅化模块的工作频率平均降低了61.5%。 上述部分成果应用在龙芯7A2000桥片的设计中。
关键词:
图形处理器模拟器功耗优化工作负载预测
授予学位:
博士
学科专业:
计算机系统结构
导师姓名:
胡伟武
摘要:随着计算机信息技术的发展,图形处理器(GraphicsProcessingUnit,GPU)在人们生产生活中占据越来越重要的地位。我国GPU产业集中于显卡生产与软件开发,很少涉及GPU的结构设计。随着我国包括中央处理器(CentralProcessingUnit,CPU)和操作系统在内的基础软硬件的快速发展,我国GPU的结构设计研究迫在眉睫。发展GPU的结构设计,关键是要做好自己的GPU研究体系。GPU研究体系中最为重要的三个部分是“设计、分析、优化”,只有掌握这三个部分的核心技术,国产GPU才可以持续改进,形成螺旋上升的发展趋势。 “设计”指GPU结构设计。GPU作为图形应用加速芯片,与面向通用处理的CPU有很大区别,所以不能按照的CPU设计思想进行GPU设计。“分析”指GPU性能分析。性能分析为根据芯片实际表现来发现结构设计中的性能瓶颈。“优化”指GPU性能优化。在完成性能分析之后,GPU设计人员根据工作负载特性与性能瓶颈,提出解决方案,并确定下一代GPU的设计方向。本文从“设计、分析、优化”的路线入手,为国产GPU研究提供一些参考思路。本文的研究内容和主要贡献如下: 1、完成了GPU结构设计及RTL平台实现。 设计了一款GPU架构,GPU-Hi,并实现为寄存器传输级(RegisterTransferLevel,RTL)研究平台。该平台支持OpenGL2.0图形渲染框架,支持4重采样抗锯齿;每周期处理1个顶点数据,1个三角形数据,16个像素点数据,2个纹理数据;流处理器模块每周期可以执行64个浮点运算,同时可保存1280组线程状态;在使用28纳米的设计工艺进行物理设计,目标主频为500MHz,设计面积为7.9平方毫米。实验结果表明,该平台可以正确执行glmark2、piglit、数字地球等测试集的2000余个测试项,满足OpenGL2.0图形渲染框架标准。 2、完成了图形应用行为分析与GPURTL平台性能分析。 通过在GPU中设置硬件性能计数器,分析了分辨率变化对GPU工作负载的影响,同时分析了光栅化模块与流处理器模块工作负载产生的负载不均衡问题。实验结果表明:(1)分辨率变化与其所带来的工作负载变化并不是等比例相关,并且光栅化任务与着色器任务存在明显的负载不均衡问题;(2)虽然光栅化模块并不执行着色器程序指令,也不直接进行显存的读写操作,但其工作效率极大地受到流处理器与访存能力的影响,并且各模块性能参数的不匹配会导致光栅化模块功耗浪费。 3、提出了基于相邻帧相似特性的GPU低功耗优化方法。 该方法可以在不影响GPU整体工作时间的情况下,通过降低光栅化模块的工作频率,达到降低功耗的目的。实验结果表明,该方法在所选取的5项测试中,有4项测试满足相邻帧相似特性;进一步实验结果表明,光栅化模块工作频率预测准确度平均为82.5%,光栅化模块的工作频率平均降低了61.5%。 上述部分成果应用在龙芯7A2000桥片的设计中。
关键词:
图形处理器模拟器功耗优化工作负载预测
授予学位:
博士
学科专业:
计算机系统结构
导师姓名:
胡伟武