网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
05月25日漏签0天
龙芯吧 关注:25,981贴子:684,213
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 6回复贴,共1页
<<返回龙芯吧
>0< 加载中...

两篇关于龙芯7A2000集显博士论文

  • 只看楼主
  • 收藏

  • 回复
  • sunnyEEK
  • 龙芯1A
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
https://d.wanfangdata.com.cn/thesis/ChhUaGVzaXNOZXdTMjAyNDA5MjAxNTE3MjUSCFkzODUwMTA1GghobW03OG91Nw%3D%3D
摘要:随着计算机信息技术的发展,图形处理器(GraphicsProcessingUnit,GPU)在人们生产生活中占据越来越重要的地位。我国GPU产业集中于显卡生产与软件开发,很少涉及GPU的结构设计。随着我国包括中央处理器(CentralProcessingUnit,CPU)和操作系统在内的基础软硬件的快速发展,我国GPU的结构设计研究迫在眉睫。发展GPU的结构设计,关键是要做好自己的GPU研究体系。GPU研究体系中最为重要的三个部分是“设计、分析、优化”,只有掌握这三个部分的核心技术,国产GPU才可以持续改进,形成螺旋上升的发展趋势。  “设计”指GPU结构设计。GPU作为图形应用加速芯片,与面向通用处理的CPU有很大区别,所以不能按照的CPU设计思想进行GPU设计。“分析”指GPU性能分析。性能分析为根据芯片实际表现来发现结构设计中的性能瓶颈。“优化”指GPU性能优化。在完成性能分析之后,GPU设计人员根据工作负载特性与性能瓶颈,提出解决方案,并确定下一代GPU的设计方向。本文从“设计、分析、优化”的路线入手,为国产GPU研究提供一些参考思路。本文的研究内容和主要贡献如下:  1、完成了GPU结构设计及RTL平台实现。  设计了一款GPU架构,GPU-Hi,并实现为寄存器传输级(RegisterTransferLevel,RTL)研究平台。该平台支持OpenGL2.0图形渲染框架,支持4重采样抗锯齿;每周期处理1个顶点数据,1个三角形数据,16个像素点数据,2个纹理数据;流处理器模块每周期可以执行64个浮点运算,同时可保存1280组线程状态;在使用28纳米的设计工艺进行物理设计,目标主频为500MHz,设计面积为7.9平方毫米。实验结果表明,该平台可以正确执行glmark2、piglit、数字地球等测试集的2000余个测试项,满足OpenGL2.0图形渲染框架标准。  2、完成了图形应用行为分析与GPURTL平台性能分析。  通过在GPU中设置硬件性能计数器,分析了分辨率变化对GPU工作负载的影响,同时分析了光栅化模块与流处理器模块工作负载产生的负载不均衡问题。实验结果表明:(1)分辨率变化与其所带来的工作负载变化并不是等比例相关,并且光栅化任务与着色器任务存在明显的负载不均衡问题;(2)虽然光栅化模块并不执行着色器程序指令,也不直接进行显存的读写操作,但其工作效率极大地受到流处理器与访存能力的影响,并且各模块性能参数的不匹配会导致光栅化模块功耗浪费。  3、提出了基于相邻帧相似特性的GPU低功耗优化方法。  该方法可以在不影响GPU整体工作时间的情况下,通过降低光栅化模块的工作频率,达到降低功耗的目的。实验结果表明,该方法在所选取的5项测试中,有4项测试满足相邻帧相似特性;进一步实验结果表明,光栅化模块工作频率预测准确度平均为82.5%,光栅化模块的工作频率平均降低了61.5%。  上述部分成果应用在龙芯7A2000桥片的设计中。
关键词:
图形处理器模拟器功耗优化工作负载预测
授予学位:
博士
学科专业:
计算机系统结构
导师姓名:
胡伟武


  • sunnyEEK
  • 龙芯1A
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
https://d.wanfangdata.com.cn/thesis/ChhUaGVzaXNOZXdTMjAyNDA5MjAxNTE3MjUSCFkzODUwMTExGghobW03OG91Nw%3D%3D
摘要:随着个人电脑和智能终端等设备的普及,图形处理器的应用越来越广泛。然而,图形处理器的设计技术长期掌握在少数几家国外的企业手中,它已经成为我国亟待攻克的“卡脖子”技术之一。现代图形处理器的一个设计重点和难点是访存子系统,它需要面对数据量巨大而且密集的访存请求,兼顾吞吐率、服务质量和功耗等多方面要求。  在分析图形处理流水线的数据特点及访存需求的基础上,本文提出了图形处理器访存子系统的一系列设计优化方案,并进行了相应的评测与分析。本文的主要贡献和创新点如下:  1.提出了一种图形处理器的访存子系统结构设计。该设计针对图形处理流水线的访存特点,基于链表方式对Cache的结构进行了优化,并且根据图元光栅化后像素相对于屏幕的分布特点,设计了一种屏幕分区方法,对Cache结构进行多Bank分区。实验结果表明,本设计在GL_MARK图形测试集下渲染执行周期满足图形处理器访存子系统设计需求。在消除Cache一致性问题的同时,使访存子系统负载更加均衡。  2.提出了一套用于图形处理器的深度缓冲区及帧缓冲区数据的自适应无损压缩算法。本算法针对深度缓冲区与帧缓冲区的数据特点,从线性数据、非线性数据以及特殊数据三个方面采用三类不同的算法进行压缩,自适应选择最佳压缩比算法。基于该算法,提出了一种自适应无损压缩结构,本结构采用Cache与压缩算法相结合的设计方式,可同时压缩深度缓冲区与帧缓冲区的数据,使压缩结构更加通用。实验结果表明,在GL_MARK图形测试集下,与常见公开的压缩算法相比,本算法对于深度缓冲区数据和帧缓冲区数据的压缩效率分别提高5.33%和5.29%。  3.提出了一种图形处理器的预取结构设计。本设计基于图形处理器的无损压缩结构,从图形处理器光栅化获取预取信息,利用访存子系统状态机控制预取机制,通过无损压缩结构制造的总线空闲优化预取时机。实验结果表明,在GL_MARK图形测试集下,与传统预取结构相比,本设计的Cache命中率提高11.38%,渲染执行周期缩短6.69%。  上述研究成果已经被应用于龙芯7A2000等量产芯片,为国产图形处理器的发展做出了一定的贡献。
关键词:
图形处理器访存子系统无损压缩算法压缩结构预取结构结构设计
授予学位:
博士
学科专业:
计算机系统结构
导师姓名:
胡伟武


2025-05-25 15:00:15
广告
  • 子涵创投
  • 世界
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
厉害


  • affoto
  • 龙芯2J
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 股市小神虎猴
  • 自主
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这种才是需要被点赞的


  • 不知为不知🛰️🛸
  • 世界
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
2021年的论文了,并且在7a2000上已经实践,
感觉9A1000应该早在22、23年就可以研发出产品


  • 大臧的老巢
  • 技术
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
不错


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 6回复贴,共1页
<<返回龙芯吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示