1. NVIDIA 第三代 RTX 架构 GPU
2. [SM 多单元处理器]性能超过上一代 2 倍• 推出” 着色器执行重排序(SER)“技术,将光线追踪性能提升 2-3 倍• ” 着色器执行重排序(SER)“ 技术和 CPU 的乱序执行一样是一项重大创新
3. [RT 核心]两倍的光线与三角形求交性能• 推出两个重要的硬件单元““Opacity Micromap 引擎” 和 “Micro-Mesh 引擎”• 全新的 Opacity Micromap 引擎将光线追踪的 Alpha-Test 几何性能提升 2 倍全新的 Micro-Mesh 引擎可提升几何图形的丰富度而不会带来更多的 BVH 构建和存储资源消耗
4. [Tensor 核心]• 推出全新“Hopper FP8 Transformer Engine”• 可提供 1.4 petaFLOP 的张量处理性
5. 我们如何通过发明新技术来解决现有的棘手问题
• 问题:光线追踪很难并行处理,因为光线会向各个方向弹射
• 解决方案:“ 着色器执行重排序(SER)”通过即时重新安排着色器负载来提高执行效率,我们看到光线追踪性能提升最高可达 2-3 倍,整体游戏性能提升 25%• 问题: 全局光照技术需要新突破
• 解决方案: NVIDIA 的 “RTXGI” 使用光线追踪来实现实时的、多次弹射的间接光照
• 问题:直接光照技术需要新突破
• 解决方案: NVIDIA 的“RTXDI ”使用光线追踪,通过百万计的光线计算直接照明,并计算所有光线投射的阴影,RTXDI 可用于广告牌、电视屏幕和霓虹灯管等自发光表面
• 问题: 光线追踪技术需要新突破
• 解决方案: NVIDIA “Real-Time Denoiser (NRD) ” 是一种空间时域降噪技术,可通过未全部完成的光线追踪图像推理出最终结果,从而减少采样所需的光线数量
• 问题: 高分辨率+高刷新率游戏需要新突破
• 解决方案: “DLSS”这基于深度学习的超分辨率技术是我们取得的重要成就之一,DLSS 使用卷积自动编码器 AI 模型,调用低分辨率当前帧和高分辨率的上一帧,从而逐个像素地预测更高分辨率的当前帧
6. Ada 引入了 “DLSS 3”,这个全新 AI 功能可生成全新帧,而不仅仅是像素
• DLSS 3 包含 4 个组件
• (1) 新的光流加速器、(2) 游戏引擎运动矢量、(3) 卷积自动编码 AI 帧生成器以及(4) 我们的 Reflex 超低延迟流水线
• DLSS 3 运行原理: DLSS 3 会处理新帧和上一帧,以了解场景的变化情况,光流加速器为神经网络提供了像素级的帧到帧的运动方向和速度信息,后通过综合游戏中的帧以及几何图形和像素的运动矢量,将其输入至神经网络就能计算出中间帧了
• 性能:DLSS 3 在不涉及图形管线处理的前提下生成全新的帧,相较于单纯的渲染,游戏性能最高可提升 4 倍• 独立于游戏内容:DLSS 3 可独立于游戏内容直接生成全新帧,因此这项技术可以令无论是对 GPU性能要求较高的游戏还是受到 CPU 限制的游戏都受益,对于受到 CPU 限制的游戏(例如物理计算密集型游戏或大型场景游戏)DLSS 3 令 Ada GPU 能够为玩家带来远高于 CPU 可计算的帧率
• DLSS 3 是我们精彩卓著的神经网络渲染创新之一
7. 演示: 赛博朋克 2077 “着色器执行重排序(SER) + DLSS 3”视频
• 在“赛博朋克 (Cyberpunk)”这一类的现代游戏中,我们对每个像素执行超过 600 次光线追踪计算来确定
• 相较于 4 年前我们首次引入实时光线追踪技术提升高达 16 倍
8. RTX Remix:
• 游戏 Mod 非常热门,我们为游戏 MOD 打造了一款名为 RTX Remix 的Omniverse 应用
• RTX Remix 运行原理:启动游戏并捕获到已加载至 Omniverse 的 USD 文件中,一旦进入 RTX Remix,既可以使用 AI 辅助工具集包含的深度学习模型来提升纹理和素材的分辨率,也可以使用一个 AI 模型把材质转换为具有精确物理属性的材质然后,丰富的Omniverse 创意工具生态系统可用于增强游戏素材,完成后导出 RTX Mod 包,即可享受精彩纷呈的 RTX 游戏之旅
• 游戏:上古卷轴:晨风,“传送门 (Portal)”RTX 版和 RTX Remix 将在 Ada 发布后不久推出
9. Ada vs Ampere:
• 高达 760 亿个晶体管和超过 18000 个 CUDA 核心,比上一代 Ampere 多 70%。TSMC 的 4N (4nm) 工艺。GDDR6X 显存。
• Ada 可实现高达 2 倍的传统光栅化游戏性能提升,对光线追踪游戏的性能提升则可高达 4 倍
• Ada 有着惊人的能效表现 - 相较于 Ampere,相同功耗下可带来超过 2 倍性能提升
10. Ada 超频能力:
• 我们在实验室中将 Ada 超频到了 3GHz 以上
11. 推出 GeForce RTX 4090:
• 支持着色器执行重排序(SER)的全新 SM 多单元流处理器
• 支持 Opacity Micromap 引擎和 Micro-Mesh 引擎的全新 RT Core
• 支持 FP8 Transformer 引擎 的全新 Tensor Core
• 总体而言,处理吞吐量提升达 4 倍
• 相较于目前的旗舰 GPU:3090Ti,RTX 4090 使“微软模拟飞行 (Microsoft FlightSimulator)”的速度提升达 2 倍,使“传送门 (Portal)”RTX 版的速度提升达 3 倍,并使 RacerX 的速度提升达 4 倍
• 全新重量级冠军产品 GeForce RTX 4090 的建议零售价为 1599 美元
• 将于 10 月 12 日上市
12. 推出 GeForce RTX 4080:
• GeForce RTX 4080 提供 16GB 和 12GB 版本
• 在 RacerX 上,RTX 4080 的性能是 RTX 3080 Ti 的三倍
• RTX 4080 的建议零售价为 899 美元起
13. Ada 发布总结:
• RTX 4090 and 4080 起售价为 899 美元,可为发烧级玩家提供无与伦比的性能
• Ada Lovelace 架构改进了所有三个 RTX 处理器,即神经渲染的引擎














• Ada 对游戏玩家来说是一次巨大飞跃,为处于 Omniverse 等全模拟仿真世界里的创作者铺平道路
2. [SM 多单元处理器]性能超过上一代 2 倍• 推出” 着色器执行重排序(SER)“技术,将光线追踪性能提升 2-3 倍• ” 着色器执行重排序(SER)“ 技术和 CPU 的乱序执行一样是一项重大创新
3. [RT 核心]两倍的光线与三角形求交性能• 推出两个重要的硬件单元““Opacity Micromap 引擎” 和 “Micro-Mesh 引擎”• 全新的 Opacity Micromap 引擎将光线追踪的 Alpha-Test 几何性能提升 2 倍全新的 Micro-Mesh 引擎可提升几何图形的丰富度而不会带来更多的 BVH 构建和存储资源消耗
4. [Tensor 核心]• 推出全新“Hopper FP8 Transformer Engine”• 可提供 1.4 petaFLOP 的张量处理性
5. 我们如何通过发明新技术来解决现有的棘手问题
• 问题:光线追踪很难并行处理,因为光线会向各个方向弹射
• 解决方案:“ 着色器执行重排序(SER)”通过即时重新安排着色器负载来提高执行效率,我们看到光线追踪性能提升最高可达 2-3 倍,整体游戏性能提升 25%• 问题: 全局光照技术需要新突破
• 解决方案: NVIDIA 的 “RTXGI” 使用光线追踪来实现实时的、多次弹射的间接光照
• 问题:直接光照技术需要新突破
• 解决方案: NVIDIA 的“RTXDI ”使用光线追踪,通过百万计的光线计算直接照明,并计算所有光线投射的阴影,RTXDI 可用于广告牌、电视屏幕和霓虹灯管等自发光表面
• 问题: 光线追踪技术需要新突破
• 解决方案: NVIDIA “Real-Time Denoiser (NRD) ” 是一种空间时域降噪技术,可通过未全部完成的光线追踪图像推理出最终结果,从而减少采样所需的光线数量
• 问题: 高分辨率+高刷新率游戏需要新突破
• 解决方案: “DLSS”这基于深度学习的超分辨率技术是我们取得的重要成就之一,DLSS 使用卷积自动编码器 AI 模型,调用低分辨率当前帧和高分辨率的上一帧,从而逐个像素地预测更高分辨率的当前帧
6. Ada 引入了 “DLSS 3”,这个全新 AI 功能可生成全新帧,而不仅仅是像素
• DLSS 3 包含 4 个组件
• (1) 新的光流加速器、(2) 游戏引擎运动矢量、(3) 卷积自动编码 AI 帧生成器以及(4) 我们的 Reflex 超低延迟流水线
• DLSS 3 运行原理: DLSS 3 会处理新帧和上一帧,以了解场景的变化情况,光流加速器为神经网络提供了像素级的帧到帧的运动方向和速度信息,后通过综合游戏中的帧以及几何图形和像素的运动矢量,将其输入至神经网络就能计算出中间帧了
• 性能:DLSS 3 在不涉及图形管线处理的前提下生成全新的帧,相较于单纯的渲染,游戏性能最高可提升 4 倍• 独立于游戏内容:DLSS 3 可独立于游戏内容直接生成全新帧,因此这项技术可以令无论是对 GPU性能要求较高的游戏还是受到 CPU 限制的游戏都受益,对于受到 CPU 限制的游戏(例如物理计算密集型游戏或大型场景游戏)DLSS 3 令 Ada GPU 能够为玩家带来远高于 CPU 可计算的帧率
• DLSS 3 是我们精彩卓著的神经网络渲染创新之一
7. 演示: 赛博朋克 2077 “着色器执行重排序(SER) + DLSS 3”视频
• 在“赛博朋克 (Cyberpunk)”这一类的现代游戏中,我们对每个像素执行超过 600 次光线追踪计算来确定
• 相较于 4 年前我们首次引入实时光线追踪技术提升高达 16 倍
8. RTX Remix:
• 游戏 Mod 非常热门,我们为游戏 MOD 打造了一款名为 RTX Remix 的Omniverse 应用
• RTX Remix 运行原理:启动游戏并捕获到已加载至 Omniverse 的 USD 文件中,一旦进入 RTX Remix,既可以使用 AI 辅助工具集包含的深度学习模型来提升纹理和素材的分辨率,也可以使用一个 AI 模型把材质转换为具有精确物理属性的材质然后,丰富的Omniverse 创意工具生态系统可用于增强游戏素材,完成后导出 RTX Mod 包,即可享受精彩纷呈的 RTX 游戏之旅
• 游戏:上古卷轴:晨风,“传送门 (Portal)”RTX 版和 RTX Remix 将在 Ada 发布后不久推出
9. Ada vs Ampere:
• 高达 760 亿个晶体管和超过 18000 个 CUDA 核心,比上一代 Ampere 多 70%。TSMC 的 4N (4nm) 工艺。GDDR6X 显存。
• Ada 可实现高达 2 倍的传统光栅化游戏性能提升,对光线追踪游戏的性能提升则可高达 4 倍
• Ada 有着惊人的能效表现 - 相较于 Ampere,相同功耗下可带来超过 2 倍性能提升
10. Ada 超频能力:
• 我们在实验室中将 Ada 超频到了 3GHz 以上
11. 推出 GeForce RTX 4090:
• 支持着色器执行重排序(SER)的全新 SM 多单元流处理器
• 支持 Opacity Micromap 引擎和 Micro-Mesh 引擎的全新 RT Core
• 支持 FP8 Transformer 引擎 的全新 Tensor Core
• 总体而言,处理吞吐量提升达 4 倍
• 相较于目前的旗舰 GPU:3090Ti,RTX 4090 使“微软模拟飞行 (Microsoft FlightSimulator)”的速度提升达 2 倍,使“传送门 (Portal)”RTX 版的速度提升达 3 倍,并使 RacerX 的速度提升达 4 倍
• 全新重量级冠军产品 GeForce RTX 4090 的建议零售价为 1599 美元
• 将于 10 月 12 日上市
12. 推出 GeForce RTX 4080:
• GeForce RTX 4080 提供 16GB 和 12GB 版本
• 在 RacerX 上,RTX 4080 的性能是 RTX 3080 Ti 的三倍
• RTX 4080 的建议零售价为 899 美元起
13. Ada 发布总结:
• RTX 4090 and 4080 起售价为 899 美元,可为发烧级玩家提供无与伦比的性能
• Ada Lovelace 架构改进了所有三个 RTX 处理器,即神经渲染的引擎














• Ada 对游戏玩家来说是一次巨大飞跃,为处于 Omniverse 等全模拟仿真世界里的创作者铺平道路