高通吧 关注:174,916贴子:4,317,120

Hot Chips 2018:自主机器SOC——Xavier的相关信息简单整理

只看楼主收藏回复

http://www.anandtech.com/show/13245/hot-chips-2018-nvidia-xavier-soc-live-blog


Xavier——为下一波自主机器设计
例如:私家车、出租车、卡车、快递机器人、飞行器、医疗器械、农业机械、仓储与分拣、生产设备


IP属地:荷兰1楼2018-08-21 16:26回复
    一、芯片概览
    12nm FFN工艺,90亿晶体管,350mm²面积,增强的安全性与恢复性。4年前开始设计。支持ASIL-C,ISO26262。


    IP属地:荷兰2楼2018-08-21 16:29
    回复
      二、Carmel CPU

      8个自主设计的Carmel核心,ARM V8.2指令集,RAS支持,分成四个簇,每个簇2个核心与2MB二级缓存,CPU部分一共8MB二级缓存,以及4MB独立的三级缓存,CPU簇之间支持缓存一致性,支持IO一致性内存。

      对比Parker(16FF+,2×Denver 2+4×Cortex-A57),Specint 2006达到2倍(估计值),SpecFP 2006达到2.8倍(估计值),安兔兔6达到1.6倍,GeekBench 4多核分达到1.8倍。


      IP属地:荷兰3楼2018-08-21 16:29
      回复(6)
        三、Volta GPU

        8组SM,一共512个CUDA Cores,以及Tensor Core——支持FP16、INT8(两倍FP16性能)。
        每个SM拥有128KB的L1缓存,整个GPU一共配置了512KB的共享L2缓存(GV100为6MB)。
        L2缓存访问速率提升4倍。
        22.6 TOPS的INT8性能,2.1倍GFX性能。
        该GPU针对推理优化,与桌面GPU的优化方向不同。


        IP属地:荷兰4楼2018-08-21 16:29
        回复
          四、深度学习加速器(DLA)

          针对面积与功耗优化,11.4 TOPS INT8,5.7 TOPS FP16,更多内容将在明日的讲话中放出。
          该加速器用途相对固定,针对特定计算任务设计。
          演讲提到开源加速器NVDLA。


          IP属地:荷兰5楼2018-08-21 16:30
          回复(1)
            五、可编程视觉加速器(PVA)

            2个PVA,针对图像与视觉算法优化。
            每个PVA拥有一个Cortex-R5用于配置与控制,包含2个向量处理器、2个DMA用于将数据从内存与外存迁移。每个向量处理器拥有自己的DMA与存储器。DMA处理地址,确保单元能被喂饱。

            PVA的向量处理单元为7宽度VLIW架构(2标量+2向量+3内存指令)。每个向量单元每周期完成8个32-bit或16个16-bit或32个8-bit数学操作。
            VPU拥有额外的位用于更高精度的数学计算。
            拥有硬件的循环与多维地址生成器。
            表格查找、柱状图、向量地址存储。
            向量处理单元拥有自己的指令缓存与数据存储器。


            IP属地:荷兰7楼2018-08-21 16:43
            收起回复
              六、Xavier的计算机视觉加速器一览。
              Xavier拥有众多加速器,用于为GPU分担特定工作,提高能效、降低GPU负载。

              PVA用于视觉算法加速,性能为1.7 CV TOPS。
              DLA是推理引擎,2×5.7 TOPS。
              GPU用于图形与计算,包括Volta SM与Tensor Core。22.6 DL TOPS(8-bit),2.8T FP16,1.4T FP32。
              SOFE(立体图像与光流引擎),专用,用于处理立体图像与光流,2×3.1 TOPS(16bit)
              ISP与VIC,用于本地HDR支持、镜头畸变校正、降噪。输出:2.4 GPixels/s,或4 GPixels/s。


              IP属地:荷兰8楼2018-08-21 16:52
              回复
                SPECint2K6多线程125 算上多核效率损失单线程大概18左右 略高于骁龙845


                IP属地:北京来自iPhone客户端9楼2018-08-21 16:56
                收起回复
                  七、对比Parker

                  CPU:2X(Spec int 2006)
                  深度学习/人工智能(GPU+DLA):25X(1.4 TOPS v 34 TOPS)
                  计算:12X(ISP+PVA+CUDA):12X(1.4 TFLOPS v 16.1 TFLOPS [等效])
                  部分任务(立体图像、光流、镜头畸变校正):11X(1.4 TFLOPS v 15.9 TFLOPS [等效])
                  内存带宽:2.3X(60 GB/s v 137 GB/s)
                  讲解人先提了一嘴LPDDR5,莫非是下一代(Orin)要支持?
                  Xavier配置了256-bit LPDDR4X内存控制器,带宽达到137 GB/s,可以计算等效频率为4266 MHz。


                  IP属地:荷兰10楼2018-08-21 16:58
                  回复
                    10年前 G80搞统一渲染 把三角形和像素工作统一
                    10年后 Turing又玩了分离 光线给RT Core 抗锯齿/动态模糊给Tensor Core 建模和基础渲染依然是sp的事
                    这算轮回不?


                    IP属地:加拿大来自Android客户端11楼2018-08-21 17:01
                    回复
                      八、I/O子系统

                      20GB/s NVLINK,IO一致性,用于连接Xavier与独立GPU。
                      多个PCI-E 4.0(16GT/s)控制器,支持x8 x4 x2 x1等多种配置。
                      3×USB 3.1(10GT/s)端口、4×USB 2.0端口。
                      显示方面:4×DP/HDMI/eDP
                      4K@60Hz、DP HBR3数据速率(8.1 Gbps)、HDMI 2.0。
                      摄像头:16 CSI lanes, 40 Gbps in DPHY 1.2, 109 Gbps in CPHY(更新的摄像头移动传输协议) 1.1


                      IP属地:荷兰12楼2018-08-21 17:06
                      回复
                        九、应用场景提升举例


                        以地图绘制为例,在Parker中,绝大部分负载都压给GPU。在Xavier中,许多负载都由专门的加速器加速。本例中,几乎所有环节都能由PVA加速。


                        IP属地:荷兰13楼2018-08-21 17:09
                        回复

                          现场提问
                          Q:内存总线有什么保护措施吗?
                          A:改进的ECC,无额外位。
                          (注:Xavier的内存总线支持ECC与奇偶校验)


                          IP属地:荷兰14楼2018-08-21 17:11
                          回复
                            补充:自带视频编码解码处理器,编码解码速度性能分别达到1.2、1.8GPIX/s。(参数取自年初的信息,未更新)


                            IP属地:荷兰15楼2018-08-21 17:17
                            回复