intel吧 关注:749,291贴子:3,124,930

回复:分离式内存控制器之踵,兼谈Intel的几种Tile物理结构

只看楼主收藏回复

Meteor Lake:姗姗来迟的实干家
在lakefield之后,intel消费级先进封装的产品经历了几年的沉寂。因为中间更多是延期太久太久的10nm的尾声,无论是大小核设计的Alder Lake,还是溃败的服务器sapphire rapids。intel好像是在给大企业病留下的种种弊病一一还债。与为了chiplet而chiplet反复回炉重造十几个步进让人丈二和尚摸不着头脑的sapphire rapids相比,meteor lake各方面都透露出了这是Intel第一颗对于先进封装应该对产品设计有何贡献做了认真思考的产物,非常的务实。让我一一道来:
1. 让我们比较Intel的chiplet和Zen系列的chiplet以及RDNA 3的chiplet有何不同之处。我们先来列举一下摩尔定律放缓带来的一些debuff以及如何用先进封装加以克服:
先进工艺的成本越来越高涨,这导致为了提高芯片集成度和性能芯片的制造成本水涨船高。这一成本传导到消费端带来的后果对整个行业的发展都是致命的。因此先进封装必然要向着制造更小的芯粒,提高芯片的良率降低芯片成本的方向前进。
而比起芯片制造成本来说,芯片的设计验证流片成本更是天文数字,而除了成本以外,高度复杂的芯片带来的验证成本拖累上手时间TTM则是半导体公司更不能容忍的问题。比起每年乏善可陈的更新,缺乏新产品提醒消费者产品本身的存在更为致命。因此先进封装的设计要尽可能模块化,要能尽量多的复用部件,这样可以减小每个部分各自的开发难度和成本。也方便更新(refresh)出新产品刺激消费者。
另外一点就是先进工艺的红利在不同结构上不再均等,IO和模拟电路的缩放早已停滞,而SRAM现在紧随其后,只有逻辑电路还在以比较大的步伐继续微缩。因此先进封装应该尽可能地利用不同工艺的特性,用相对便宜的工艺去实现工艺收益不高的模块。


IP属地:瑞士来自Android客户端16楼2024-10-10 23:03
回复
    2. 接下来我们先看看AMD的做法:
    作为chiplet的成功代表案例,AMD的Zen系列是怎么利用先进封装和chiplet的优势的呢?
    对第一点:AMD的选择是制造只有8核的CCD。一颗CCD的面积在70到90mm^2之间,因此良率可以控制住相当高的水平,有效节约制造成本,提高产品竞争力和利润率。
    对第二点:AMD的选择是服务器和桌面端共用一套设计和流片,这样可以让同一套mask和设计在桌面端和服务器端之间高度复用,显著降低了开发成本。
    对第三点:AMD的选择是IO die,把难以微缩的IO电路serdes之类的通通扔到更便宜的落后工艺上去。使用最先进工艺制造的CCD只保留CPU核心和L3缓存部分。
    那AMD付出了哪些代价呢?肉眼可见的当然就有IO die巨大的待机功耗,IO die本身对于内存带宽和延迟的debuff,以及分CCD结构以后带来的numa困境。但由于AMD实际上做的是极致的cost-down设计,这些debuff或多或少都可以忽略,而相应地通过其他措施比如X3D缓存来进行弥补。可以说Zen系列本身也有其矛盾之处,明明是缩减成本不使用先进封装走PCB基板的产物,但为了解决CCD的内存带宽问题又硬上了成本高昂的hybrid bonding先进封装的X3D缓存。反过来又导致X3D的芯片的桌面产品变成了一个口碑极好但是完全不赚钱甚至亏钱的神奇产品。不过其本身3D缓存可以选配一点无疑是正确的商业决策,但X3D产品的定位又挤压了自家其余桌面产品线的生存空间,也算是后Zen时代AMD桌面的一大困境吧。
    而另外一方面,由于这套极致缩减成本设计的能耗debuff,其CCD+IO Die的设计甚至可以说和Intel早年的N代工艺CPU+N-1代工艺桥片思路上无甚区别,其在移动端可以说是毫无生存空间。同时因为IO die使用的工艺较为落后且面积巨大,导致AMD很难进一步为其添加更大的GPU或是别的组件,这导致了AMD消费端出现了两套体系的分裂。一套是以Zen代表的传统桌面,另一套是以移动端APU为代表的单芯SoC结构,而AMD桌面端的大核显产品则是来自于移动端反哺,移动端则在Intel各路产品的紧逼之下逐渐走上了扩张之路,从一套设计包打天下的APU到PHX流片8核和2+4两个版本,再到STX和Kraken,AMD移动端渐渐走上了Intel的老路。变成了一个萝卜一个坑这样的设计,模块化和复用流片完全无从谈起了。可以说,AMD的chiplet策略在移动端是完全失效的。
    作为另一个例子,如果我们看看RDNA 3.5,就可以看出cost-down先行带来的弊端,如果只是单纯为了节省SRAM的高昂芯片成本,企图用暴力的胶水来获得又便宜性能又好的产品,结果很难说能尽如人意。


    IP属地:瑞士来自Android客户端17楼2024-10-10 23:31
    收起回复
      下一代已经没x3d了 因为不赚钱


      IP属地:湖北来自iPhone客户端18楼2024-10-10 23:43
      收起回复
        其实amd已经没把intel当对手了 研发主力都在mi450x上准备和nv死磕 消费级年年缩水不赚钱 现在ryzen的优势已经足够大了 当整个x86桌面消费级萎缩的情况下再讨论技术思路已经没太大意义了


        IP属地:湖北来自iPhone客户端19楼2024-10-10 23:46
        收起回复
          intel前员工?高手啊。理论说的挺好,不过贴吧多数人估计听不明白啥意思


          IP属地:日本来自Android客户端20楼2024-10-10 23:53
          收起回复
            3. Meteor Lake以及Intel的答卷
            Intel的思路和AMD并不完全相同,因为Intel的先进封装一开始就是要进军移动端的。而最终目标是覆盖从服务器到消费级的所有产品线。而且因为Intel自己手握封装厂和晶圆fab的资源,相应地就不会对先进封装的成本那么敏感。因此,Intel可以选择以更激进的方式去使用先进封装。
            对第一点,intel的想法也是一样的,通过把芯片分成更小的tile太提升良率,节约制造成本,这点并没有变化。
            对第二点,intel的复用理念就不再一样了,Intel在移动端的服务器的失利已经证明了在不同市场复用相同的CPU设计并不是一个非常有效的方案,尤其是当这些市场之前的需求差异极大的时候。例如Intel为桌面级开发的P核架构显然是不太适合对scalability和能耗比要求高的云服务器市场的。为此Intel推出了自家的E核服务器产品,AMD也有与之对位的Zen 4C/Zen 5C系列。同时复用流片mask所节省的成本其实远不如复用IP设计的成本,后者所占的成本可能是大比例高于前者的。因此,能在不同定位的产品线之间尽量复用IP,当然能复用芯片更好,并且还要尽量减小对原本市场的影响,就成为了Intel的目标。
            而对第三点,Intel为什么说Intel务实,因为Intel连自家工艺都可以不用了,各种tile谁的工艺便宜符合要求就给谁。这算是Intel复用性里不一样的一条,因为设计团队可以有两套不同选择,因此设计需要能复用在自家和台积电两套工艺下面。
            因此Intel给出的方案如下:
            IO(雷电一类)可以复用,而且可以在不同产品间复用。
            GPU单元可以复用,可以在移动端和桌面端之间复用。
            额外部件IP也可以复用,这包括了很多总线设计,NPU,Intel媒体引擎,以及其他的各种额外计算设备。
            CPU不在不同定位的市场之间复用。
            服务器和消费级不复用。
            这就有了我们现在看到的Meteor Lake的样子


            IP属地:瑞士来自Android客户端21楼2024-10-10 23:56
            回复
              ring可没有降速,MTL的ring是1.7GHz,ARL我看PPT默认是4.2G。并且ring应该是可以超频的。移动端的Lunar Lake在这么低的功耗下L3都只有大约12~13ns的延迟,ARL虽然L3增加了三倍,但是之前3.5GHz ring的265K看到的是16ns的延迟。
              游戏性能没啥提升的罪魁祸首可能是SOC里的NOC总线,默认3.0GHz,这个东西相当于AMD的IF,基本上AMD也是靠超IF来获得内存性能。但是intel承诺NOC总线也可以超频。


              IP属地:广东22楼2024-10-11 00:04
              收起回复

                ARL的内存超频会是有史以来最复杂的,NOC总线频率,IMC频率和D2D的频率都要考虑,三者之间可能有某种比例,类似AMD的FCLK:UCLK之类的,不能再套用RPL的观点来看问题了


                IP属地:广东23楼2024-10-11 00:13
                收起回复
                  个人觉得,io die应该直接和cpu die合并,NPU应该脱离SOC die和GPU合并变成一个die,然后SOC die增加巨量cache


                  IP属地:广西24楼2024-10-11 00:26
                  收起回复
                    天下大势,合久必分,分久必合。
                    Meteor Lake的核心其实是这颗SoC Tile。我们知道,Meteor Lake的Tile分成了四份,CPU,GPU,IO(其实就是雷电),剩下的就是这个SoC。其他三个的功能都很显然,但这个SoC他到底是什么呢?
                    如果我们对照前面的框图,其实我相信答案很简单:南北桥回来了!只是他们换了个样子。
                    严格意义上说,meteor lake的SoC Tile就如它字面意义所说,这是一颗SoC。这实际上就是一颗能够独立运行的x86 SoC。
                    他有着一条传统意义上的北桥高速总线,只不过他现在被称为NOC总线。并且上面已经连接了集成的CPU核(两颗LPE),同时上面还连接了最原始最传统的GPU/也就是显示部分,同时还有内存控制器,以及新加入的计算设备比如NPU,当然还有编解码引擎。而同样连接在这条noc总线上的CPU Tile和GPU Tile,反而更像是额外加上去的高速计算设备。
                    正如前面所说,当SA需要的功能太多太过臃肿时,他内部自然会分裂出一条全新的总线来用来连接所有这些资源。但这也带来了一个额外的问题:那就是内存控制器从Nahelem以来,第一次又重新从CPU中分离了出去。因此这势必带来内存性能的倒退,哪怕是使用了foveros封装也是如此。但如果把内存控制器移回CPU内部,那么因为foveros封装的总线带宽限制,包括GPU/NPU/编解码器和LPE这些需要内存访问带宽的设备反而有可能受到更大的影响。从布局上看,所有设备都通过NOC总线往SoC里的内存控制器获取数据权限,可以说是最“中庸”,最平衡,最不坏的一个选择。另外一个问题,则是SoC Tile本身是由更落后的N6工艺制造,因此更低的NOC总线性能势必导致内存性能表现不如传统上直接挂在ring上的。
                    而另外一边,原先的南桥或者说芯片组以及其他外围设备,包括独立出去的雷电接口,现在都统一挂载在了IOC和IO fabric上。因此,可以说这颗SoC Tile就是一颗完整可独立运行的集成了所有南北桥和CPU核(LPE)的x86 SoC。并且,由于其基础工艺使用了廉价且能耗比优异的N6来制造,并且其余各部分组件可以按需唤醒,而且也没有需要跑高频的ring总线,其基础功耗得以大幅降低,也可以认为是meteor lake延长续航的一个重要功臣。
                    不过问题也是显而易见的,在通常的编程模型中,GPU一直以来是被视作是CPU的外围设备的,将其置于较低速的NoC总线上或许问题不大,但操作系统在日常使用中的绝大部分任务都是要调度到CPU上的,而且是CPU Tile上的那些核心。此时ring总线即使运行在高速状态,由于实际的内存访问性能被NoC总线限制,很可能也只是徒增功耗,因为系统瓶颈永远是被最短板的一块儿所限制。因此,我高度怀疑,即使arrow lake产品真的来到,超ring能够提升多少内存效能也很难说。


                    IP属地:瑞士来自Android客户端25楼2024-10-11 00:29
                    收起回复
                      另外一点小插曲,meteor lake的IO Tile为什么要单独分出来?从工艺上讲,CPU,GPU,SoC,分别是Intel 4,N5,N6。IO Tile工艺和SoC一致其实可以直接合并的。而Intel展示的IO Tile单独的Scaling也就是可以做1个/2个 更多的雷电看上去更像是伪需求,颇有一点为了chiplet而chiplet的感觉。不过考虑到技术上的延续性,除了为了维持芯片整体的形状完整性以外(不然GPU Tile短一截,就只能用Lunar Lake同款大块dummy空硅片填平了,虽然meteor lake也有小块dummy),更多的应该还是给接下来在lunar lake和panther lake上演变为platform controller的IO die做铺垫吧。毕竟结构上是完全类似的。


                      IP属地:瑞士来自Android客户端26楼2024-10-11 00:46
                      回复
                        LNL:一切为了超低功耗,回归融合
                        而Lunar Lake选择了另外一条道路。作为Lakefield的精神续作,lunar lake浑身上下透露出一股不惜一切代价证明x86的气息,因此,lunar lake对于meteor lake上诸多为了成本和复用性的设计做出了改变,选择了不妥协。从前面的论述可以看出,对低功耗产品而言,永远都是monolithic的设计更有优势,只要不计成本的话,但现实的产品肯定不可能不计成本,因此,就必须要选择牺牲一部分对于核心设计目标最不重要的部分。对Lunar Lake而言,由于LPE在设计之初就是要承担和苹果E核类似的功能,需要负责在操作系统调度的绝大部分轻度任务。换句话说,就是LPE真正成为了这颗SoC的核心,此时meteor lake糟糕的LPE延迟就不能再视而不见了。可见此时noc总线再次作为设计的核心被摆到了中间。而所有连接在NoC总线上的设备,主要是CPU,GPU和NPU,又重新全部集成到了同一块昂贵的N3B Tile之上。并且还有一块统一的memory side cache支持。可以看到,DDR PHY紧贴着P/LPE核,其连接到内存控制器和包裹着的一圈memory side cache后在noc总线上紧邻的就是P核的ring以及LPE核。从intel官方的延迟测试可以看出,Lunar Lake对比meteor lake,内存延迟带宽方面有了巨大的进步。但需要注意的一点是,提升最大的是LPE,P核的提升反而较小,足以看出对动辄5 GHz高频的x86核心来说,P核内存性能的新瓶颈已经落在这个noc总线上了。而Lion Cove选择继续加大L2显然有一种水多了加面面多了加水的味道在里面,并不是一种很有性价比的方案。x86的P核显然已经到了需要彻底重新设计的地步了,实在有些积重难返。看隔壁Zen 5的桌面端则更加明显,为了成本维持CCD面积不增加选择了通过重新设计L3来缩小缓存面积,这对于x86 P核心在游戏之类的实际应用中实在撑不上是好消息。从这个意义上说,如果P核微架构不改进,仅仅只靠chiplet改回单die,确实会有所改善,但很难说会有非常大的质变。毕竟SoC化的趋势不可避免,能耗比在变得越来越重要,CPU逐渐地边缘化,游戏玩家的声量还能有多少影响力估计只能当做饭后的谈资,绝无可能仅仅为了游戏玩家的需求而去选择开设计上的倒车的。
                        回过头来看,Arrow Lake的ppt写着IPC只提升了9%,这没有达到Lion Cove宣传的14%的幅度,那这5%去哪儿了?从前面的经验估算来看,假如Intel是按照惯例使用的6400 JEDEC内存来测试的Arrow Lake的话,这很可能意味着285K在6400 JEDEC内存下延迟比14900K在5200/5600下要高40ns以上,进入120ns到130ns这个区间,且实际内存效能甚至可能更低。这一内存性能的劣化足以轻松吃掉5%左右的x86 IPC提升。但最大的问题,其实还是x86的P核,频率跑得实在太高了。



                        IP属地:瑞士来自Android客户端27楼2024-10-11 01:23
                        收起回复
                          而LNL里被牺牲掉的部分,自然就是外围扩展性了。作为Meteor Lake的核心部件,那颗SoC Tile的面积其实相当巨大,但相应的,那颗SoC Tile提供了其他任何平台难以企及的强大扩展性,而且这还是在没有外挂芯片组的前提下。可以说既保证了充足的扩展性,又大大提高了集成度,并且没有牺牲外围功耗作为代价。这或许是先进封装提供的高互联密度最有用的一集,但代价相应的就变成了芯片面积,并且因为大量IO,在先进工艺上也讨不着面积的便宜,放在廉价的N6工艺上或许还算得上甜点,但是要上了昂贵的N3B那可就真暴殄天物了。也因此我们看到了Intel在Lunar Lake上做出了取舍,选择了为了成本和基础功耗尽可能地压缩了noc总线的外围扩展性。但又通过便宜的N6和foveros d2d工艺保留了最重要的高速接口雷电,可以说也取得了一种平衡。


                          IP属地:瑞士来自Android客户端28楼2024-10-11 01:47
                          回复
                            Panther Lake:迭代的尽头?
                            在分分合合的这些年里,之前突然泄露的Intel Panther Lake封装向我们展示了Intel移动端这套先进封装融合最后的样子。或者是说极有可能是最后的样子,因为据说苹果接下来使用台积电先进封装的产品也会是这个结构。这个三颗Tile,Compute+GPU+Platform Controller (IO)的金三角结构兼具了meteor lake和lunar lake的特点。不应被拆分的CPU重新和SoC Tile融为了一体,而本身就位于NoC总线最远端也最具独立性的GPU重新分家,让从轻薄本到全能本的所有产品有了更统一的选择,并且也可以有更自由的核显选择搭配。我们尚不知道这个平台的扩展性是否能够完全覆盖meteor lake催生出的机型,比较platform controller看起来仍然只是雷电和南桥的延续,而那颗Intel 18A工艺的comute在去掉了核显以后并没有跟lunar lake差太多,这着实让人怀疑里面究竟能塞下多少东西。虽然据说lunar lake上那颗占据巨大面积的NPU又被缩小了,但目前这一产品还是过于遥远。但好在但看这个结构也可以知道,其内存延迟应该比meteor lake以及arrow lake更好,更接近于lunar lake的水平。这或许能最终为meteor lake以来的foveros胶水全能本补上最后一块短板,毕竟Lunar Lake并没有全能本产品。但遗憾的是,在panther lake-S早已取消的现在,我们已经无从推测这一结构用到桌面端会是什么样的结果了。而且就算Panther Lake-S上了桌面,传统上8+16的巨大CPU核心部分是否还能继续和SoC一样集成进一个Tile也要打一个巨大的问号。那么接下来Arrow Lake的内存墙困境,在传说中的Nova Lake LLC到来之前,恐怕都得成为每一个桌面游戏玩家绕不过去的坎了。但是至少,全能本目前的形态看起来要好得多,毕竟延迟再糟,也很难糟得过meteor lake了。


                            IP属地:瑞士来自Android客户端29楼2024-10-11 02:06
                            收起回复
                              大缓存的未来?Lakefield之后真正的3D堆叠?无人疼爱的桌面端是否还有希望呢?请看下集,金币弹hybrid bonding,从clearwater forest到传说中的Nova Lake LLC。
                              (完)


                              IP属地:瑞士来自Android客户端30楼2024-10-11 02:09
                              收起回复