版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://56bg.com/____/6583.html
定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《AI芯片行业深度:行业现状、政策分析、产业链及相关公司深度梳理-240624(34页).pdf》由会员分享,可在线阅读,更多相关《AI芯片行业深度:行业现状、政策分析、产业链及相关公司深度梳理-240624(34页).pdf(34页珍藏版)》请在本站上搜索。 1、 1/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI芯片行业深度:芯片行业深度:行业现状行业现状、政策分析政策分析、产、产业链及相关公司深度梳理业链及相关公司深度梳理 AI 芯片是针对人工智能算法做了特殊加速设计的芯片。算力是人工智能发展的关键因素之一,随着深度学习算法的普及和应用,人工智能对算力提出了更高的要求,传统的 CPU 架构难以满足人工智能算法对算力的要求,因此具有海量数据并行计算能力、能加速计算处理的 AI 芯片应运而生。在全球数字化、智能化的浪潮下,智能手机、自动驾驶、数据中心、图像识别等应用推动 AI 芯片市场迅2、速成长。下面我们将以 AI 芯片为研究对象,首先讲解 AI 芯片的重要性及其发展历程,并详细阐述 AI 芯片的分类。随后,我们将分析当前 AI 芯片行业的现状,并探讨其重点发展方向。此外,我们还将对主要 AI 芯片厂商的研发情况进行介绍。最后,我们将梳理 AI 芯片的产业链,分析其中的关键环节,并指出可能从中受益的公司。希望通过这些内容,能够增进大家对 AI 芯片的认识。目录目录 一、行业概述.1 二、AI 芯片分类解读.3 三、行业现状.9 四、政策环境分析.11 五、AI 芯片研发情况.12 六、产业链分析.26 七、国内相关公司.31 八、未来展望.33 九、参考研报.34 一、行业一、3、行业概述概述 1、AI 芯片:人工智能的基石芯片:人工智能的基石 自 2018 年 GPT-1.0模型首次发布以来,OpenAI 不断迭代模型,GPT-4.0 模型拥有更大的参数量、更长的迭代时间和更高的准确性。随着数据不断增长和算法复杂度提高,人工智能对计算力提出了更高的要求。因此 AI 芯片人工智能的基石,算力是实现人工智能产业化的核心力量,其发展对人工智能技术的进步和行业应用起着决定性作用。2/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 释放算力的价值对国家整体经济发展将发挥推动作用。计算力指数每提高 1点,数字经济和 GDP将分别增长 3.5和 1.4、8。可见,国家计算力指数越高,对经济的拉动作用越强。2021-2026 年期间,预计中国智能算力规模年复合增长率达 52.3%,同期通用算力规模年复合增长率为 18.5%。2、AI 芯片发展的三个阶段芯片发展的三个阶段 广义上讲只要能够运行人工智能算法的芯片都叫做 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。AI 芯片也被称为 AI 加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由 CPU 负责)。第一阶段:因为芯片算力不足,所以神经网络没有受到重视。第二阶段:通用芯片 CPU 的算力大幅提升,但仍然无法满足神经网络5、的需求。第三阶段:GPU和新架构的 AI 芯片推进人工智能落地。3、AI 芯片分类芯片分类 PBOAoPnQnOnRsQoRzRtQnQtPoM7N9RbRtRoOsQmQiNpPoQeRpNsP9PmNtMxNoNmOuOtPuM 3/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 所谓 AI 芯片,其实是在 CPU 等传统芯片的基础上,针对 AI 算法(以深度学习为代表的机器学习算法)做了特殊加速设计的芯片,换言之,是牺牲了一定的通用性,换取了芯片在海量数据并行计算方面的效率提升。AI 芯片根据其技术芯片根据其技术架构,可分为架构,可分为 GPU、FPGA、6、ASIC 及类脑芯片,同时及类脑芯片,同时 CPU 可执行通用可执行通用 AI 计算。计算。相较于传统的中央处理器(CPU),GPU 具有并行计算、高效能和高并发等优势,因此在人工智能、机器学习、数据挖掘等领域得到广泛应用。AI 芯片根据其在网络中的位置可以分为云端芯片根据其在网络中的位置可以分为云端 AI 芯片、边缘及终端芯片、边缘及终端 AI 芯片;根据其在实践中的目标,芯片;根据其在实践中的目标,可分为训练芯片和推理芯片。可分为训练芯片和推理芯片。云端云端主要部署训练芯片和推理芯片,承担训练和推理任务,具体指智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘和终端边缘和终7、端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。其中应用在云端和边缘计算服务器上的 AI 芯片是以 GPU 为代表的强通用性芯片,而终端 AI 芯片更多是将 AI 功能模块结合 CPU、GPU、ISP 等模块融合进 SoC 中,并针对语音识别、人脸识别等不同的应用场景完成定制化设计,同时需要做好性能与功耗的平衡。二、二、AI 芯片分类解读芯片分类解读 4/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 1、从、从技术层面分类技术层面分类 AI 芯片分为 GPU、FPGA、ASIC 和 NPU 等。GPU是一种通用8、型芯片,ASIC是一种专用型芯片,而FPGA 则处于两者之间,具有半定制化的特点。(1)GPU:AI 高性能高性能计算王者计算王者 GPU 设计之初用于对图形进行渲染,需要并行处理海量数据,涉及大量矩阵运算。深度学习依赖于数学和统计学计算,所以图形渲染与深度学习有着相似之处,这两种场景都需要处理每秒大量的矩阵乘法运算。GPU 拥有数千个内核的处理器,能够并行执行数百万个数学运算。因此 GPU完美地与深度学习技术相契合。使用 GPU 做辅助计算,能够更快地提高 AI 的性能。GPU 形成两条分支。传统 GPU:用于图形图像处理,因此内置了一系列专用运算模块,如视频编解码加速引擎、2D 加速引擎、9、图像渲染等;GPGPU:通用计算图形处理器(general-purpose GPU)。为了更好地支持通用计算,GPGPU 减弱了 GPU 图形显示部分的能力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以实现人工智能、专业计算等加速应用。5/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 大模型的基础架构向大模型的基础架构向 Transformer 结构收敛。结构收敛。Transformer 结构在图、文、音多领域表现优异,大量基于 Transformer 结构的大模型涌现。Transformer 模型预训10、练由多个堆叠的自注意力层和前馈神经网络层组成,这种设计使得它在构造大型深度神经网络时具有巨大优势。BERT 和 GPT 是两种最知名的基于 Transformers 的自然语言处理模型。大模型的发展,使得算法技术路线逐渐统一于大模型的发展,使得算法技术路线逐渐统一于 Transformer 模型,算力芯片技术路线也向适合并行计模型,算力芯片技术路线也向适合并行计算的算的 GPU 收敛。收敛。Transformer 架构具有并行计算的能力,可以同时处理输入序列的不同部分。在使用分布式计算和 GPU并行计算的情况下,Transformer 可以更快地训练和推理大型深度神经网络。大模型需要大算力和大11、互联,对底层 GPU 支撑规模提出了空前的要求,达到万卡级别。因此,出于对大模型的训练需求,市场选择了 GPU 作为主流的算力芯片。据 IDC,在中国人工智能芯片市场,GPU 占有超过 80%的市场份额。异构计算仍然是芯片发展趋势之一,异构计算仍然是芯片发展趋势之一,CPU+GPU 是人工智能异构计算的主要组合形式。是人工智能异构计算的主要组合形式。异构计算通过在单一系统中利用不同类型的处理器(如 CPU、GPU、ASIC、FPGA、NPU 等)协同工作,执行特定任务,以优化性能和效率,更高效地利用不同类型的计算资源,满足不同的计算需求。得益于硬件支持与软件编程、设计方面的优势,CPU+GPU12、 成为了目前应用最广泛的平台。截至 2023年 10 月,中国市场普遍认为“CPU+GPU”的异构方式是人工智能异构计算的主要组合形式。6/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 英伟达引领英伟达引领 GPU 计算潮流。计算潮流。英伟达的 GPU 主导了 AI计算的市场。1999年,英伟达首次提出可从真正意义上替代 CPU渲染的 GPU 概念,把显卡带入了全硬件处理时代,并在之后持续深耕于 GPU产品。2006 年之后,英伟达为解决 GPU 编程的复杂度问题推出通用并行计算平台 CUDA,大幅降低了用GPU 做通用计算的难度,为后续 AI 算力的支撑打下13、基础。(2)FPGA:灵活可编程,持续创新满足:灵活可编程,持续创新满足 AI 计算需求计算需求 FPGA 是一种半定制、可编程的集成电路,具有模块化和规则化的架构,主要由三部分组成,分别为CLB(可编程逻辑块)、I/O(输入输出单元)和内部连接线,用户可以通过更新 FPGA 配置文件来定义这些门电路及存储器之间的连线,以达到重构的目的。相较于相较于 CPU 和和 GPU,FPGA 在灵活性、功在灵活性、功耗和时延等方面具备优势,能够在较低的功耗下达到耗和时延等方面具备优势,能够在较低的功耗下达到 GFLOPS 数量级的算力,在人工智能算法不断迭数量级的算力,在人工智能算法不断迭代的情况下,代14、的情况下,FPGA 的特性能较好地满足的特性能较好地满足 AI 的运算需求。的运算需求。(3)ASIC:针对特定需求设计,具备性能优势:针对特定需求设计,具备性能优势 ASIC 是指针对特定用户要求和特定电子系统的需要而设计的集成电路,相较于通用型芯片在性能、功耗上具备优势。与 FPGA 相比,ASIC专用度较高、计算效率更好,在开发流程中,ASIC 的非重复成本较高,但随着规模化量产的实现,单个芯片的成本会随着产量的增加而降低,具备批量生产的成本优势。因此,在技术、算法尚未成熟阶段,在技术、算法尚未成熟阶段,FPGA 架构灵活改变芯片功能,有利于降低成本和风险;而随着技架构灵活改变芯片功能,15、有利于降低成本和风险;而随着技术、算法的普及,术、算法的普及,ASIC 更具备竞争优势。更具备竞争优势。7/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 2、应用层面上应用层面上 根据用途,根据用途,AI 芯片分为芯片分为“训练(训练(Training)”芯片和芯片和“推理(推理(Inference)”芯片。芯片。“训练芯片”主要用于人工智能算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片”主要用于人工智能算法推理,利用训练好的模型,使用新数据推理出各种结论,即借助现有神经网络模型进16、行运算,利用新的输入数据来一次性获得正确结论的过程。8/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 根据根据 AI 芯片的应用场景,又可分为云端(云)、边缘端(边)和终端(端)和三种,芯片的应用场景,又可分为云端(云)、边缘端(边)和终端(端)和三种,云、边、端三种场景对芯片的算力和功耗有着不同的要求,单一芯片难以满足实际应用的需求。不同用途(训练/推理)、不同应用场景(端-边-云)对 AI 芯片有着不同的要求。首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。“端-边-云”三个17、环节对 AI 芯片的有不同的要求。(1)云端:追求高性能和高算力芯片云端:追求高性能和高算力芯片 当前,大多数 AI 训练和推理工作负载都在云端进行,云端仍是 AI 的中心。AI 服务器具有超高计算性能,是 AI 应用的核心基础设施,根据 TrendForce 数据,2023 年全球 AI 服务器出货量近 120 万台,同比增长约 38%,预计 2024年将达 150 万台。由于云端需要对巨量、复杂的数据进行运算,对于 AI 芯片的性能和算力要求较高,当前 AI 服务器主要采用 GPU 方案,而与此同时 ASIC、FPGA、NPU 等非 GPU芯片也在不断迭代以满足需求。(2)终端:产品多样化18、催生大量需求终端:产品多样化催生大量需求 终端 AI 芯片追求以低功耗完成推理任务,以实际落地场景需求为导向,在能耗/算力/时延/成本等方面存在差异。终端 AI 芯片主要应用在消费电子、智能驾驶、智能家居和智慧安防等领域,随着终端产品类型增加和出货量的增长,催生了大量芯片需求。与此同时,终端 AI 芯片直接面向下游产品,往往以实际需求为导向,对芯片的性能与成本有更高的要求。(3)边边缘端:边缘数据积累逐渐增多缘端:边缘数据积累逐渐增多 边缘 AI 芯片介于终端与云端之间,承接低时延/高隐私要求/高网络带宽占用的推理或训练任务。边缘AI 芯片的算力要比终端更强,通常都是独立解决问题,且有用丰富的19、外设,强调信息的可获得性。在AI 算法的驱动下,边缘 AI 芯片不仅能自主进行逻辑分析与运算,还能动态实时进行自我优化、调整策略。建立在边缘的数据分析和处理能够分担云端的压力,大幅提升效率和降低成本。随着全球智能化、数据化的迅速发展,带来了数据的指数级增长,大量的数据在边缘端积累,预计随着数据量的进一步提升,边缘端 AI 芯片的需求会进一步增长,对芯片的性能也将提出更高要求。9/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 三三、行业、行业现状现状 1、国外芯片巨头占据了大部分市场份额,我国正努力实现国产替代国外芯片巨头占据了大部分市场份额,我国正努力实现国产20、替代 在在 AI 芯片领域,国外芯片巨头占据了大部分市场份额。芯片领域,国外芯片巨头占据了大部分市场份额。全球范围内主要布局人工智能芯片的厂商有Intel、NVIDIA、Qualcomm、Google 等。美国的巨头企业,凭借着多年在芯片领域的领先地位,迅速切入 AI 领域并积极布局,目前已经成为该产业的引领者。我国我国 AI 芯片产业起步较晚,技术上与世界先进水平也还存在着较大的差距。芯片产业起步较晚,技术上与世界先进水平也还存在着较大的差距。国内 AI 芯片市场也较为分散,集中度低。随着数字经济的兴起,人工智能已经深入渗透到各个行业,特别是在互联网等科技公司中更为普及。这些公司对于计算机软21、件技术和存储设备的要求极高,因此对于底层技术的布局和提升更为重视,尤其是在人工智能芯片领域。从竞争格局来看,从竞争格局来看,在不同的应用场景之下,已经形成了不同的在不同的应用场景之下,已经形成了不同的 AI 芯片竞争格局。芯片竞争格局。在云和数据中心 AI芯片市场,“训练”和“推理”两个环节都是英伟达 GPU一家独大。在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现:手机市场以高通、华为、苹果原主控芯片厂商为主,自动驾驶、安防 IPC 领域英伟达暂时领先。近年来,国内也出现了寒武纪、百度、地平线等优质本土厂商发力布局相关产品。10/34 2024 年年 6月月22、 24 日日 行业行业|深度深度|研究报告研究报告 目前,华为、海光信息、寒武纪等巨头坚持迭代升级,其产品性能日益提升,有望在 AI 训练算力领域获得更多市场份额,实现国产替代。另外,相比于 AI 训练芯片,推理芯片的性能要求以及精度要求较低,部分国产 AI 芯片凭借其良好性能以及性价比能够满足推理端的需求,我国 AI 芯片国产化比例有望提升。2、市场需求旺盛,国产云端市场需求旺盛,国产云端 AI 算力芯片大有可为算力芯片大有可为 在全球生成式人工智能浪潮带动下,国产大模型也不断取得技术进展,部分企业在能力上已经可以与海外主流模型实现对标。国产大模型技术的迭代和访问调用量的增加,对应了训练端更23、大规模算力硬件集群的采购需求,以及推理端的逐步扩容。受到贸易摩擦影响,海外核心云端 AI 芯片进入大陆市场受限,国产替代迫切性高。尽管当下国产云端 AI 芯片在硬件性能、系统生态方面与全球领先水平均存在一定差距,但国产化窗口期已至,行业有望于年内迎来重要商业化落地转折点。3、边缘边缘 AI 芯片规模稳健成长芯片规模稳健成长 相比云端 AI 芯片需要兼具训练和推理性能,边缘 AI 芯片则更多承担推理任务,其主要存在形式是作为AI SoC 嵌入终端设备,因此性能上更加追求在算力、功耗和成本等多方面的综合表现。目前,边缘 AI芯片正越来越多地应用在非消费类设备和场合,比如智能安防、ADAS/自动驾驶24、、智能家居、可穿戴智能设备,以及商业和工业场合的 AI 应用(智能交通、智慧城市、工厂机器视觉、机器人和 AGV 等)。边缘 AI 芯片也将迎来蓬勃发展。据德芯半导体援引 Gartner 统计,2022 年中国边缘 AI 芯片市场规模约为 49.9 亿美元,预计到 2025 年,中国边缘 AI 芯片市场规模将增长到 110.3 亿美元,较 2022 年增长 121%。4、硬件性能硬件性能上上单卡及单卡及互联能力需协同发展互联能力需协同发展(1)单一单一 GPU:制程和微架构迭代是核心要素:制程和微架构迭代是核心要素 芯片制程通过改变单位面积晶体管密度影响芯片的算力和性能表现。芯片制程通过改变单25、位面积晶体管密度影响芯片的算力和性能表现。制程原意为单个晶体管的栅极长度,而后伴随技术逐渐逼近物理极限,制程与栅长不再一一对应,成为代表技术迭代的约定俗成的说法。一般而言,制程节点越小,晶体管尺寸越小,芯片制程的迭代意味着单位面积晶体管密度的提升,而后者对于提升芯片性能、降低能耗较为关键。从 Volta 架构对应的单 Die 12nm 制程与 211 亿晶体管数量到 11/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 最新发布的 Blackwell 架构下单 Die 台积电 4NP 制程与 1040亿晶体管数量,英伟达 GPU 制程的持续优化有助于其保持产品竞26、争力。芯片微架构决定了数据计算方式、存储方式及流向,不同微架构设计会对芯片微架构决定了数据计算方式、存储方式及流向,不同微架构设计会对 GPU 最终性能产生较大影响。最终性能产生较大影响。例如:英伟达持续的架构升级带来了单芯片的性能领先:从最初的 Fermi,到 Ampere 架构,再到Hopper 架构,通过引入 CUDA 统一编程计算平台、GPU Boost 动态提速技术、RT 核心和 Tensor 核心等技术,使得公司 GPU 产品每一阶段的存算性能及能效比均呈现提升,在图形渲染、科学计算和深度学习等领域构筑了产品护城河。英伟达能够持续、快速迭代产品的关键在于其过去积累已久的产品研发经验27、,以及在服务客户过程中对 AI 运算需求的理解带来的先发优势。(2)卡间互联:分布式计算环境下,通讯带宽不断升级大势所趋卡间互联:分布式计算环境下,通讯带宽不断升级大势所趋 当下随着人工智能应用计算量增大,由单芯片逐步转向分布式计算,而多当下随着人工智能应用计算量增大,由单芯片逐步转向分布式计算,而多 GPU 间通信时间通信时 PCle 或存在或存在带宽瓶颈。带宽瓶颈。AI 算力的持续增强不仅依靠 GPU 单卡的性能提升,往往还需要多 GPU 卡组合。在多 GPU系统内部,GPU之间的通信带宽通常在数百 GB/s 以上,PCIe 总线的带宽有限,容易形成传输瓶颈;此外,PCIe 无法实现 GP28、U 的直接互连,需要通过 PCIe Switch 连接,PCIe Switch 内部的数据处理、以及 CPU 对数据的分发调度均会增加额外的网络延迟,影响系统运行效率,亟需性能更强的专用互连技术。5、软件生态软件生态也也会成为制约会成为制约 AI 芯片算力的瓶颈芯片算力的瓶颈 时至今日,算力对于 AI 的重要性已经人尽皆知。GPU从一众芯片中脱颖而出成为大模型训练和推理的首选。人们很自然的从一款芯片的性能数据来直观感受芯片强大与否,所有的关注目光都聚焦在一款新品有多少 Tflops的算力上。然而,计算框架以及配套的软件生态才是将一款芯片性能真正释放出来的幕后推手,也是芯片公司极强的护城河。四四29、、政策环境分析、政策环境分析 美国对中国先进芯片进口限制持续升级。美国对中国先进芯片进口限制持续升级。2023 年 10月,美国颁布新的半导体出口限制,对芯片算力和性能密度做了更严格的规定,A100/A800、H100/H200/H800、L4、L40s 均不满足出口条件。在2022 年 8 月,美国首次针对中国实施大规模芯片出口制裁,停止出口 A100 和 H100 两款芯片和相应产品组成的系统。本次制裁主要限制总计算性能(算力*位宽)4800且互联带宽600GB/s的高端 AI 芯片出口,在制裁后,英伟达为中国重新设计了 A800 和 H800 两款“阉割版”芯片,主要在互联速率和双精度计30、算性能上做了限制。2023 年 10 月升级版本的芯片禁令加大了打击力度,性能满足以下条件均受出口管制:(1)总计算能力 TPP(算力*位宽)超过 4800 的芯片;(2)TPP 超过 1600 且 PD(TPP/芯片面积)超过 5.92 的芯片;(3)2400TPP4800,且 1.6PD5.92 的芯片;(4)1600TPP,且 3.2PD5.92 的芯片。在此要求下,A100/A800、H100/H200/H800、L4、L40s 均不满足出口条件,英伟达只能全方位削弱芯片算力,向中国提供 H20、L20、L2 芯片。而近日美国政府再次升级对华半导体出口管制措施。参考钛媒体信息,北京时间31、 2024 年 3月 30 日凌晨,美国商务部下属的工业与安全局(BIS)发布“实施额外出口管制”的新规措施,修订了 BIS 于 2022、2023 年 10 月制定的两次出口限制新规,全面限制英伟达、AMD 以及更多更先进 AI 芯片和半导体设备向中国销售,此次新规中,BIS 删除和修订了部分关于美国、中国澳门等地对华销售半导体产品的限制措施,包括中国澳门和 D:5 国家组将采取“推定拒绝政策”,并且美国对中国出口的 AI 半导体产品将采取“逐案审查”政策规则,包括技术级别、客户身份、合规计划等信息全面查验。12/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告32、 近年我国近年我国 AI 芯片行业受到了前所未有的重视和支持。芯片行业受到了前所未有的重视和支持。为了推动 AI 芯片行业的蓬勃发展和技术创新,国家相继出台了多项政策,不仅为 AI 芯片行业描绘出了明确且广阔的市场前景,如国家能源局关于加快推进能源数字化智能化发展的若干意见全国一体化政务大数据体系建设指南以及“十四五”国民健康规划等,还为企业提供了优质的生产经营环境,确保了行业的稳健前行。五、五、AI 芯片芯片研发研发情况情况 1、国外芯片巨头为产业的引领者国外芯片巨头为产业的引领者(1)英伟达)英伟达:通过架构演进保持在通过架构演进保持在 AI 芯片市场的领导地位,大幅提升了芯片市场的领导地33、位,大幅提升了 AI 计算能力计算能力 英伟达目前在深度学习训练芯片市场占据绝对垄断地位。根据公司 2023 年 10月的投资者会议的展示,其 AI 芯片路线图由往年的两年更新一次提升至一年更新一次,预计 2024年推出 H200、B100 等,2025 年推出 X100 系列。13/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 英伟达推出的英伟达推出的并行计算平台和编程模型并行计算平台和编程模型 CUDA,目的是让开发者能够利用,目的是让开发者能够利用 GPU 的强大计算能力,不的强大计算能力,不仅限于图形渲染,还能执行各种复杂的计算任务。仅限于图形渲染,还34、能执行各种复杂的计算任务。简单来说,CUDA 就像是一个桥梁,它让程序员能够用类似于 C 语言的编程方式来编写代码,这些代码不仅能够在 CPU 上运行,还能在 GPU上运行。CUDA 的出现开启了 GPU 通用计算的新时代,使得 GPU 不再只是图形处理的专用设备,而是成为了一种强大的通用计算资源。CUDA能够逐层拆解任务显著提升 GPU 并行处理效率;通过提供合理的内存访问方式减少延迟;缺少 CUDA 优化,GPU的可用性将大幅下降,同时 CUDA 拥有庞大的软件生态,使用户得以充分利用 GPU的并行计算能力。除除 CUDA Core 外,英伟达还针对外,英伟达还针对 AI 训练优化硬件推出35、训练优化硬件推出 Tensor Core。Tensor Core 是英伟达 GPU中的创新硬件单元,专为加速人工智能(AI)运算而设计。它们通过优化的矩阵乘法运算,显著提升了深度学习模型训练和推理的速度。在深度学习中,矩阵乘法是核心操作,Tensor Core 能够在单个时钟周期内完成多个浮点运算,从而大幅提高计算效率。这种硬件加速对于处理大规模神经网络和复杂数据集至关重要,它使得研究人员和开发者能够更快地迭代模型,实现更高效的 AI 应用开发。Tensor Core的引入,不仅提升了 GPU 在 AI 领域的性能,也为 AI研究和商业应用的快速发展提供了强大的支持。CUDA 架构与 Tens36、or Core 的协同工作极大提升了 AI 计算效率。英伟达 GPU 在 2008-2022 年内,架构迭代调整了 8 次,在 2017 年 Volta 架构中首次推出加速深度学习算法矩阵计算的 Tensor Core,并在后续推出的 Turing、Ampere、Hopper 架构上不断优化、加强。拥有 Tensor 核心的 V100 相比于 P100 其混合精度运算速度提高了 9 倍,而英伟达推出的第四代Tensor 核心,其 FP8性能较 Ampere 提高 16 倍,在 AI大型语言模型推理方面,性能比 Ampere 高出30 倍。2024 年英伟达发布 Blackwell 新架构。Bl37、ackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell产品均采用双倍光刻极限尺寸的裸片,通过 10TB/s 的片间互联技术连接成一块统一的 GPU,是公司首次采用双 Die 架构的产品。Blackwell Transformer 引擎 14/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 利用称为微张量缩放的细粒度缩放技术,优化性能和准确性,支持 4 位浮点(FP4)AI。这将内存可以支持的新一代模型的性能和大小翻倍,同时保持高精度。NVLink 是专用于英伟达是专用于英伟达 GPU 之间的点对38、点互连协议。之间的点对点互连协议。英伟达针对异构计算场景于 2014年开发了NVLink 技术,NVLink 实现了 GPU 之间的直接互连,可扩展服务器内的多 GPU输入/输出(I/O),提供相较于传统 PCIe 总线更加快速、更低延迟的系统内互连解决方案。NVLink 1.0 的双向传输速率为160GB/s,此后 NVLink 随着 GPU 体系结构的演进而同步迭代升级。3 月 19日的 GTC 2024 Keynote上,英伟达发布第五代 NVLink 高速互连方案,两个 B 系列 GPU 芯片间通过 18 条 NVLink5.0链路连接,最高双向总带宽提升至 1.8TB/s,较第四代提39、升一倍,约为 x16 PCIe5.0 链路总带宽的 14 倍。英伟达第五代 NVLink 技术的推出显著提升 GPU 间通信效率,有望从 C2C 互连层面进一步强化其 AI 芯片集群计算性能,巩固自身产品护城河。15/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 除除 NVLink 外,英伟达还拥有自研交换芯片外,英伟达还拥有自研交换芯片 NV Switch,解决,解决 GPU 间通讯不均衡问题。间通讯不均衡问题。在 DGX P100架构中,8 个 GPU通过 NVLink 形成环状连接,无法完全实现点对点的连接。为了解决上述 GPU之间通讯不均衡问题,英伟达40、引入基于 NVLink 高级通信能力构建的 NV Switch 芯片能够在节点间扩展NVLink,创建无缝、高带宽的多节点 GPU 集群,实现所有 GPU 在一个具有全带宽连接的集群中协同工作。GTC 2024大会上,英伟达发布新一代 NVLink Switch:单颗 NV Switch 芯片采用台积电 4NP 制程工艺,支持 72 个双向 200G SerDes 端口(应用 224G PAM4 SerDes 技术)。新一代 NVLink Switch最多可实现 576 个 GPU的互连,大幅扩展了 NVLink 域,聚合总带宽提升至 1PB/s,助力万亿级以上参数量 AI 大模型释放加速性能41、。同时,英伟达也通过 NVLink-C2C 技术将 NVLink 扩展至封装级,借助先进封装支持芯粒互连,Grace CPU 与 Blackwell GPU 之间支持 900GB/s 双向带宽的通信。(2)AMD:调整架构和产品,加强生态建设,提升与英伟达的竞争力调整架构和产品,加强生态建设,提升与英伟达的竞争力 AMD 调整微架构,实现对英伟达在硬件端的追赶调整微架构,实现对英伟达在硬件端的追赶。AMD 将其 GPU 架构开发分为单独的 CDNA 和RDNA 线路,分别专门用于计算和图形。CDNA 主要是删除了对图形的支持指令,专注于通用计算,增加了 Matrix Cores 的支持。CDN42、A1 最重要的特性是引入了对矩阵乘法的支持,矩阵单元包含了专用的ACC Vector 寄存器,与通用的 VGPR 大小相同。CDNA2 为 AMD 带来了显著的成功。MI250X 和MI210GPU 被多个超级计算机产品所采用。在内存方面,CDNA3 时期,RDNA 系列的 Infinity Cache被引入 CDNA 领域,以缓解带宽问题。此外,此外,AMD 将其在将其在 CPU 领域丰富的领域丰富的 Chiplet 经验扩展至经验扩展至 GPU 领域,通过多领域,通过多 Die 封装缩小与英伟达封装缩小与英伟达的差距。的差距。基于 CDNA2 架构的 MI200 系列芯片采用了业内首创多 43、Die 整合封装(MCM),通过 2.5DEFB桥接技术在单芯片上集成两个 Die,搭配台积电 6nm 工艺,共拥有 580 亿个晶体管;基于 CDNA3 架构的 MI300 系列同样采用 Chiplet 设计,通过 3D 封装技术集成 CPU 和加速计算单元,增强单芯片扩展性,以缩小与英伟达的差距。AMD GPU 领域有望每年发布一款新芯片,领域有望每年发布一款新芯片,MI325X、MI350X 指标突出。指标突出。在 2023 年 12 月 AMD 举办的“Advancing AI”活动中,公司正式宣布推出 MI300X 产品,其性能接近 H100,甚至在特定场景下表现出色。根据公司介绍,44、MI300X 采用 3D 堆叠技术,在单芯片上形成由 8 颗加速计算单元(XCD)、4 个 I/O Die(IOD)和 8 个 HBM 组成的 12 颗 5nm 的 Chiplet 集成系统,晶体管数量达到 1530亿,16/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 提供 192GB 的 HBM3 内存,分别为 H100 的 1.9/2.6 倍。因而在训练性能方面 MI300X 与 H100 不相上下,并提供相对具有竞争力。苏姿丰宣布 24年底发布 MI325X,25 年将发布 MI350X 系列,26年则有望看到 MI400的面世。相比英伟达 H200,45、AMD Instinct MI325X 的计算性能是其 1.3 倍、内存容量是其 2 倍、带宽是其 1.3 倍,而 MI350X 则是基于台积电公司的 3 纳米制程工艺,拥有 288GB 的 HBM3E 内存并支持 FP6/FP4 数据类型。AMD 最新最新 Ryzen 系列芯片支持端侧智能。系列芯片支持端侧智能。Computex大会上,AMD CEO 苏姿丰发布了第三代 AMD RyzenAI 系列和 AMD Ryzen9000 系列处理器。其中,新款 RyzenAI 芯片基于 AMD 最新的神经、集成显卡和通用处理架构:NPU采用 XDNA2,iGPU采用 RDNA3.5(最多有 16 个46、计算单元),CPU采用Zen5,其中 AI 算力达到了 50TOPS,超过高通骁龙 X系列的 45TOPS、苹果 M4 的 38TOPS。而Ryzen9000 基于下一代 Zen5 高性能核心打造,采用 AM5 平台,提供 PCIe5.0 和 DDR5 支持,在游戏与 AI 并行计算能力上都有突出表现。AMD 发现了生态的重发现了生态的重要性,开始追赶。要性,开始追赶。直到 2015 年,AMD 开始布局软件生态,推出 ROCm(Radeon Open Compute Platform)对标 CUDA,搭建运用于高性能计算(HPC)和大规模 GPU 计算的开源软件开发平台。此外,ROCm 针对47、 AMD 自家硬件,一定程度提供了更优化和特定的支持,包括性能优化、调试工具和库。此外,区别于 CUDA 的全闭源特性,ROCm 作为后发者采用的是开源生态,以此吸引和抢占使用者。目前,针对 CUDA 生态,ROCm 基本都有对应产品,形成竞争。2、互联网、互联网大厂发力大厂发力 AI 芯片自研芯片自研 目前各大云计算目前各大云计算厂商与头部科技公司逐渐成为新入局者代表,正纷纷加速推进自研厂商与头部科技公司逐渐成为新入局者代表,正纷纷加速推进自研 AI 芯片。芯片。放眼全球,各互联网大厂放眼全球,各互联网大厂 2023 年自研芯片建设明显加速,各自发布最新产品,包括谷歌的年自研芯片建设明显加速48、,各自发布最新产品,包括谷歌的 TPU v5p与与 v5e、微软的、微软的 Maia100、亚马逊的、亚马逊的 Trainium、Meta 的的 MITAv1,但综合性能上较英伟达有一定,但综合性能上较英伟达有一定差距。差距。以 H100芯片作为参照进行对比,其 FP16/BF16算力分别是谷歌 TPU v5p/微软 Maia100/亚马逊 Trainium2/Meta MTIA 的 4.3/2.5/3.0/38.7 倍,显存带宽分别是谷歌 TPU v5p/微软 Maia100/亚马逊 Inferentia2/Meta MTIA 的 1.2/2.1/4.2/4.3 倍。17/34 2024 年49、年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 (1)谷歌:长久布局自研谷歌:长久布局自研 TPU,最新版本性能超越,最新版本性能超越 A100 谷歌自研芯片 TPU 是为加速机器学习定制开发的 ASIC产品。谷歌较早布局自研芯片,至今已经历 4轮迭代。初代 TPU 于 2016 年 Google I/O 开发者大会正式发布,只能支持 8 位整数运算,仅可应用于推理端;2017年推出的 TPU v2 具有 256 个芯片数量,同时支持浮点运算,逐步开始应用于训练场景;TPU v3/v4 分别于 2018/2021 年发布,峰值计算性能分别较前一代产品提升 167%/124%。最新50、一代TPU v5 于 2023 年 12 月与 Gemini1.0 一同推出,具有 TPU v5e、TPU v5p两款产品,v5e 成本效益比最显著,而 v5p 功能最为强大,主要针对需要大规模计算能力的任务,相较于 TPU v4,TPU v5p 训练大型 LLM 模型的速度提升 2.8 倍、训练嵌入密集模型的速度较 TPU v4 快 1.9 倍。Google 旗下大模型Gemini 便是采用 TPU 进行训练与服务。(2)亚马逊:坚定自研,亚马逊:坚定自研,CPU/训练芯片训练芯片/推理芯片齐头幵进推理芯片齐头幵进 2015 年,亚马逊以 3.5 亿美元收购以色列芯片设计初创公司 Annap51、urna Labs,拉开自研芯片序幕,CPU(Graviton)、训练芯片(Trainium)、推理芯片(Inferentia)均有产出且不断更新换代。CPU端,2018 年推出基于 Arm 的 Graviton一代,后续不断更新,于 2023 年 11 月发布 Graviton4,集成96 个 Arm Neoverse V2 内核,每个内核配置 2MB 的 L2 缓存,加上 12 个 DDR5-5600通道,性能较Graviton3 提升 40%。训练芯片端,2020 年 12 月发布第一款训练芯片 Trainium,于 2022 年交付使用,18/34 2024 年年 6月月 24 日日 52、行业行业|深度深度|研究报告研究报告 2023 年推出 Trainium2,相较于第一代 Trainium 芯片训练性能提升 3 倍、内存提升 2 倍,扩展性上最高支持 10 万颗 Trainium2 芯片互联,能实现高达 65exaflops 的算力,此规模下训练一个 3000 亿参数的 LLM 只要数周时间,预计 2024 年可交付使用。推理芯片端,2019 年推出了第一款推理芯片Inferentia,自推出以来已经为亚马逊等公司节省超过一亿美元的资本支出,2022 推出 Inferentia2,芯片吞吐量比 Inferentia1 高四倍、延迟低十倍。从应用情况看:1)Anthropic53、 在 2023 年 9 月与亚马逊达成战略合作,将使用亚马逊的 Trainium 和Inferentia 芯片进行未来基础模型的训练与部署,且双方未来将合作开发新版本 Trainium 和 Inferentia芯片。2)Finch Computing 利用亚马逊 Inferentia 芯片完成语言翻译任务,推理成本相较使用 GPU 降低 80%。(3)微软:自研芯片微软:自研芯片 Maia100 初步问世初步问世 相较于谷歌和亚马逊,微软在定制服务器、存储和数据中心方面起步较晚,最早于 2019年启动名为“Athena”的内部自研计划。直到 2023 年 11 月的 Ignite 大会,微软首54、次推出自研芯片 Azure Maia 100,主要用于云端训练、推理以及 Azure 的高负载云端运算。Maia 100采用台积电 5nm 制程工艺,晶体管数量达 1050亿。根据微软官网,Maia 100最初将为内部提供支持,后续将对外开放。微软之外,旗下 19/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 大模型领先厂商 OpenAI 同样有意自研芯片。2024 年 1月份期间,Open AICEO 山姆 奥尔特曼正在筹集资金建设半导体生产设施,生产用于人工智能(AI)应用的处理器。(4)Meta:自研推理芯片:自研推理芯片 MTIA 将于将于 2025 55、年推出年推出 2020 年,Meta 出于内部工作负载需求自研设计了第一款推理加速器 MTIA,该产品于 2023 年 5 月正式发布,预计将于 2025 年推出。MTIAv1 为深度学习推荐模型定制,采用 TSMC 7nm工艺制造,运行频率为 800MHz,INT8/FP16 计算能力分别为 102.4TOPS/51.2TFLOPS,热设计功耗(TDP)为 25W。从性能对比看,当前 MTIA 在低复杂性和中等复杂性模型的处理上具有较高每瓦性能,但在高复杂性模型上距离 GPU 仍有一定差距。根据最新消息,Meta 将新自研第二代 AI 推理芯片 Artemis。3、AI 芯片国产化趋势已现芯56、片国产化趋势已现(1)华为昇腾:对标英伟达,有望成为国内第二华为昇腾:对标英伟达,有望成为国内第二 AI 算力生态算力生态 华为海思有超 20 年技术积累,芯片超 200 项自主知识产权,技术实力领先。目前有智能终端和处理器两大产品线,处理器产品包括麒麟、昇腾、鲲鹏、巴龙、凌霄。目前在全球设有 12 个办事处和研发中心,产品和服务遍布全球 100 多个国家和地区,有超 8000 项专利,研发实力突出。其中昇腾作为新一代智算芯片,有昇腾 310 与昇腾 910两款产品。昇腾 310 是华为首款全栈全场景人工智能芯片,昇腾910 是华为目前推出的算力最强的 AI 芯片,集成了 CPU Core、D57、VPP 和任务调度器(Task Scheduler),可以减少和 Host CPU的交互,充分发挥其高算力的优势;还集成了 HCCS、PCle4.0 和 ROCE v2 接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法。2023 年,华为新一代AI 芯片昇腾 910B 发布,芯片性能达到英伟达 A100 芯片水平,打破美国在人工智能芯片领域的技术垄断地位。20/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 昇腾芯片搭载的华为独创达芬奇架构神经网络处理单元 NPU,该架构具有极具创新的高性能 3D Cube计算引擎58、等关键技术,大幅提升 AI 计算的效率和灵活性,能够在多场景,云、边、端,提供最优算力支持。华为昇腾华为昇腾 AI 产业生态包括昇腾产业生态包括昇腾 AI 基础软硬件平台,基础软硬件平台,即 Atlas 系列硬件、异构计算架构 CANN、全场景AI 框架昇思 MindSpore、昇腾应用使能 MindX以及一站式开发平台 ModelArts 等。基于昇腾 910系列板卡,华为推出了 AI 训练集群 Atlas900、AI 训练服务器 Atlas800、智能小站 Atlas500、AI 推理与训练卡 Atlas300 和 AI 加速模块 Atlas200,完成了 Atlas全系列产品布局。异构计59、算架构异构计算架构 CANN 对标英伟达对标英伟达 CUDA+CuDNN 核心软件层。华为通过核心软件层。华为通过 CANN 和和 AscendCL 构建构建国产国产 GPU 软件生态。软件生态。CANN 旨在为开发者提供高效、灵活且易于使用的工具和服务,以便在华为昇腾AI 硬件上开发和部署各种人工智能应用。CANN 对上支持多种 AI 框架,对下服务 AI 处理器与编程,这意味着,无论使用哪种 AI 框架(如 TensorFlow、PyTorch 等),CANN 都能提供支持。同时,CANN 还提供了一套简单易用的 AscendCL(Ascend Computing Language)编程接60、口,为开发者屏蔽底层处理器的差异,使开发者只需要掌握一套 API,就可以全面应用于昇腾全系列 AI 处理器。此外,CANN 还提供了一键式模型迁移工具,支持主流框架模型快速迁移到昇腾平台,迁移后精度/性能可调、易调。CANN通过多层次的抽象和优化,为开发者提供了从底层硬件到顶层应用的全方位支持,旨在简化 AI 应用的开发流程,加速 AI 技术的创新和应用落地。CANN 提供底层计算能力的同时,提供底层计算能力的同时,MindSpore 提供深度学习框架功能。提供深度学习框架功能。MindSpore 是一款全场景深度学习框架,它通过提供函数式可微分编程架构,简化了模型算法的数学表达,使得开发者能61、够更加专注于模型创新而非底层实现细节。MindSpore 在某些方面类似于 PyTorch 和 TensorFlow,这两个框架都依赖于 CUDA 来在 NVIDIA GPU 上执行计算。此外,MindSpore 还提供了自动微分功能,允许开发者轻松计算模型的梯度,这对于训练神经网络至关重要。而 CANN 作为一个异构计算架构,它提供了类似于 CUDA Toolkit 的功能,作为底层的异构计算架构为 MindSpore 以及其他 AI 框架提供硬件加速和优化支持。CANN 使得 MindSpore 等框架能够更好地利用昇腾 AI 处理器的算力,提高 AI 计算的性能和效率。总结来说,Mind62、Spore 和 CANN 共同构成了华为昇腾 AI 生态的一部分,MindSpore 专注于AI 模型的开发,而 CANN 则提供底层的硬件支持和性能优化,两者相互配合,共同推动 AI 应用的发展。21/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 (2)海光信息:类海光信息:类 CUDA 带来更好的生态兼容性带来更好的生态兼容性 海光信息新一代海光信息新一代 DCU(GPGPU)深算二号已经发布实现商用,可用于大模型训练。深算三号研发顺)深算二号已经发布实现商用,可用于大模型训练。深算三号研发顺利,公司产品持续迭代。利,公司产品持续迭代。中科曙光作为国产服务63、器龙头,是公司的第一大股东,有望充分受益中科系软硬件的赋能。海光信息除了 CPU 产品实力出众外,其 DCU 产品也性能、生态优异。公司 DCU 第一代产品深算一号于 2022 年实现了商业化应用,可以用于大模型的训练,主要客户是智算中心等“新基建”项目、行业用户、AI 厂商及互联网企业。海光与百度、阿里等头部互联网厂商推出联合方案,打造全国产软硬件一体全栈 AI 基础设施。另外,海光 DCU深算二号已于 2023 年 Q3 发布,并实现在大数据处理、人工智能、商业计算等领域的商用。同时,深算三号研发进展顺利。22/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告64、 海光信息海光信息 DCU(GPGPU)“类类 CUDA”生态优异,工具链完整。生态优异,工具链完整。CUDA 被称为英伟达最深的护城河。而海光 DCU(GPGPU)脱胎于 AMD,兼容主流生态:开源 ROCm(类 CUDA)GPU计算生态,支持TensorFlow、Pytorch 和 PaddlePaddle 等主流深度学习框架、适配主流应用软件。现有 CUDA 上运行的应用可以低成本迁移到基于 ROCm的海光平台上运行。(3)寒武纪:云端芯片性能持续扩展,云边终端协同覆盖寒武纪:云端芯片性能持续扩展,云边终端协同覆盖 云端云端 AI 推理,高能效比国产芯片。推理,高能效比国产芯片。思元 265、70集成了寒武纪在处理器架构领域的一系列创新性技术,处理非稀疏人工智能模型的理论峰值性能提升至上一代思元 100 的 4 倍,达到 128TOPS(INT8);同时兼容 INT4 和 INT16 运算,理论峰值分别达到 256TOPS 和 64TOPS;支持浮点运算和混合精度运算。思元 270 采用寒武纪 MLUv02 架构,可支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,更为视觉应用集成了充裕的视频和图像编解码硬件单元。推理卡研发迭代,性能持续提升。推理卡研发迭代,性能持续提升。思元 370是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片,集成了390 亿个晶66、体管,最大算力高达 256TOPS(INT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。思元 370也是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link多芯互联技术,在分布式训练或推理任务中为多颗思元 370 芯片提供高效协同能力。从软件功能维度看,从软件功能维度看,寒武纪软件栈分为运行时库、框架、分析工具、BANG 语言及工具、算子库、视觉应用工具六部分,运行时库提供底层设备接口支持上层模块,框67、架部分提供 AI 算法环境与接口,分析工具为开发者提供调试、调优工具,方便在硬件上优化 AI 框架及应用,BANG 语言及工具提供自定义算子开发能力,算子库中包含 CNNL 等常见高性能算子,视觉应用工具提供端到端的视觉算法应用开发方案,降低开发视觉应用门槛。全新升级的寒武纪基础软件平台,新增推理加速引擎全新升级的寒武纪基础软件平台,新增推理加速引擎 MagicMind,实现训推一体。,实现训推一体。MagicMind 是面向寒武纪 MLU 的推理加速引擎。MagicMind 可以将更高层级的人工智能框架(TensorFlow、PyTorch、Caffe 与 ONNX 等)的算法模型转换成 M68、agicMind 统一计算图表示,并提供端到端的模型优化、代码生成以及推理业务部署能力。借助 MagicMind用户仅需投入较少开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。23/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 在 2022 年举办的 2022 世界人工智能大会上,寒武纪董事长、总经理陈天石博士透露全新一代云端智能训练芯片思元 590 仍在研。思元 590 采用 MLUarch05 全新架构,它提供了更大的内存容量和更高的内存带宽,其 IO 和片间互联接口也较上代实现大幅升级。先进工艺保障芯片制造。先进工艺保障芯片制造69、。公司已掌握 7nm 等先进工艺下开展复杂芯片物理设计的一系列关键技术,并且已将其成功应用于思元 100、思元 220、思元 270、思元 290、思元 370 等多款芯片的物理设计中。24/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告(4)百度:基于自研架构迭代,性能提升明显,关注新一代百度:基于自研架构迭代,性能提升明显,关注新一代 AI 芯片落地情况芯片落地情况 百度的对自研芯片布局最早可追溯至 2011年,最早布局方向为 FPGA AI 加速器,并于 2015 年部署超过 5000 片,后续逐步转变方向,先于 Hot Chips 2017发布昆仑芯 X70、PU 架构,后在 2018 年正式启动昆仑芯 AI 芯片产品研发。百度的首款 AI 芯片“昆仑”最早于 2018 年 7 月对外公布、2019 年量产,2020年在微亿智造的工业智能质检设备上部署上线并首次大规模应用。2021 年,昆仑芯实现昆仑 2 代量产,并于 2022 年启动互联网及各行业客户交付且取得实际进展,2023 年 9 月,昆仑芯与国芯科技签订战略合作协议,将在边缘 AI 计算、车规功能安全 SoC等技术领域展开长期合作。基于自研架构迭代,性能提升明显。基于自研架构迭代,性能提升明显。昆仑芯 1 代 AI 芯片基于昆仑芯自研架构 XPU 设计,采用 14nm工艺,针对云端推理场71、景,支持通用 AI 算法。昆仑芯 2 代设计基础为新一代自研架构 XPU-R,采用 7nm工艺,FP16 算力为 128TFLOPS,内存带宽 512GB/s,通用计算核心算力相较昆仑芯 1 代提升 2-3 倍。目前,昆仑芯基于两代通用 AI 计算处理器产品打造产品系列,包括 K100、K200、R100、R200,RG800 以及 AI 加速器组 R480-X8 等,满足多种用户需求。新一代昆仑芯片正在研发阶段。(5)腾讯:自研与投资幵进,推理芯片紫霄性能接近英伟达腾讯:自研与投资幵进,推理芯片紫霄性能接近英伟达 A10 2018 年,腾讯投资 AI 芯片初创企业燧原科技,开始布局芯片自研,72、目前旗下同时拥有高性能云端训练产品云燧 T21/T21 及云端推理产品云燧 i20,2022 年投资 DPU 创业公司云豹智能。投资之外,腾讯内部自研同样开始发力,2020 年成立蓬莱实验室,2021 年腾讯数字生态大会上公布 3 款芯片进展,其中AI 推理芯片紫霄已经成功流片;截至 2023 年,紫霄已实现量产且在腾讯头部业务规模部署,可提供 3倍的计算加速性能并节省超过 45%的整体成本。从性能参数看,紫霄 C100 性能接近英伟达 A10,FP16峰值算力近 2 倍于英伟达 A4。应用端,紫霄已在腾讯会议上实现应用落地,主要应用于实时字幕。25/34 2024 年年 6月月 24 日日 73、行业行业|深度深度|研究报告研究报告 (6)摩尔线程:推出摩尔线程:推出自研自研架构的架构的 MTTS4000 智算加速卡,实现高性能计算与多场景智算加速卡,实现高性能计算与多场景应用应用 摩尔线程的 GPU 产品基于其自研的 MUSA(MooreThreads Unified System Architecture)架构。这一架构融合软硬件设计,包括统一的编程模型、软件运行库、驱动程序框架、指令集架构和芯片架构。此外,MUSA 平台扩展性突出,基于 MUSA 开发的应用具有广泛的可移植性,可同时运行在云端和边缘的众多计算平台之上。基于第三代 MUSA 架构,摩尔线程推出的最新智算加速卡产品为74、 MTTS4000,共包含 8192 个 MUSA 核心(VectorCore),以及 128个 Tensor Core,支持 FP64、FP32、TF32、FP16、BF16、INT8等主流精度算力,FP32 算力为 25TFLOPS。单卡支持 48GB 显存和 768GB/s 的显存带宽。在卡间互联方面,基于摩尔线程自研 MTLink1.0 技术和摩尔线程 KUAE 千卡模型训练平台,MTTS4000 能够支持多卡互联。此外,新产品具有多场景能力,可以提供先进的图形渲染能力、视频编解码能力和 8KHDR 显示能力,还能支持 AI 计算、图形渲染、多媒体等综合应用场景。26/34 2024 75、年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 六、产业链分析六、产业链分析 AI 芯片产业链上游为硅片、光刻胶、溅射靶材、电子特气等半导体材料和单晶炉、PVD、光刻设备、检测设备等设备;中游为 AI 芯片产品制造,包括设计、制造、封装、测试等环节;下游为云计算、智慧医疗、智能穿戴、智能手机、智能机器人、无人驾驶等应用领域。1、半导体材料半导体材料 AI 算力依赖硬件驱动,带动芯片需求增长从而带动半导体材料增长算力依赖硬件驱动,带动芯片需求增长从而带动半导体材料增长。半导体材料作为芯片的基石,受益于人工智能的需求拉动,半导体材料市场规模呈现整体向上的态势。半导体材料包括:硅片、76、溅射靶材、CMP 抛光液和抛光垫、光刻胶、高纯化学试剂、电子气体、化合物半导体、封装基板、引线框架、陶瓷封装体、键合金属线等。AI 芯片作为专门用于处理人工智能应用中的大量计算任务的模块,其制造和构建离不开半导体材料作为基础。近年来,随着国内半导体材料厂商不断提升半导体产品技术水平和研发能力,中国半导体材料国产化进程加速。中商产业研究院发布的2024-2029 年中国半导体材料专题研究及发展前景预测评估报告显示,2023 年中国大陆半导体材料市场规模约为 979 亿元。中商产业研究院分析师预测,中商产业研究院分析师预测,2024年中国大陆半导体材料市场规模将达年中国大陆半导体材料市场规模将达 77、1011 亿元。亿元。(1)硅片)硅片 硅片是生产集成电路、分立器件、传感器等半导体产品的关键材料,是半导体产业链基础性的一环。受益于通信、计算机、消费电子等应用领域需求带动,我国半导体硅片市场规模不断增长。中商产业研究院发布的2024-2029 全球与中国半导体硅片市场现状及未来发展趋势显示,2022 年中国半导体硅片市场规模达到 138.28 亿元,较上年增长 16.07%,2023 年约为 164.85 亿元。中商产业研究院分析师预测,2024年中国半导体硅片市场规模将增至 189.37 亿元。硅片环节重点企业包括有研新材、华天科有研新材、华天科技、晶盛机电、沪硅产业、中环股份、立昂微技78、、晶盛机电、沪硅产业、中环股份、立昂微等。27/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告(2)光刻胶)光刻胶 目前,随着下游需求的逐渐扩大,我国光刻胶市场规模显著增长。中商产业研究院发布的2024-2029全球及中国光刻胶和光刻胶辅助材料行业发展现状调研及投资前景分析报告显示,我国光刻胶 2022年市场规模约为 98.6 亿元,同比增长 5.68%,2023 年约为 109.2 亿元。中商产业研究院分析师预测,2024 年我国光刻胶市场规模可达 114.4 亿元。光刻胶重点企业包括大族激光、圣泉集团、安泰科技、容大族激光、圣泉集团、安泰科技、容大感光、广信79、材料、雅克科技、晶瑞电材、彤程新材大感光、广信材料、雅克科技、晶瑞电材、彤程新材等。(3)溅射靶材)溅射靶材 溅射靶材是指一种用溅射沉积或薄膜沉积技术制造薄膜的材料。中商产业研究院发布的2024-2029 中国靶材市场现状及未来发展趋势显示,2022 年中国靶材市场规模达到 395亿元,同比增长 6.76%,2023 年市场规模约为 431 亿元。中商产业研究院分析师预测,2024年中国靶材行业市场规模将达到476 亿元。溅射靶材重点企业包括阿石创、有研新材、江丰电子、新疆众和、光智科技阿石创、有研新材、江丰电子、新疆众和、光智科技等。(4)电子特气)电子特气 近年来,中国电子特种气体市场规模80、持续增长。中商产业研究院发布的2024-2029 年中国电子特气专题研究及发展前景预测评估报告显示,2022 年电子特种气体市场规模 220.8 亿元,同比增长 12.77%。我国电子特气市场规模的增长率明显高于全球电子特气增长率,未来有较大发展空间。中商产业研究院分析师预测,2024年中国电子特气市场规模将超过 250 亿元。2、半导体设备、半导体设备 半导体设备包含单晶炉、光刻设备、半导体设备包含单晶炉、光刻设备、PVD 设备及检测设备等。设备及检测设备等。单晶炉重点企业包括晶盛机电、华盛天晶盛机电、华盛天龙、北方华创、晶科能源、晶澳科技、捷佳伟创龙、北方华创、晶科能源、晶澳科技、捷佳伟创81、等;光刻设备重点企业包括上海微电子、中电科上海微电子、中电科 45 所、所、沈阳芯源、芯碁微装、电科数字、旭光电子沈阳芯源、芯碁微装、电科数字、旭光电子等。半导体设备是 AI 芯片的基础和基石,为 AI 芯片的制造提供了必要的工艺和技术支持。中商产业研究院发布的2024-2029年中国半导体设备行业市场供需趋势及发展战略研究预测报告显示,2023 年中国半导体设备市场规模约为 2190.24 亿元,占全球市场份额的 35%。中商产业研究院分析师预测,中商产业研究院分析师预测,2024 年中国半导体设备市场规模将达年中国半导体设备市场规模将达 2300 亿元。亿元。3、HBM AI 服务器存储容82、量倍增,带动存储器需求成长。服务器存储容量倍增,带动存储器需求成长。据 TrendForce,AI 服务器需要配置更多 DRAM、SSD 和 HBM 等大容量存储以应对日益复杂的大模型所带来的海量数据。当前普通服务器 DRAM 普遍配置约为 500至 600GB,而 AI 服务器 DRAM 配置可达 1.2 至 1.7TB,是普通服务器的二到三倍。此外,相较于一般服务器而言,AI 服务器多增加 GPGPU 的使用,因此以 NVIDIA A100 80GB 配置 4 或 8张计算,HBM 用量约为 320640GB。未来在 AI 模型逐渐复杂化的趋势下,将刺激更多的存储器用量,并同步带动 Ser83、verDRAM、SSD 以及 HBM的需求成长。28/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 HBM 解决解决 GPU 内存危机内存危机。处理器的性能按照摩尔定律规划的路线不断飙升,内存所使用的 DRAM却从工艺演进中获益很少,性能提升速度远慢于处理器速度,造成了 DRAM 的性能成为制约计算机性能的一个重要瓶颈,即所谓的“内存墙”。HBM成为增加存储器带宽的路径之一,以解决大数据时代下的“内存墙”问题。HBM(High Bandwidth Memory)即高带宽存储器,按照 JEDEC 的分类,HBM 属于 GDDR 内存的一种,其通过使用先进的封装方84、法(如 TSV 硅通孔技术)垂直堆叠多个 DRAM,并与 GPU 封装在一起。HBM 主要优势是在高带宽和低功耗领域,应用场景以配合并行计算的 GPU 和 ASIC 芯片为主。主流用于大模型训练的主流用于大模型训练的 AI 芯片,其显存方案跟随芯片,其显存方案跟随 HBM 技术的提升而演进,向更高带宽的方向发展。技术的提升而演进,向更高带宽的方向发展。英伟达的 A100 和 AMD MI200均采用 HBM2e 方案,而英伟达最新一代的 H100芯片则采用 SK海力士的 HBM3 方案,AMD 发布的 MI300X采用 192GB 的 HBM3 内存方案,带宽最高可达 H100 的 1.6倍。85、29/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 AI 创造纯增量市场,创造纯增量市场,HBM 需求量年增近六成。需求量年增近六成。目前高端 AI 服务器 GPU 搭载 HBM已成主流,TrendForce 预估 2023 年全球 HBM需求量将年增近六成,来到 2.9 亿 GB,2024 年将再成长三成。根据 Mordor Intelligence,2020 年 HBM市场价值为 10.68 亿美元,预计到 2026 年将达到 40.89 亿美元,在 2021-2026 年预测期间的复合年增长率为 25.4%。HBM 头部企业 SK 海力士在 2023 年86、 7 月表示,目前其 HBM 的销量占比还不足营收 1%,但 2023 年销售额占比有望成长到 10%,同时预计在 2024 年应用于 AI 服务器的 HBM 和 DDR5 的销量将翻一番。2023 年 10 月,SK 海力士表示,已经在 2023 年出售了明年 HBM3 和 HBM3E 的所有产量。HBM 价值量显著敢于标准价值量显著敢于标准 DRAM,成为新利润增长点。,成为新利润增长点。芯片咨询公司 SemiAnalysis 表示,HBM的价格大约是标准 DRAM 芯片的五倍,为制造商带来了更大的总利润。目前,HBM 占全球内存收入的比例不到 5%,但 SemiAnalysis 预计到 87、2026 年将占到总收入的 20%以上。SK海力士首席财务官KimWoo-hyun 在 4 月份的财报电话会议上表示预计 2023 年 HBM 收入将同比增长 50%以上。韩系存储供应商积极扩产,主导韩系存储供应商积极扩产,主导 HBM 市场。市场。根据 TrendForce,2022 年三大原厂 HBM 市占率分别为SK 海力士约 50%、三星约 40%、美光约 10%。高阶深度学习 AIGPU 的规格也在刺激 HBM 产品更迭,2023 下半年伴随 NVIDIA H100与 AMD MI300 的搭载,三大原厂也已规划相对应规格 HBM3 的量产。SK 海力士作为目前唯一量产新世代 HBM88、3 产品的供应商,其整体市占率有望提升至 53%,而三星、美光则预计陆续在 2023 年底至 2024 年量产,市占率分别为 38%及 9%。基于各原厂积极扩产的策略,HBM 供需比有望获改善,预估将从 2023 年的-2.4%,转为 0.6%。4、先进封装先进封装 异构集成,即横向和纵向连接多个半导体,可将更多的晶体管装在一个更小的半导体上,准确地说是在更小的半导体封装内,从而提供比其各部分之和更大的功用。CPU+GPU是人工智能异构计算的主要组 30/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 合形式,英伟达的 GraceHopper 超级芯片通过异构集89、成 CPU、GPU以及存储器,实现芯片更高带宽的互连,能够承担更大的数据集、更复杂的模型和新的工作负载。先进封装成为突破先进封装成为突破“摩尔定律摩尔定律”局限的技术。局限的技术。先进封装技术充当着半导体器件与系统之间的桥梁,是实现异构集成的关键技术,因此,这种连接方法变得越来越重要。先进封装技术本身已成为一种系统解决方案,半导体头部设计、制造商均通过此方法,在摩尔定律放缓的时代,从系统层面继续提升芯片性能。自自 2020 年开始,先进封装进入技术融合期,成为关键的系统级解决方案。年开始,先进封装进入技术融合期,成为关键的系统级解决方案。不仅需要借助多项技术将各类芯片集成到同一封装内,还需要在90、整合系统时将多个部分连接至同一模块。AI 计算芯片融合了多项先进封装技术,HBM 应用 TSV堆叠技术获得超高带宽,而为了将 HBM 和 GPU 集成,CoWoS 封装技术被深度开发。因此,封装技术将成为提供整体系统解决方案的重要手段。海力士判断,未来各公司将依赖封装技术助力其成为半导体行业的领军者。随着封装技术的发展,近十年中,重新分配层(RDL)、倒片封装(FlipChip)和硅穿孔(TSV)等封装技术得到了积极广泛的应用,在硅晶圆或芯片堆叠结构晶圆中进行工艺处理,大幅提高了产品的性能和容量。SK 海力士凭借业界领先的 TSV 堆叠技术引领了市场发展,这其中包括 HBM封装存储器解决方案,91、以及用于服务器的高密度存储器(HDM)三维堆叠技术。同时,海力士持续迭代封装技术,研发了批量回流模制底部填充、混合键合、扇出型晶圆级封装等技术,以进一步提升了 HBM 的堆叠层数。31/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 CoWoS 封装技术是目前集成 HBM 与 CPU/GPU 处理器的主流方案。在算力芯片性能暴增的时代下,先进封装产业链逐渐的进入高速发展时期。台积电封装产能紧缺。台积电主导全球 CoWoS 封装市场,且正在扩大产能,以满足客户,尤其是 AI 芯片领域的需求。英伟达等大客户增加了对 CoWoS 封装的订单量,AMD、亚马逊等其他大厂92、也出现了紧急订单。据 IDC 预测,全球 CoWoS 供需缺口约 20%,2024 年台积电的 CoWos 封装产能将较 2023 年提升一倍,2.5D/3D 先进封装市场规模在 2023-2028年将以 22%的 CAGR 高速增长。先进封装生态涵盖从芯片设计、制造、材料的供应商。包括高性能算力芯片巨头英特尔、英伟达、英特尔、英伟达、AMD;存储芯片供应商三星、海力士、镁光三星、海力士、镁光;先进封装工艺服务商台积电、英特尔、日月光台积电、英特尔、日月光;IC载板供应商欣兴电子、英特尔、欣兴电子、英特尔、AT&S 等。我国本土供应商在先进封装产业链的参与度较低,在逆全球化的背景下,除了实现高93、阶芯片制程的自主可控,先进封装的国产化也同样迫在眉睫。七、七、国内相关公司国内相关公司 1、香农芯创:深度布局存储产业香农芯创:深度布局存储产业 32/34 2024 年年 6月月 24 日日 行业行业|深度深度|研究报告研究报告 拥抱头部原厂资源,投资半导体产业链协同赋能。香农芯创目前拥有两大业务板块:电子元器件分销平台,和半导体产业链协同赋能。公司第一大供应商为 SK 海力士,并获得了 SK 海力士、MTK 等原厂的授权代理权,形成了代理原厂线优势。公司投资半导体设计、封测、设备、应用等各个环节领军企业,推动半导体产业链生态发展和升级。与海力士合作拓展 SSD 业务。公司公告与深圳大普微电94、子、江苏疌泉君海荣芯投资等合作方共同出资设立深圳市海普存储科技有限公司。新公司拟开展 SSD 存储产品的设计、生产和销售业务,当前我国企业级 SSD 市场国产化率较低,而 2022-2026 年我国企业级 SSD 市场规模将以 23.7%的年均复合增速成长,市场空间广阔。新公司的成立,助力打破技术垄断,推进企业级 SSD 国产替代进程。此外,投资方江苏疌泉君海荣芯投资的第一大股东为 SK海力士(无锡)投资公司,利益共享或有技术赋能。2、雅兊科技:海力士重要供应商雅兊科技:海力士重要供应商 雅克科技是平台型先进材料公司,形成了以电子材料为核心,LNG 保温板材为补充的战略模式。公司收购海外优质资95、产弯道超车,并打入海外核心客户供应链,技术实力国内领先。公司半导体材料包括前驱体、光刻胶及辅助化学品、电子特气、硅微粉等,客户包括台积电、三星电子、Intel、中芯国际、海力士、京东方等业国际头部企业。2023 年 9 月,公司发布对外投资公告,子公司江苏雅克半导体以约 2.7 亿元的价格收购 SKenpulse 公司持有的 SKC-ENF75.1%的股权,SKC-ENF 持有爱思易(江苏)公司及爱思开希(南通)公司 100%的股权,主要产品为半导体光刻胶辅助化学品,包括显影液、稀释剂、蚀刻液等,目前是国内唯一拥有相关技术的本土供应商,产品可以满足对应全品类光刻胶匹配使用。公司横向布局湿电子化96、学品,拓展业务疆界,并增强主业的规模效应。3、兴森科技:引领兴森科技:引领 IC 载板国产替代载板国产替代 兴森科技专注于印制电路板产业,围绕传统 PCB 业务和半导体业务两大主线开展。PCB 业务聚焦于样板快件及批量板的研发、设计、生产、销售和表面贴装;半导体业务聚焦于 IC 封装基板(含 CSP 封装基板和 FCBGA 封装基板)及半导体测试板。兴森科技对 IC 载板产能投资全球领先。据 Yole,IC 载板全球市场规模 2022 年达到 151 亿美元,2028年将增长至 289亿美元,年均增速 11%。但市场主要由海外公司主导,国内正在积极扩充产能,大陆厂商对 IC 载板的投资额占比达97、全球的 46%,兴森科技(fastprint)的资本投入在 2021-2022 年间排名全球第四。4、华海诚科:环氧塑封领先企业华海诚科:环氧塑封领先企业 华海诚科主要产品包括环氧塑封料与电子胶黏剂,广泛应用于半导体封装、板级组装等应用场景。其中,环氧塑封料与芯片级电子胶黏剂与半导体封装技术的发展息息相关,是保证芯片功能稳定实现的关键材料。现建有先进的环氧模塑料中试线 1 条、大生产线 5 条。目前公司的研发能力和生产能力在国内环氧塑封料行业排名前列。芯片级底部填充胶主要应用于 FC(FlipChip)封装领域,根据 Yole,FC 在先进封装的市场占比约为80%左右,是目前最具代表性的先进封98、装技术之一,具体类型包括 FC-BGA、FC-SiP 等先进封装技术,33/34 2024 年年 6月月 24 日日行业行业|深度深度|研究报告研究报告 目前该市场仍主要为日本纳美仕、日立化成等外资厂商垄断,国内芯片级底部填充胶目前主要尚处于实验室阶段。公司 FC 底填胶已通过星科金朋的考核验证,在内资厂商中处于领先水平。5、艾森股份:先进封装材料平台、艾森股份:先进封装材料平台艾森股份围绕电子电镀、光刻两个半导体制造及封装过程中的关键工艺环节,形成了电镀液及配套试剂、光刻胶及配套试剂两大产品板块布局。公司主要产品以传统封装材料为主,先进封装材料逐步放量。公司先进封装用电镀铜基液(高纯硫酸铜)99、已在华天科技正式供应;先进封装用电镀锡银添加剂已通过长电科技的认证,尚待终端客户认证通过;先进封装用电镀铜添加剂正处于研发及认证阶段。先进封装光刻方面,公司以光刻胶配套试剂为切入点,成功实现附着力促进剂、显影液、去除剂、蚀刻液等产品在下游封装厂商的规模化供应。同时,公司积极开展光刻胶的研发,目前,公司自研先进封装用 g/i 线负性光刻胶已通过长电科技、华天科技认证并实现批量供应。八、未来展望八、未来展望 1、市场预测、市场预测近年来,我国 AI 芯片受到广泛关注,不断涌现出新的生产设计商,行业市场规模不断增长。中商产业研究院发布的2024-2029年中国人工智能芯片行业市场发展监测及投资潜力预100、测报告显示,2023年中国 AI 芯片市场规模达到 1206 亿元,同比增长 41.9%。中商产业研究院分析师预测,2024 年中国AI 芯片市场规模将增长至 1412 亿元。2、AI 芯片应用领域不断拓展芯片应用领域不断拓展34/34 2024 年年 6月月 24 日日行业行业|深度深度|研究报告研究报告 随着人们对生活品质要求的提高,AI 芯片已应用于众多前沿及快速发展的下游领域,AI 芯片应用的不断拓展。随着数字化时代的到来,我国产业也纷纷开始数字化转型,带动 AI 芯片需求的增长,以支持高效处理海量数据,从而推动 AI 芯片行业的快速发展和持续创新。可以预计,在未来我国数字化转型持续推101、进的背景下,AI 芯片将存在广阔的应用市场,需求不断增加,推动行业快速发展阶段。3、中期维度或将改变行业格局、中期维度或将改变行业格局如上文所述,全球范围内大型互联网企业和科技公司或将纷纷加速推进自研 AI 芯片的发展,其背后一方面是基于 AI 高速发展背景下成本优化的考虑,同时也一定程度上摆脱对上游的单一供应依赖,判断随着全球范围内在 AI 算力方向上投入的加大,该趋势有望进一步强化。而国内由于供应链安全问题更加严重,在算力国产化之外,AI 大厂自研 AI 芯片更是逐步提升其更高的战略位置,一方面从供应维度或将改变当前 AI 芯片格局,另一方面作为重要的需求方自产自供模式下需求的改变也值得关102、注,能够认为会影响到产业链上下游相关的各个环节,包括芯片设计、生产、服务器代工等等,其中国内服务器厂商在大厂自研 AI 芯片趋势下,高端 AI 芯片供给的改变带来对应产业链供应商受益。九、参考研报九、参考研报 1.中金公司-科技硬件行业智算未来系列七:国产云端 AI 芯片破局,路在何方?2.国泰君安-计算机行业:重视 AI 芯片配套的软件生态3.华福证券-服务器行业深度报告:AI 和“东数西算”双轮驱动,服务器再起航4.中航证券-科技行业专题研究:AI 智算时代已至,算力芯片加速升级5.光大证券-电子行业 2024 年投资策略:中华有为,芯芯向荣6.嘉世咨询-2023AI 芯片行业发展简析报告103、7.海通证券-电子行业:边缘 AI 芯片蓄势待发,行业龙头助力场景落地8.华源证券-海外科技行业周报:微软领衔 AIPC新品推出,加密现货 ETF再添新军9.浙商证券-算力行业深度报告:海外科技启示录,英伟达(1),超级工厂是怎样炼成的10.长江证券-软件与服务行业算力系列之大厂 AI 芯片自研:长期降本+供应安全,自研 AI 芯片加速11.信达证券-半导体行业专题研究:AIGC 推动 AI 产业化由软件向硬件切换,半导体+AI 生态逐渐清晰12.国海证券-计算机行业 AI 算力月度跟踪(202403):NVIDIA B200 再创算力奇迹,液冷、光模块持续革新13.方正证券-曙光数创-872808-公司深度报告:数据中心基础设施液冷行业领先,持续受益于 AI 等算力扩张14.长城证券-通信行业本周专题:我国 AI 芯片加速发展,车联网加速落地,持续看好相关产业链投资机会免责声明:以上内容仅供学习交流,不构成投资建议。