计算机行业华为系列深度之十五：AI算力软件生态难以突破吗？-240919（31页）.pdf

《计算机行业华为系列深度之十五：AI算力软件生态难以突破吗？-240919（31页）.pdf》由会员分享，可在线阅读，更多相关《计算机行业华为系列深度之十五：AI算力软件生态难以突破吗？-240919（31页）.pdf（31页珍藏版）》请在本站上搜索。 1、证证券券研研究究报报告告 AlAl算力软件生态：算力软件生态：难以突破吗难以突破吗?华为系列深度之十五证券分析师：黄忠煌 A0230519110001洪依真 A0230519060003杨海晏 A0230518070003李国盛 A0230521080003研究支持：崔航 A0230524080005联系人：曹峥 A0230123040004 2024.9.19SWSRESEARCH结论和投资分析意见结论和投资分析意见 2024H2,国内AI芯片厂商产品密集迭代，软件生态是核心竞争要素之一，兼容CUDA路线海光信息、以及自成体系路线华为昇腾为国产厂商中进展最快，用户使用体验佳，2、新产品有望更快放量。原因及逻辑原因及逻辑Al 开发框架：Pytorch、Tensorflow双寡头，且逐渐与AI芯片解耦。GPU 编程平台：训练端，每家AI芯片均自有GPU 编程平台软件，其中英伟达CUDA 具备先发优势，形成一定的生态壁垒。其他厂商与英伟达竞争采用2类方式：1)兼容英伟达CUDA,典型代表是AMD、海光信息；2)自成体系：代表厂商华为昇腾、寒武纪。有别于大众的认识有别于大众的认识市场认为，英伟达CUDA 生态壁垒难以突破，一方面是其与AI开发框架厂商的紧密支持，另一方面是CUDA中众多的针对性优化，和庞大的用户群体(迁移其他平台需要学习成本)。我们认为，1)AI开发框架3、正在逐渐与英伟达CUDA/硬件解耦，开始原生支持AMD、华为等厂商产品，这一方面的壁垒逐渐瓦解；2)GPU 编程平台的学习成本和针对性优化，确实仍需要人才、用户、资金和时间的积累，但并非坚不可摧，且国产厂商如华为昇腾、海光信息均已有较快进展。风险提示：险提示：AIAI 芯片产品迭代进芯片产品迭代进展不及预期；国产厂商软件工具用户习惯培育周期长；展不及预期；国产厂商软件工具用户习惯培育周期长；AIAI应用长时间无爆款，影响应用长时间无爆款，影响AlAl算力需求。算力需求。证券研究报告 2投资案件投资案件1 兼容兼容CUDA解决用户学习成本问题，实现无痛切换1)上层转换器，如ROCmHipi4、fy Tools2)底层二进制机器码实时转译，已被禁止，有法律风险2 自成体系自成体系对厂商人才、技术、资金、品牌实力要求较高，需要以非市场化途径切入市场，培育用户习惯和生态难点在于其更新迭代速度永远跟不上CUDA 并且很难做到完全兼容华为：人才供给充足，各类算子开发进展较快，但由于开放较多底层优化，开发难度大，用户不友好谷歌：Tensorflow提供强耦合支持，但芯片设计过于专用，非谷歌人员使用有壁垒芯片本身性能以及算子库丰富程度还有追赶空间生态壁垒产生的根源在于软硬件的高度耦合AI芯片公司需要投入的优化最大的工作量是对海量算子和特定芯片的支持突破突破CUDA的两类方式的两类5、方式AIAI芯片公司所采取的不同突围路线芯片公司所采取的不同突围路线优劣势优劣势兼容CUDA 的路线，借力英伟达生态深度学习框架+AI芯片”自研路线自行维护Pytorch、Tensorflow后端算子，开发者共建算子生态证券研究报告 3AMD&海光海光信息信息华为华为谷歌谷歌寒武寒武纪纪&其其他总结总结：两条路径，各自突：两条路径，各自突破破AI芯片的整体性能=AI芯片硬件性能(GPUGPU 编程平台编程平台+深度学习框架支持深度学习框架支持)主要内容主要内容1.软件工具：AI 芯片的“大管家”2.训练端：后进入者竞争CUDA两类方式3.推理端：ONNX 为“中间人”,软件生态百花6、齐放4.相关公司5.风险提示SWSAIAI 开发框架开发框架x2h =ai.matmul(wx,x)h2h=ai.matmul(wh,h)next_h=x2h +h2hnext_h=ai.tanh()next_h=next_h.sum(b)GPU 编程平台编程平台Developer Tools Runtime二二=二二二二二二=Driver API(User Mode)Driver(Kernel Mode)数学表达计算图1)张量计算引擎+2)自动求导机制=高层算子，例如全连接、卷积、科学库和实用程序库例如cuDNN最基础库，包含前向、后向卷积、激活函数、归一化、张量变换等开发者工具7、例如优化器、调解器等运行时运行时(工作台工作台)封装了Driver API,设备管理流管理、内存管理、时间管理、统一寻址等驱动驱动与 Runtime功能类似，但能进行更底层控制内核驱动内核驱动驱动GPU 计算单元执行Kernel核函数功能，完成计算wX X wh hmatmul matmuladdtarnhLibrary库库二=Hostl主机主机Device 设备设备Toolkit工具工具 (容器容器Docker)Docker)编译编译器二二二证券研究报告资料来源：英伟达官网，CSDN (中国开发者网络),申万宏源研究 51.11.1软件工具栈：软件工具栈：AI芯片的大管家芯片的大8、管家H=WXH=WhHH=H+HH=tanh(H)Hs=H+boptimizerAI开发框架：Meta 维护的开源项目Pytorch、谷歌Tensorflow 双寡头，原生支持Nvidia,AMD、华为、寒武纪等陆续支持(非原生),逐渐解耦。GPU 编程平台：各家都有自有硬件+自有GPU 编程平台产品，且基本上为绑定状态。100%其他其他75%百Pytorch比25%Tensorflow0%2019 20201.21.2开发框架寡头垄断但逐渐解耦，开发框架寡头垄断但逐渐解耦，GPU 编程平编程平台各居一隅台各居一隅证券研究报告资料来源：51CTO (无忧创想数字化人才学习平台),申万宏源研9、究 6OpenCLVulkan紧耦合半耦合AMDROCmAMD MI系系列强支持(后端生态)弱支持(前端生态)-=Paper with code网站论文使用网站论文使用Pytorch比例快速提升比例快速提升寒武纪BANG寒武纪寒武纪MLU海光信息海光信息 DTK海光海光DCUDCU华为昇腾华为昇腾 CANN华为昇腾华为昇腾NVidia CUDANvidia 芯片芯片华为华为Mindspore谷歌谷歌TensorflowCaffe 百度飞桨百度飞桨MetaPytorch分分50%50%20212018英伟达英伟达AMDAMD谷歌谷歌TPUTPU华为昇腾华为昇腾寒武纪寒武纪海光信息海光信息GPU10、编程平台CUDAROCmXLACANNBANGDTKC语言编译器NVCCHCC传统编译器毕昇编译器CNCCLLVM汇编语言SASS?Ascend CLMLISA?指令集PTX(闭源)?(技术文档已公开)CISC?MLU?指令集不同指令集不同汇编语言不同汇编语言不同智能编程语言不同智能编程语言不同工具不兼容工具不兼容深度学习框架厂商仅支持一家深度学习框架厂商仅支持一家A AI I芯片就要投入巨大工程量，芯片就要投入巨大工程量，因此导致其最终只选择市占率最大的因此导致其最终只选择市占率最大的1-21-2家进家进行深度支持行深度支持英伟达英伟达H100 硬件计算单元硬件计算单元(左左)和华为11、昇腾和华为昇腾910910硬件计硬件计算单元算单元(右右)架构差异较大架构差异较大Da Vinci CoreBuffer L0A32-bl Cube Buffer L0CBuffer LOB1.31.3出现这么多出现这么多GPU编程平台的原因编程平台的原因?指令集、硬件架指令集、硬件架构不构不同皆留 SFU 出留皆皆留出Sru 证券研究报告资料来源：英伟达官网，HuaweiCUDA获得Pytorch、Tensorflow 原生支持每家一个每家一个GPU编编程平台程平台Vector UnitUnified BufferCUDACUDA 生态自生态自我强化我强化Research(华为12、研究),CSDN(中国开发者网络),申万宏源研究ScalarUnit AGU/Mask GenTENSoRcoRGENERATIONSMPPGPRSPR71.4 4 非非NV AI芯片厂商的竞争策略：开源开放芯片厂商的竞争策略：开源开放or 自成体系自成体系其其他他AI芯片硬件与英伟达竞争，有两种方芯片硬件与英伟达竞争，有两种方式式开放开源：尽可能方便开发者，兼容CUDA,同时其他(如指令集等)尽可能开放自成一派：从AI开发框架-GPU编程平台-底层硬件完全走自己的路线工具链完善程度工具链完善程度证券研究报告资料来源：申万宏源研究 8兼容兼容CUDAAMD海光信息Intel摩尔13、线程、沐曦等自成体系自成体系华为谷歌TPU寒武纪百度昆仑芯阿里平头哥燧原科技Nvidia玩家玩家AlAl芯片软硬件工具层次芯片软硬件工具层次功能功能海外海外1 1海外海外2 2国国内内特点特点AI开发框架直接面向AI应用开发者，将神经网络模型转为计算图，再进行图优化、算子优化(例如算子融合等)PytorchTensorflow华为Mindspore百度PaddlePaddle、清华JitterPytorch、Tensorflow双寡头，过往与 CUDA紧耦合，正逐渐解耦程平台Host(主机 CPU+内存)Library提供计算库函数(算子)CUDA寡头垄断，Runtime管理设备内14、存、调度并行任务和进行数据传输，提供运行期组件Driver直接控制底层Device GPU硬件资源，并与Host端对接Device(设备GPU)Kernel控制每个硬件计算单元CUDAROCm、OpenCL华为CANN寒武纪CUDA、C A N N与硬件紧耦合，其他解耦AI芯片硬件提供并行计算算力和存储、通信、控制等硬件资源1.51.5当前当前AI芯片软件工具栈总结芯片软件工具栈总结证券研究报告资料来源：申万宏源研究 9GP U编主要内容主要内容1.软件工具：Al 芯片的“大管家”2.训练端：后进入者竞争CUDA两类方式3.推理端：ONNX 为“中间人”,软件生态百花齐放4.相15、关公司5.风险提示SWSCUDACUDA 文件编译过程文件编译过程兼容兼容CUDA路线路线兼容兼容CUDA路线路线.cUCUDA Source CodeC+Preprocessor.cpp.ii转换器转换器 Source Codecicc.cpp.i.ptx特定编译器ptxas转换转换API.cubinfatbinary二进制机器码二进制机器码(指令集指令集)二进制机器码二进制机器码(指令集指令集).fatbin.c非Nvidia GPU非非Nvidia GPU GPUGPU 编程文件的编译分为编程文件的编译分为HostHost 主机端主机端(CPU),(CPU),和和 DevDev ice设16、备端(GPU)Host 端的编译过程和中间文件是通用的，Device端兼容两类方式，第二类已被禁止 2.12.1路线路线1:1:兼容兼容CUDA,两种两种方式方式证券研究报告资料来源：CSDN (中国开发者网络),申万宏源研究 11C+PreprocessorHIPify tool完成转换的两种方式完成转换的两种方式1)Hipify Clang based ClangCUDA Source code抽象语法树HIP Source Code基于Clang(C/C+编译器),无缝支持新版本CUDA,因为Clang 前端静态链接到CUDA源，NVIDIA 也把 N17、VCC其中一部分逻辑贡献给了Clang2)Hipify Perl基于Perl 的脚本类似于查找替换，将APl名称中的 CUDA 替换为HIPAMD定义API,接口规范、名称与CUDA完全一致，功能不完全支持，不可拓展2.2 AMD ROCm:开放开放+开源，开源，HIPify tool完成兼容完成兼容最新ROCm 架构，与大多GPU编程平台类似，分为库、运行时、驱动等Frameworks JAX,ONNX-RT,PyTorch,TensorFlowSystem ManagementPerformanceROCTracer ROCProfilerDevelopmentMachine L18、earning&Computer VisionMathCommunicationPrimitives 证券研究报告资料来源：AMD 官网，申万宏源研究 12LLVM (amdclang,amdflang,OpenMP),hipCC AMD CLR,HIP,ROCrHipCC:编译HIP Source code,可以调用clang 或者NVCCHPC FocusedAI FocusedROCr Debug Agent HIPIFYCompilersRuntimesLibrariesTools应用程序应用程序Tools用户态驱动用户态驱动RocTracerRocProfiler通过通过R19、OCm兼容兼容CUDA,但是由于但是由于CUDA闭源闭源特性及更新速度快，通过指令翻译等特性及更新速度快，通过指令翻译等方式完美兼容有一定困难，可能存在性能损失式完美兼容有一定困难，可能存在性能损失DPUDPU 拥有拥有HIPHIP软件栈，软件栈，支持支持HIP异异构计算构计算封装封装ROCm 相关组件相关组件ROC Kernel Driver(ROCk)OS海光海光DCUApplicationProgramHIP LibrariesROC Thunk Interface 证券研究报告资料来源：AMD 官网，申万宏源研究 13内核态驱动内核态驱动硬件硬件2.32.3海光海光DTK,共享共享20、ROCm生态生态GPUHIPMathLibrariesHIP并行编程模型并行编程模型HIP Runtime基于基于AMD 硬件架构硬件架构 redesignMIGrapghXRCCLMIOpenMIVisionXCUDACUDA LibraryLibraryHIPHIP LibraLibraryryTERMTERMCUDACUDAHIPHIPDeviceint devicedint devicedCuBLAShipBLASQueuecudaStream_thipStream_tcuBLASLthipBLASLtEventcudaEvent_thipEvent_tMemoryvoid*void*21、cuFFThipFFTGrid of ThreadsgridgridcuSPARSEhipSPARSESubgroup of ThreadsblockblockcuSOLVERhipSOLVERThreadthreadthread2.4 4开发者学习开发者学习/迁移成本迁移成本显著降低，但显著降低，但“难画骨难画骨”1.5 Inference Training1.01,MI210 表现好；1,A100 表现好证券研究报告申万宏源研究兼兼容容CUDA 解决了开发者习惯的问题，无学习成本，编程语法和逻解决了开发者习惯的问题，无学习成本，编程语法和逻辑一致资料来源：StreamHPC(高性能计算22、流),TorchBench:Benchmarking PyTorch with High APISurface Coverage(TorchBench:对具有高API覆盖率的 PyTorch 进行基准测试,AMD官网，多数模型在英伟达多数模型在英伟达A100 上训推效果上训推效果仍然好于仍然好于M1210条形：每个模型的训推运行时间T_Nvdia/T_AMD然谓容的可与EdeeprecommenderLeamingTopain用量的hf BigBirdspeechtmobilenet v3 largech mam l omniglotph lippe-densenetd2_fasterrcn23、n_r_101_c4resnext50_32x4dtimm effcientnetv is ion maskrcnnsqueezenet1_1hf pig1 larged2_fasterrcnn_r_50_dc5mam l omniglottimm vision tlennard jonesfastNLP Bethf Bert largetimm resnestalexnettimm_vovnethf Reformermnasnet1_0d2_maskrcnrtimm-regnetshuflenet_v2_x1_0timm nfnettt s angulard2_maskrcnn_r_50_f24、pn_maskrcnn_r_50_04Comparison0.50.0d2_maskrcnn_r_101_fpnd2_fasterrcnn_r_50_04Super_SloMoresnet152hf ptgld2_fasterrcnn_r_50_fpnyolov3aiaynpuebopsoft_actor_criticresnet18resnet50widiatimm_efficientdetv9916hf_DistiBertpacpBEFmocohf_Albertp ytorch_unethf_Lfunctorp hlipp i g 1 ZLUDA 是一个由是一个由AMD 和和Intel 支25、持的开源项目，能够支持的开源项目，能够帮助帮助CUDA 代码原装运行在非 Nvidia GPU上上运行机制：将实时编译生成的PTX机器码转换为其他二进制机器码目前英伟达仅在用户许可中增加限制条例，没有明确限制目前英伟达仅在用户许可中增加限制条例，没有明确限制措施措施CUDA 11.6中加入条款“You may not reverse engineer decompile or disassemble any portion of the output generated using SDK elements for the purpose of translating such output26、 artifacts to targeta non-NVIDIA platform.”英伟达是否能够封禁英伟达是否能够封禁?有可能性，将编译器编译生成的中间文件进行加密，防止第三方捕获即可目前仍使用目前仍使用ZLUDA者，面临者，面临的主要是法律风险的主要是法律风险5.5.1,Radeon R6800 T,individual benchmarks normalized to OpenCL(higher is better)Overall ZLUDA performance:101%175.34%OpenCL zLUDA145.55%127.51%100%50%Msatrhing Deptho27、t Detection FMe ttcuhri g Paricle 新智元ne 证券研究报告资料来源：新智元，英伟达官网，申万宏源研究资料来源：新智元，英伟达官网，申万宏源研究 152.5 ZLUDA:正在被禁正在被禁止止GeekBench0%CaffeCaffe Parser统一中间图IR GraphGraph Optmizer图拆分图优化图编译单算子编译离线模型(.om)执行单算子验证一致功能一致，参数名不同存在差异功能一致，参数数据类型不一致功能一致，参数个数或顺序不一致功能一致，默认值不同功能一致，参数名不一致功能一致，参数默认值不一致Pytorch:Pytorch:覆覆28、盖盖95%95%的的APIAPI 自有自有Mindspore框架框架框架适配器：其他框架的转换框架适配器：其他框架的转换证券研究报告资料来源：华为官网，申万宏源研究 16Mindspore 中已有算子中已有算子973973个，其个，其中中173173个实现了完全对齐个实现了完全对齐华为昇腾打造了从华为昇腾打造了从AIAI开发框架开发框架-GPUGPU 编程平编程平台台-底层硬件全自栈生态底层硬件全自栈生态2.62.6华为：破釜沉舟，坚定自有华为：破釜沉舟，坚定自有Caffe/Paddle Paddle等等AdapterTensorflow华为华为Mindspore华为框架适配器运行华为29、框架适配器运行逻辑逻辑FrameworkAI开发框架开发框架Pytorch基于Ascend IR定义的单算子描述文件ATC 工工具具MindSporeONNX Parser执行推理TensorFlow图准备TF ParserONNX-CANN 异构计算异构计算-GE Ascend C AOL HCCL图引擎图引擎算子编程语言算子编程语言算子加速库算子加速库集合通信库集合通信库毕昇编译器毕昇编译器运行时运行时驱动驱动CANNCANN算子算子Atlas A系列Atlas A2系列2238 23462346TensorflowTensorflow算子算子249ONON NXNX算子算子1530、9CaffeCaffe算子算子79支持算子个数算子总数2346 2000+160网 ModelArtsA HiAI Service 第三第三方平台方平台&服务服务MindX昇腾应用使能MindX SDK领域套件回 MindX DL MindX Edge 晶 MindSpeed 心 MindIEAI生态社区使能平台毕昇编译器毕昇编译器昇腾算子代码编译成二进制可执行文件和动态库Runtime资源抽象与管理、媒体预处理、深度学习推理无论是无论是AI开发框架高层算子，还是开发框架高层算子，还是CANN 底底层算子，华为人才、生态优势明显，进层算子，华为人才、生态优势明显，进展较快证券研究报告 31、资料来源：华为官网，申万宏源研究 17AI应用开发层面，华为提供了便捷工具，如应用开发层面，华为提供了便捷工具，如MindX、ModelZoo 等等2.62.6华为：算子适配进展迅速华为：算子适配进展迅速PytorchPytorch APIAPI1055TensorfloTensorflow w APlAPl503BANGBANGCNNL(深度学CNNL_Extra融自开发算子 81寒武纪习库)327合算子41整体20452000+/AI加速库通信库CNCLCNCL视觉库BANG语言MagicMindMagicMind CNNCNNL LCNCVBANG BANGBANG PyPyCNTool32、kit(编译/运行/调试/性能剖析)&Driver(性能监控/虚拟化/跨平台)寒武纪拥有完整的软有完整的软件堆栈，件堆栈，SDK 中包含各类库，以及自有智能编程语言中包含各类库，以及自有智能编程语言BANGAl 开发框架，公司自行维护Pytorch、Tensorflow后端，与Pytorch的适配进展较好 BANG 语言底层算子，公司目前拥有327+41+81个，处于国产算力第一梯队(略少于华为)2.72.7寒武纪：寒武纪：AI框架适配框架适配+开发者共建算子生态开发者共建算子生态证券研究报告资料来源：寒武纪开发者官网，申万宏源研究 18Al/Al/分布式框架分布式框架作 TensorFl33、ow OPyTorch Cafferp 户飞桨CambriconCambricon SDKSDKC/C+OthersOpenCL(Open Computing Language)是一个为异构平台(CPU/GPU/DSP/FPGA 等)编程设计的开源框架 OpenCL由一门编写 kernel的语言(基于C99)和一组用于定义和控制平台的API 组成OpenCLOpenCL 的问题在于的问题在于“性能税性能税”、“优化妥协优化妥协”和和“用户不友好用户不友好”OpenCL 仅能实现所有受支持的设备中公开功能的“最小公分母”在NVIDIA GPU上运行时，OpenCL实现的运行速度通常比CUDA 等34、效产品低20-60%目目前前OpenCL已经已经成为一种标准，被多类硬件集成在自身成为一种标准，被多类硬件集成在自身SDK中中，如 CUDA SDK、AMD HIPC/C+Programming myapplication.c/can also be a C+filehotspot 1For (int i=0;iN,i+)hotspot 2For (int i-0;iN,i+)mCPU2.82.8其他：其他：OpenCL 等，可移植性与最佳等，可移植性与最佳性能间的跷跷板性能间的跷跷板证券研究报告资料来源：OpenCL官网，腾讯云，申万宏源研究 19CPU AcceleratorOpen35、CL Programmingdevice_code.cl/OpenCLC-a C99 dialectmyapplication.c/can also be aC+file_kernel vold k10ents from hot_kernel void k20entsfromclEnqueNDRangeKernel(-);clEnqueNDRangeKernel();AMDAMD ROCmROCm较完善Pytorch、Tensorflow原生适配基本对齐CUDA?华为昇腾华为昇腾较完善Pytorch已原生适配，其余对齐较快较高150万海光信息海光信息DTKDTK完善同 A M D同 A M D36、?寒武纪寒武纪完善Pytorch API覆盖度高合计近500个?谷歌谷歌垂直耦合Tensorflow深度适配?1)1)软件工具链完备程度：是否各层需要用到的软件工具链完备程度：是否各层需要用到的工具都具备；工具都具备；2)2)与各类与各类AIAI开发框架的支持、适配程度开发框架的支持、适配程度：越多越好，能够覆盖包含主流：越多越好，能够覆盖包含主流、小众开发者的各类需求；者的各类需求；3)3)算子丰富程度，算子丰富程度，且可以通过算子深度融合且可以通过算子深度融合(合并几个基础合并几个基础算子形成新算子)等方式，进一步提升进一步提升LibraryLibrary好用程度；好用程度；4)Runt37、ime:4)Runtime:是否能最高效地分配和释放内存、使用核函数是否能最高效地分配和释放内存、使用核函数、布局线程等；、布局线程等；5)5)完善的技术文档完善的技术文档和活跃的社区，以及庞大的用户群体和活跃的社区，以及庞大的用户群体。厂商厂商是否开源是否开源软件工软件工具完备程度具完备程度AlAl框架适配情况框架适配情况L Libraryibrary库函数丰富度自定义算子库函数丰富度自定义算子用户数用户数量量英伟达英伟达CUDACUDA 最完善强最高 200万+证券研究报告资料来源：英伟达官网，每日经济新闻，各公司官网，申万宏源研究 202.92.9评价生态的五大指评价生态的五38、大指标标主要内容主要内容1.软件工具：Al 芯片的“大管家”2.训练端：后进入者竞争CUDA两类方式3.推理端：ONNX 为“中间人”,软件生态百花齐放4.相关公司5.风险提示SWSTensorflow、PyTorch、MindSpore、MXNet需要将它们转换到统一的数据结构上，即ONNX前端解析前端解析模型优化模型优化推理引擎组织推理引擎组织前处理前处理模型推理模型推理后处理后处理ONNXONNX 正逐渐成为正逐渐成为AlAl模型标准格式。模型标准格式。ONNXONNX (开开发神经网络交换协议，发神经网络交换协议，O O penNeuralNeural NetworkNetwork 39、Exchange)Exchange)是机器学习和深度学习模是机器学习和深度学习模型的开放格式型的开放格式结构。ONNXONNX oror自定义模自定义模型上层优化上层优化/图优化图优化底层优化底层优化Pytorchtf其他其他量量化化算子融合算子融合算算子子替替换换其其他他编编译优化译优化向量向量化化循循环拆分环拆分其他其他数据加载数据加载resize归二归二其他其他异步异步/同步同步序列化序列化/反反序序列化列化 nmsyolo其他其他证券研究报告资料来源：极智视界，申万宏源研究 223.13.1从训到推：工具丰富，生态优从训到推：工具丰富，生态优于训练于训练各自定义了自己的模型的数据40、结构，推理系统推理框架推理框架主导者主导者底层底层优势优势劣势劣势使用场景使用场景OpenVINOIntel /支持多种推理引擎和底层硬件不支持ONNX中的所以CPU为有算子主自TensorRT英伟达 /配套CUDA,工具完善只支持英伟达GPU广泛的Al 场景华为昇腾华为参考 TVM底层优化开放开发难度略高HPC Al模型寒武纪寒武纪 /自定义算子方便，不同形态硬件间框架通用性强丰富度不足NCNN腾讯开源端侧模型部署和推理，尤其手机端性能好，适配所有OS云端性能移动端通用TVM华盛顿大学的SAMPL 组开源/效率高，跨硬件平台性能好学习成本高ONNXRuntimeMeta、41、微软开源 /跨平台、易用性高有精度损失问题ONNXONNX 是模型转换的中间人，因此推理框架差异主要来自于开发难度和优化性能是模型转换的中间人，因此推理框架差异主要来自于开发难度和优化性能将模型保存为ONNX格式后，可使用任何一种推理框架进行优化。证券研究报告资料来源：极智视界，各产品官网，申万宏源研究 233.23.2推理端软件：各有千秋，推理端软件：各有千秋，不断进化不断进化模式用主要内容主要内容1.软件工具：Al 芯片的“大管家”2.训练端：后进入者竞争CUDA两类方式3.推理端：ONNX 为“中间人”,软件生态百花齐放4.相关公司5.风险提示SWS 华为昇腾链华为昇腾链服务器合42、作伙伴：神州数码、软通动力、高新发展零部件供应商：泰嘉股份算力运营/调优合作伙伴：软通动力、中国软件国际(H)、科大讯飞其他国产算力其他国产算力海光信息海光信息寒武纪-U AIAI 应用应用办公类应用：金山办公、福昕软件其他Al:万兴科技、虹软科技、云从科技-UW、新致软件等算力调优算力调优首都在线、恒为科技证券研究报告 254.4.相关公司相关公司股票代码股票代码股票简称股票简称2024/9/182024/9/18归母净利润归母净利润(亿元亿元)PEPE总市值(亿元)2023A 2024E 2025E 2026E 2023A 2024E 2025E 2026E688041.43、SH海光信息 1,737 12.6 17.4 24.1 32.0 138 100 72 54688111.SH金山办公 850 13.2 15.6 19.7 24.9 65 54 43 34688088.SH虹软科技 94 0.9 1.4 1.9 2.6 107 67 49 37002230.SZ科大讯飞 782 6.6 6.6 10.0 13.6 119 119 78 58301236.SZ软通动力 320 5.3 7.0 9.0 11.2 60 46 36 29000034.SZ神州数码 158 11.7 14.1 17.0 20.2 14 11 9 8 证券研究报告资料来源：Wind,44、申万宏源研究；注：盈利预测来自Wind致预期 264.4.重点公司估值表重点公司估值表主要内容主要内容1.软件工具：Al 芯片的“大管家”2.训练端：后进入者竞争CUDA两类方式3.推理端：ONNX 为“中间人”,软件生态百花齐放4.相关公司5.风险提示SWS AI 芯片产品迭代进展不及预期。芯片产品迭代进展不及预期。由于AI芯片设计-流片-修改-迭代持续时间周期较长，且任一环节都可能出现问题，因此各AI 芯片厂商新一代产品可能无法如期推出，影响自身产品的放量。国产厂商软件工具用户习惯国产厂商软件工具用户习惯培育周期长。培育周期长。由于AI芯片开发工具之AI开发框架、GPU 编程平台对专业知45、识要求较高，学习成本高，可能出现用户对英伟达CUDA 较为依赖，不愿学习新语言、软件工具的可能性，从而导致培育周期长的问题出现。AI 应用长时间无爆款，影响应用长时间无爆款，影响Al 算力需求。算力需求。AI应用的突破需要基座模型能力的提升、产品设计和体验的提升，而无论是模型能力还是产品设计，迭代升级存在不确定性，同时，由于AI应用开发者需要考虑“投入-产出”比，即 ROI,若长时间无爆款应用出现，厂商对于Al算力的采购可能放缓。证券研究报告 285.5.风险提示风险提示本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师，以勤勉的职业态度、专业审慎的研究方法，46、使用合法合规的信息，独立、客观地出具本报告，并对本报告的内容和观点负责。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与与公公司司有有关关的的信信息息披披露露本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准，取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的，还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机机构构销销售售团团队47、队联联系系人人我们在此提醒经，不同证券研究机构采用不同的评级术语及评级标准，我们采用的是相对评级体系，表示投资的相对此重建议；投资者采入或者卖出证卷的决定取决于个人的实际情况比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告，以获取比较完整的观点与信息，不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系，如果您对我们的行业分类有兴趣，可以向我们的销售员索取。29华东A 组华东B 组华北组华南组华北创新团队华东创新团队A A 股股投投资资评评级级说说明明证券的投资评级： :股价预计将上涨20%以上；:股价预计将上涨10-48、20%;:股价变动幅度预计在-10%和+10%之间；:股价预计将下跌10-20%;:股价预计将下跌20%以上。:相对强于市场表现20%以上；:相对强于市场表现5%20%;:相对市场表现在-5%+5%之间波动；:相对弱于市场表现5%以下。看好(Overweight)中性(Neutral)看淡(Underweight)本报告采用的基准指数港港股股投投资资评评级级说说明明证券的投资评级：买入(BUY):增持(Outperform)持有(Hold)减持(Underperform)卖出(SELL)行业的投资评级：:行业超越整体市场表现；:行业与整体市场表现基本持平；:行业弱于整体市场表49、现。:恒生中国企业指数(HSCEI):行业超越整体市场表现；:行业与整体市场表现基本持平；:行业弱于整体市场表现。:沪深300指数买入(Buy)增持(Outperform)中性(Neutral)减持(Underperform)行业的投资评级：021-333884881801796320615724767486159141291691520191012318702179817看好(Overweight)中性(Neutral)看淡(Underweight)本报告采用的基准指数以报告日后的6个月内，证券相对于市场基准指数的涨跌幅为标准，定义如下：以报告日后的6个月内，行业相对于市场基准指数的涨50、跌幅为标准，定义如下：以报告日后的6个月内，证券相对于市场基准指数的涨跌幅为标准，定义如下：以报告日后的6个月内，行业相对于市场基准指数的涨跌幅为标准，定义如下：信息披露证券分析师承诺霞霞昇昇烨烨明明晓艺茅茅李李肖肖李李潘潘朱炯炯庆庆法律声明法律声明本报告由上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司，以下简称“本公司”)在中华人民共和国内地(香港、澳门、台湾除外)发布，仅供本公司的客户(包括合格的境外机构投资者等合法合规的客户)使用。本公司不会因接收人收到本报告而视其为客户。有关本报告的短信提示、电话推荐等只是研究观点的简要沟通，需以本公司网站刊51、载的完整报告为准，本公司并接受客户的后续问询。本报告首页列示的联系人，除非另有说明，仅作为本公司就本报告与客户的联络人，承担联络工作，不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写，但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性52、的利益冲突，不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示，本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失，任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况，以及(若有必要)咨询独立投资顾问。在任何情况下，本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下，本公司不对任何人因使用本报告中53、的任何内容所引致的任何损失负任何责任。市场有风险，投资需谨慎。若本报告的接收人非本公司的客户，应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有，属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记，未获本公司同意，任何人均无权在任何情况下使用他们。30简单金融简单金融成就梦想成就梦想A Virtue of Simple Finance上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司)31申万宏源研究微信订阅号申万宏源研究微信订阅号申万宏源研究微信服务号申万宏源研究微信服务号

计算机行业华为系列深度之十五：AI算力软件生态难以突破吗？-240919（31页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

计算机行业华为系列深度之十五：AI算力软件生态难以突破吗？-240919（31页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

相关推荐