隨著AI技術(shù)與產(chǎn)業(yè)加速迭代,異構(gòu)加速設(shè)備與大模型層出不窮,為企業(yè)智能化轉(zhuǎn)型注入動(dòng)能的同時(shí),也給AI基礎(chǔ)設(shè)施帶來(lái)兩大核心挑戰(zhàn):
* 算力適配滯后:全球產(chǎn)業(yè)鏈重構(gòu)背景下,GPU廠(chǎng)商、架構(gòu)、型號(hào)持續(xù)迭代,數(shù)據(jù)中心多元異構(gòu)成為常態(tài),AI基礎(chǔ)設(shè)施難以快速跟進(jìn)最新算力迭代,適配周期長(zhǎng);
* 生態(tài)兼容不足:新型GPU上市后,芯片廠(chǎng)商會(huì)定制適配推理引擎以支持主流大模型快速部署,而傳統(tǒng)AI基礎(chǔ)設(shè)施難以同步匹配最新生態(tài),導(dǎo)致算力無(wú)法快速轉(zhuǎn)化為生產(chǎn)力。
針對(duì)上述問(wèn)題,浪潮云海InCloud AIOS秉承“分層解耦、開(kāi)放兼容”核心理念,創(chuàng)新推出異構(gòu)加速設(shè)備動(dòng)態(tài)擴(kuò)展方法,設(shè)計(jì)了面向異構(gòu)算力的推理引擎快速適配框架,實(shí)現(xiàn)新架構(gòu)、新型號(hào)加速設(shè)備的小時(shí)級(jí)兼容,通過(guò)智能調(diào)度讓已兼容模型高效運(yùn)行,打通從算力到智能生產(chǎn)力的“最后一公里”,成為AI時(shí)代企業(yè)異構(gòu)算力管理的最佳伙伴。
異構(gòu)加速設(shè)備動(dòng)態(tài)擴(kuò)展:小時(shí)級(jí)兼容新算力,打破異構(gòu)壁壘
浪潮云海InCloud AIOS基于device-plugin機(jī)制構(gòu)建異構(gòu)設(shè)備擴(kuò)展框架,向下適配各廠(chǎng)商設(shè)備管理模塊,向上銜接產(chǎn)品GPU管理功能。
深度遵循PCI設(shè)備規(guī)范,在宿主機(jī)內(nèi)核態(tài)與用戶(hù)態(tài)協(xié)同層面構(gòu)建精細(xì)化設(shè)備探測(cè)引擎:通過(guò)通用唯一PCI設(shè)備標(biāo)識(shí)符(Device ID/Vendor ID) 實(shí)現(xiàn)跨廠(chǎng)商GPU的自動(dòng)化發(fā)現(xiàn)與精準(zhǔn)識(shí)別,解決傳統(tǒng)方案中識(shí)別效率低、識(shí)別不準(zhǔn)確的問(wèn)題;以設(shè)備號(hào)為索引主鍵,關(guān)聯(lián)提取GPU 的硬件拓?fù)洹⑺懔σ?guī)格、顯存容量與帶寬、虛擬化能力等通用屬性,將其抽象為標(biāo)準(zhǔn)化的節(jié)點(diǎn)標(biāo)簽(Node Label)并上報(bào)至Kubernetes控制平面,為算力資源調(diào)度提供依據(jù)。
針對(duì)多廠(chǎng)商GPU數(shù)據(jù)格式異構(gòu)、能力描述碎片化的問(wèn)題,首創(chuàng)面向AI負(fù)載的GPU統(tǒng)一能力模型,通過(guò)抽象層設(shè)計(jì),將不同生態(tài)的GPU異構(gòu)數(shù)據(jù)(如算力單元、顯存帶寬、指令集支持)與差異化能力映射為標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu),基于該模型實(shí)現(xiàn)“統(tǒng)一節(jié)點(diǎn)能力畫(huà)像”的精細(xì)化資源表征。
在產(chǎn)品界面依托統(tǒng)一能力模型,實(shí)現(xiàn)GPU資源的全景統(tǒng)計(jì)、可視化呈現(xiàn)與智能化調(diào)度,打破傳統(tǒng)方案的割裂管理模式,大幅縮短異構(gòu)GPU兼容性適配周期,解決統(tǒng)一管理難題。

異構(gòu)加速設(shè)備動(dòng)態(tài)擴(kuò)展方法
推理引擎快速適配框架:快速適配生態(tài),高效部署模型
不同類(lèi)型模型(文本生成、多模態(tài)、嵌入式等)對(duì)推理引擎需求各異,且GPU與推理引擎版本強(qiáng)依賴(lài),給模型部署帶來(lái)挑戰(zhàn)。浪潮云海InCloud AIOS以K8s為底座,設(shè)計(jì)推理引擎快速適配框架,實(shí)現(xiàn)異構(gòu)GPU與推理引擎的高效兼容。
構(gòu)建統(tǒng)一的“模型-GPU-推理引擎”映射模型,通過(guò)配置化操作完成不同類(lèi)型模型在異構(gòu) GPU 上的推理引擎版本匹配,為模型加載決策提供清晰依據(jù)。
在K8s層面統(tǒng)一封裝工作負(fù)載接口,自研模型加載調(diào)度器作為推理引擎啟動(dòng)的統(tǒng)一入口,提供模型文件分發(fā)狀態(tài)判斷、環(huán)境變量讀取、啟動(dòng)參數(shù)配置、本地軟鏈接創(chuàng)建等功能,徹底屏蔽各類(lèi)推理引擎的參數(shù)差異,降低使用門(mén)檻。
復(fù)用已有的GPU快速適配能力,擴(kuò)展K8s調(diào)度框架,根據(jù)GPU型號(hào)將推理引擎調(diào)度到最佳的主機(jī)上加載模型,通過(guò)svc方式使用OpenAI格式接口對(duì)外提供推理服務(wù)。

推理引擎快速適配框架
零代碼改動(dòng),一小時(shí)完成千億模型適配
通過(guò)兩大核心技術(shù)創(chuàng)新,浪潮云海InCloud AIOS已實(shí)現(xiàn)多廠(chǎng)商、多架構(gòu)GPU型號(hào)適配,支持自研及vLLM、SGLang等面向不同GPU的推理引擎版本,充分驗(yàn)證了“一云多算”的實(shí)戰(zhàn)能力。
在某政府行業(yè)客戶(hù)現(xiàn)場(chǎng),浪潮云海 AIOS 在零代碼改動(dòng)的前提下,僅用一小時(shí)就完成某架構(gòu)最新型號(hào) GPU 的兼容與推理引擎適配,以分布式方式成功運(yùn)行DeepSeek最新發(fā)布的千億參數(shù)模型,提供穩(wěn)定可靠的模型服務(wù),獲得客戶(hù)高度認(rèn)可。

客戶(hù)現(xiàn)場(chǎng)新適配的GPU與產(chǎn)品能力無(wú)縫銜接
開(kāi)放兼容,讓 AI 算力游刃有余
AI正從工具加速進(jìn)化為“數(shù)字勞動(dòng)力”,異構(gòu)算力的高效管理成為企業(yè)智能化轉(zhuǎn)型的關(guān)鍵。浪潮云海InCloud AIOS通過(guò)“異構(gòu)加速設(shè)備動(dòng)態(tài)擴(kuò)展+推理引擎快速適配”的雙重創(chuàng)新,打破了算力與生態(tài)的兼容壁壘,實(shí)現(xiàn)新算力小時(shí)級(jí)接入、模型高效部署,讓企業(yè)無(wú)需為異構(gòu)兼容發(fā)愁,專(zhuān)注于AI應(yīng)用創(chuàng)新。
未來(lái),浪潮云海InCloud AIOS將持續(xù)聚焦推理性能優(yōu)化與算力資源使用率提升,不斷深化軟硬協(xié)同能力,為行業(yè)客戶(hù)提供高效穩(wěn)定的AI基礎(chǔ)設(shè)施,助力企業(yè)在異構(gòu)算力時(shí)代從容駕馭AI浪潮,實(shí)現(xiàn)智能化轉(zhuǎn)型游刃有余。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!



