掃一掃
下載數(shù)字化報(bào)APP
2024年10月15日至17日,開(kāi)放計(jì)算全球峰會(huì)(OCP Global Summit)在美國(guó)加州圣何塞(San Jose)舉行。峰會(huì)以“從創(chuàng)新到影響力(From Ideas to Impact)”為主題,聚焦AI基礎(chǔ)設(shè)施建設(shè),吸引了全球7000余名專(zhuān)業(yè)人士參與。在此盛會(huì)上,阿里云磐久AI Infra 2.0服務(wù)器攜手UALink聯(lián)盟,展示了AI互連技術(shù)的最新進(jìn)展。
阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志與UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表演講《UALink: Pioneering the AI Accelerator Revolution》,深入討論了AI服務(wù)器Scale UP互連技術(shù)、UALink標(biāo)準(zhǔn)的發(fā)展藍(lán)圖,以及UALink聯(lián)盟與ALink System產(chǎn)業(yè)生態(tài)的合作前景。此次合作標(biāo)志著AI服務(wù)器互連技術(shù)的新紀(jì)元。
UALink協(xié)議由行業(yè)領(lǐng)先的AI芯片、服務(wù)器和CSP廠商聯(lián)合發(fā)起,旨在改變AI服務(wù)器Scale UP互連技術(shù)生態(tài)。與UEC協(xié)議不同,UALink支持高性能內(nèi)存語(yǔ)義訪問(wèn)、顯存共享,并具備超高帶寬和超低時(shí)延等優(yōu)勢(shì),構(gòu)建起一個(gè)開(kāi)放的AI服務(wù)器Scale UP互連技術(shù)生態(tài)。UALink聯(lián)盟計(jì)劃于10月底正式成立,并在年底發(fā)布第一版UALink spec。
面對(duì)中國(guó)市場(chǎng)的挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運(yùn)而生,提供具備性能競(jìng)爭(zhēng)力和統(tǒng)一標(biāo)準(zhǔn)的互連系統(tǒng)。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面,為AI訓(xùn)練和推理場(chǎng)景提供支持。ALS-D支持UALink國(guó)際標(biāo)準(zhǔn),形成性能競(jìng)爭(zhēng)力的數(shù)據(jù)面方案,具備并行切分算法、大顯存共享等特點(diǎn)。ALS-M則為不同芯片方案提供標(biāo)準(zhǔn)化接入方案,支持開(kāi)放生態(tài)和廠商專(zhuān)有互連協(xié)議的統(tǒng)一軟件接口。
遵循ALink System規(guī)范,阿里云自主設(shè)計(jì)了磐久AI Infra 2.0服務(wù)器,體現(xiàn)了開(kāi)放生態(tài)、高能效、高性能和高可用的設(shè)計(jì)理念。該服務(wù)器定義了AI計(jì)算節(jié)點(diǎn)和Scale Up/Scale Out互連系統(tǒng),支持業(yè)界主流AI方案,推動(dòng)AI領(lǐng)域的“一云多芯”發(fā)展。
ALink System全面兼容UALink生態(tài),與行業(yè)伙伴共建超高性能、超大規(guī)模的Scale UP集群互連能力。一級(jí)互連支持64-80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)2000個(gè)以上節(jié)點(diǎn),提供PB級(jí)共享顯存和TB級(jí)互連帶寬。
磐久AI Infra 2.0服務(wù)器集成了阿里自研CIPU 3.0芯片,支持高帶寬大規(guī)模AI服務(wù)器實(shí)現(xiàn)Scale Out網(wǎng)絡(luò)擴(kuò)展,同時(shí)滿(mǎn)足云網(wǎng)絡(luò)彈性、安全的要求。在硬件工程方面,服務(wù)器單機(jī)柜支持最大80個(gè)AI計(jì)算節(jié)點(diǎn),采用400V PSU,單體供電效率可達(dá)98%,整體供電效率提高2%。散熱設(shè)計(jì)上,機(jī)柜級(jí)液冷方案根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力,降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。運(yùn)維管理上,全新的CableCartridge后維護(hù)設(shè)計(jì),支持全盲插,零理線易運(yùn)維、零誤操作,維護(hù)效率提升50%。
在可靠性方面,磐久AI Infra 2.0服務(wù)器支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù),實(shí)時(shí)監(jiān)控、探測(cè)各種硬件故障并自愈,硬件的故障域縮減到節(jié)點(diǎn)級(jí)。
阿里云秉持開(kāi)放合作策略,在ALink System產(chǎn)業(yè)生態(tài)建設(shè)上推動(dòng)互連技術(shù)領(lǐng)域的發(fā)展和繁榮。自ALink System產(chǎn)業(yè)生態(tài)發(fā)布以來(lái),已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠商加入,成員單位就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)行路徑選擇展開(kāi)交流。
阿里云不僅是UALink的積極支持者和ALink System產(chǎn)業(yè)生態(tài)的牽頭者,還是OCP、CXL、UCIe和UEC等多個(gè)互連技術(shù)行業(yè)組織的創(chuàng)始成員或技術(shù)委員會(huì)成員,通過(guò)實(shí)際行動(dòng)支持開(kāi)放互連技術(shù)標(biāo)準(zhǔn)的制定和落地。
在本屆OCP峰會(huì)上,阿里云磐久AI Infra 2.0服務(wù)器的展示,不僅證明了其在AI基礎(chǔ)設(shè)施領(lǐng)域的技術(shù)實(shí)力和創(chuàng)新能力,也體現(xiàn)了阿里云在推動(dòng)開(kāi)放計(jì)算和AI技術(shù)發(fā)展中的領(lǐng)導(dǎo)地位。隨著技術(shù)的不斷進(jìn)步和合作的深入,我們有理由相信,阿里云將繼續(xù)引領(lǐng)AI技術(shù)的未來(lái)發(fā)展,為全球客戶(hù)提供更加強(qiáng)大、靈活和高效的AI基礎(chǔ)設(shè)施解決方案。
未經(jīng)數(shù)字化報(bào)網(wǎng)授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
特別提醒:如內(nèi)容、圖片、視頻出現(xiàn)侵權(quán)問(wèn)題,請(qǐng)發(fā)送郵箱:tousu_ts@sina.com。
風(fēng)險(xiǎn)提示:數(shù)字化報(bào)網(wǎng)呈現(xiàn)的所有信息僅作為學(xué)習(xí)分享,不構(gòu)成投資建議,一切投資操作信息不能作為投資依據(jù)。本網(wǎng)站所報(bào)道的文章資料、圖片、數(shù)據(jù)等信息來(lái)源于互聯(lián)網(wǎng),僅供參考使用,相關(guān)侵權(quán)責(zé)任由信息來(lái)源第三方承擔(dān)。
數(shù)字化報(bào)(數(shù)字化商業(yè)報(bào)告)是國(guó)內(nèi)數(shù)字經(jīng)濟(jì)創(chuàng)新門(mén)戶(hù)網(wǎng)站,以數(shù)字技術(shù)創(chuàng)新發(fā)展為中心,融合數(shù)字經(jīng)濟(jì)和實(shí)體經(jīng)濟(jì)發(fā)展,聚焦制造業(yè)、服務(wù)業(yè)、農(nóng)業(yè)等產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,致力為讀者提供最新、最權(quán)威、最全面的科技和數(shù)字領(lǐng)域資訊。數(shù)字化報(bào)并非新聞媒體,不提供新聞信息服務(wù),提供商業(yè)信息服務(wù);
商務(wù)合作:Hezuo@szhww.com
稿件投訴:help@szhww.com
Copyright ? 2013-2023 數(shù)字化報(bào)(數(shù)字化報(bào)商業(yè)報(bào)告)
數(shù)字化報(bào)并非新聞媒體,不提供新聞信息服務(wù),提供商業(yè)信息服務(wù)
浙ICP備2023000407號(hào)數(shù)字化報(bào)網(wǎng)(杭州)信息科技有限公司 版權(quán)所有浙公網(wǎng)安備 33012702000464號(hào)