# 算力服務:大模型時代的新商業模式隨着人工智能大模型的興起,算力成爲了一種新興的商業模式。雖然當前大模型"煉丹"熱潮可能會逐漸褪去,但算力服務商需要未雨綢繆,及時調整戰略方向。清華大學畢業3年的畢愷峯訓練了一個氣象大模型,使用了全球40年的天氣數據,用200張GPU卡進行了約2個月的預訓練。按照每小時7.8元/GPU的價格計算,這個垂直領域大模型的訓練成本可能超過200萬元。如果是訓練通用大模型,成本可能要翻百倍。目前中國已有超過100個10億參數規模的大模型。然而,行業普遍面臨高端GPU短缺的問題。算力成本高企,缺乏算力和資金成爲了擺在許多企業面前的難題。高端GPU的短缺在整個行業都是個難解的問題。大模型的爆發導致市場對算力的需求快速增長,但供給量的增速遠遠跟不上。雖然長遠來看算力供給一定會從賣方市場進入買方市場,但這個過程需要多長時間還是未知數。各家公司都在盤算自己手中擁有多少英偉達GPU,並以此來判斷市場份額。有知情人士表示,如果手裏有接近1萬張卡,而市場總共是10萬張卡,那份額就是10%。預計到年底可能會達到4萬張卡,如果屆時市場總量是20萬張,那就可能佔20%的市場份額。一方面是買不到GPU卡,另一方面是大模型訓練的門檻並沒有業界宣傳的那麼容易跨越。訓練一個十億參數規模或更大的通用大模型,成本可能要達到數十億甚至上百億元。有業內人士表示,如果沒有百億千億資金支持,很難在這個領域長期發展。面對這種局面,業內普遍認爲,隨着大模型市場的競爭加劇,市場也會從狂熱走向理性,企業也會根據預期的變化來控制成本、調整策略。爲了應對高端GPU短缺的問題,企業採取了多種應對措施:1. 使用更高質量的數據進行訓練,提升訓練效率。2. 提升基礎架構能力,實現千卡以上穩定運行兩周不掉卡。3. 優化算力卡資源調度,提高使用效率。4. 改善網路性能,避免訓練速度和效率受到影響。5. 從雲計算架構過渡到超算架構,以降低成本。6. 使用國產平台進行大模型的訓練和推理,替代英偉達GPU。對於大多數企業來說,自建數據中心滿足需求是很困難的,所以許多算法團隊選擇專業的算力服務商來支持。千卡級別的GPU集羣才能產生規模效應,選擇算力服務商可以降低邊際成本。算力已經在市場需求和技術迭代的過程中,發展成爲一種新的服務模式。算力服務的本質是通過新型計算技術實現異構算力的統一輸出,並與雲計算、大數據、AI等技術融合。它不僅包括算力,還包括存儲、網路等資源的統一封裝,以服務形式(如API)完成算力交付。在算力產業鏈中,上遊企業主要供應通用算力、智算算力、超算算力、存儲和網路等基礎資源。中遊企業以雲服務商、新型算力服務提供商爲主,通過算力編排、調度和交易技術實現算力生產,並通過API等方式提供算力。下遊企業則是依靠算力服務提供的計算能力進行增值服務的產業鏈角色。按量計費和包年包月計費是當前算力服務的主流模式。用戶可以選擇對應的算力服務實例或MaaS服務平台。行業也在推進算力服務的"算網一體化融合",支持跨架構、跨地域、跨服務商的調度。隨着大模型高性能計算需求的常態化,脫胎於雲服務的算力服務快速進入大衆視野,形成了獨特的產業鏈和商業模式。雖然當前高端GPU短缺導致了"搶芯"現象,但這只是暫時的。長期來看,算力成爲一種服務是確定性趨勢,算力服務商需要做好準備,在市場風向轉變時能夠及時調整策略。
算力服務崛起:大模型時代的新商機與挑戰
算力服務:大模型時代的新商業模式
隨着人工智能大模型的興起,算力成爲了一種新興的商業模式。雖然當前大模型"煉丹"熱潮可能會逐漸褪去,但算力服務商需要未雨綢繆,及時調整戰略方向。
清華大學畢業3年的畢愷峯訓練了一個氣象大模型,使用了全球40年的天氣數據,用200張GPU卡進行了約2個月的預訓練。按照每小時7.8元/GPU的價格計算,這個垂直領域大模型的訓練成本可能超過200萬元。如果是訓練通用大模型,成本可能要翻百倍。
目前中國已有超過100個10億參數規模的大模型。然而,行業普遍面臨高端GPU短缺的問題。算力成本高企,缺乏算力和資金成爲了擺在許多企業面前的難題。
高端GPU的短缺在整個行業都是個難解的問題。大模型的爆發導致市場對算力的需求快速增長,但供給量的增速遠遠跟不上。雖然長遠來看算力供給一定會從賣方市場進入買方市場,但這個過程需要多長時間還是未知數。
各家公司都在盤算自己手中擁有多少英偉達GPU,並以此來判斷市場份額。有知情人士表示,如果手裏有接近1萬張卡,而市場總共是10萬張卡,那份額就是10%。預計到年底可能會達到4萬張卡,如果屆時市場總量是20萬張,那就可能佔20%的市場份額。
一方面是買不到GPU卡,另一方面是大模型訓練的門檻並沒有業界宣傳的那麼容易跨越。訓練一個十億參數規模或更大的通用大模型,成本可能要達到數十億甚至上百億元。有業內人士表示,如果沒有百億千億資金支持,很難在這個領域長期發展。
面對這種局面,業內普遍認爲,隨着大模型市場的競爭加劇,市場也會從狂熱走向理性,企業也會根據預期的變化來控制成本、調整策略。
爲了應對高端GPU短缺的問題,企業採取了多種應對措施:
使用更高質量的數據進行訓練,提升訓練效率。
提升基礎架構能力,實現千卡以上穩定運行兩周不掉卡。
優化算力卡資源調度,提高使用效率。
改善網路性能,避免訓練速度和效率受到影響。
從雲計算架構過渡到超算架構,以降低成本。
使用國產平台進行大模型的訓練和推理,替代英偉達GPU。
對於大多數企業來說,自建數據中心滿足需求是很困難的,所以許多算法團隊選擇專業的算力服務商來支持。千卡級別的GPU集羣才能產生規模效應,選擇算力服務商可以降低邊際成本。
算力已經在市場需求和技術迭代的過程中,發展成爲一種新的服務模式。算力服務的本質是通過新型計算技術實現異構算力的統一輸出,並與雲計算、大數據、AI等技術融合。它不僅包括算力,還包括存儲、網路等資源的統一封裝,以服務形式(如API)完成算力交付。
在算力產業鏈中,上遊企業主要供應通用算力、智算算力、超算算力、存儲和網路等基礎資源。中遊企業以雲服務商、新型算力服務提供商爲主,通過算力編排、調度和交易技術實現算力生產,並通過API等方式提供算力。下遊企業則是依靠算力服務提供的計算能力進行增值服務的產業鏈角色。
按量計費和包年包月計費是當前算力服務的主流模式。用戶可以選擇對應的算力服務實例或MaaS服務平台。行業也在推進算力服務的"算網一體化融合",支持跨架構、跨地域、跨服務商的調度。
隨着大模型高性能計算需求的常態化,脫胎於雲服務的算力服務快速進入大衆視野,形成了獨特的產業鏈和商業模式。雖然當前高端GPU短缺導致了"搶芯"現象,但這只是暫時的。長期來看,算力成爲一種服務是確定性趨勢,算力服務商需要做好準備,在市場風向轉變時能夠及時調整策略。