創(chuàng )澤機器人 |
CHUANGZE ROBOT |
巨額算力投入成為技術(shù)和效益優(yōu)化的瓶頸,技術(shù)路徑破局迫在眉 睫。從效益端看,基于 Transformer 架構的模型在訓練計算量(training FLOPs)達到一定量級時(shí),模型性能才出現向上的“拐點(diǎn)”,因此在 大模型訓練任務(wù)中,算力成為必須的基礎性資源。但隨著(zhù)模型越來(lái) 越大,算力成本越來(lái)越高,成本飆升源于模型復雜度和數據量攀升 對計算資源的需求。Anthropic 首席執行官表示,三年內 AI 模型的 訓練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓 練投入一定程度減緩了技術(shù)進(jìn)步和效益提升,因此技術(shù)路徑破局尤 為關(guān)鍵。當前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實(shí)踐。
MoE 框架是對 Transformer 架構的優(yōu)化,關(guān)鍵在于路由策略及微 調。其能在不給訓練和推理階段引入過(guò)大計算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型語(yǔ)言模型(LLM)中,每個(gè) 混合專(zhuān)家(MoE)層的組成形式通常是𝑁個(gè)“專(zhuān)家網(wǎng)絡(luò )”搭配一個(gè)“門(mén) 控網(wǎng)絡(luò )”G。門(mén)控函數(也被稱(chēng)路由函數)是所有 MoE 架構的基礎 組件,作用是協(xié)調使用專(zhuān)家計算以及組合各專(zhuān)家的輸出。根據對每 個(gè)輸入的處理方法,該門(mén)控可分為三種類(lèi)型:稀疏式、密集式和 soft 式。其中稀疏式門(mén)控機制是激活部分專(zhuān)家,而密集式是激活所有專(zhuān) 家,soft 式則包括完全可微方法,包括輸入 token 融合和專(zhuān)家融合。
MoE 在 NLP、CV、語(yǔ)音識別以及機器人等領(lǐng)域表現出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果顯著(zhù)。
OpenAI o1 基于“思維鏈”的創(chuàng )新推理模式,學(xué)會(huì )人類(lèi)“慢思考”, 專(zhuān)業(yè)領(lǐng)域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于擁有人類(lèi)“慢思考”的特質(zhì):系統性、邏輯性、批判性、 意識性。在響應用戶(hù)提出的難題之前,OpenAI o1 會(huì )產(chǎn)生一個(gè)縝密 的內部思維鏈,進(jìn)行長(cháng)時(shí)間的思考,完善思考過(guò)程、意識邏輯錯誤、 優(yōu)化使用策略、推理正確答案。這種深度思考能力在處理數學(xué)、編 程、代碼、優(yōu)化等高難度問(wèn)題時(shí)發(fā)揮重要作用,能夠進(jìn)行博士級別 的科學(xué)問(wèn)答,成為真正的通用推理。推理側的應用模式創(chuàng )新有望在 更為專(zhuān)業(yè)的領(lǐng)域創(chuàng )造價(jià)值應用,從通用的偏娛樂(lè )領(lǐng)域逐步過(guò)渡到偏 嚴肅的專(zhuān)業(yè)領(lǐng)域場(chǎng)景,AI 大模型的真正實(shí)踐價(jià)值有望進(jìn)一步釋放, 因此 o1 模型提供的新應用范式和能力維度在大模型技術(shù)路線(xiàn)演繹 中,具有里程碑意義。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 智能配送機器人 導覽機器人 |