NVIDIA 今天宣布推出NVIDIA Cosmos ™,該平台由最先進的生成世界基礎模型、高級分詞器、護欄和加速視頻處理管道組成,旨在推動自動駕駛汽車 (AV)等物理 AI系統的開發和機器人。
實體人工智慧模型的開發成本高昂,並且需要大量的現實世界數據和測試。 Cosmos 世界基礎模型 (WFM) 為開發人員提供了一種簡單的方法來產生大量真實的、基於物理的合成數據,以訓練和評估他們現有的模型。開發人員還可以透過微調 Cosmos WFM 來建立自訂模型。
Cosmos 模型將在開放模型許可下提供,以加速機器人和 AV 社群的工作。開發人員可以預覽NVIDIA API 目錄中的首批模型,或從NVIDIA NGC™ 目錄或Hugging Face下載模型系列和微調框架。
領先的機器人和汽車公司,包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和XPENG,以及乘車巨頭Uber 均位居第一。
「機器人技術的 ChatGPT 時刻即將到來。與大型語言模型一樣,世界基礎模型是推進機器人和 AV 開發的基礎,但並非所有開發人員都擁有訓練自己模型的專業知識和資源。 “我們創建 Cosmos 是為了實現物理人工智慧的民主化,並使通用機器人技術觸手可及。”
開放世界基礎模型加速下一波 AI 浪潮
NVIDIA Cosmos 的開放模型套件意味著開發人員可以根據目標應用的需求,使用資料集(例如 AV 行程的影片記錄或機器人在倉庫中導航)自訂WFM。
Cosmos WFM 專為物理人工智慧研究和開發而設計,可以根據文字、圖像和視訊等輸入以及機器人感測器或運動數據的組合生成基於物理的影片。這些模型是為基於物理的互動、物件持久性以及模擬工業環境(如倉庫或工廠)和駕駛環境(包括各種道路條件)的高品質生成而建造的。
在CES 的開幕主題演講中,NVIDIA 創辦人兼執行長黃仁勳展示了實體 AI 開發人員使用 Cosmos 模型的方式,包括:
- 視訊搜尋和理解,使開發者能夠輕鬆地從視訊資料中找到特定的訓練場景,例如雪路狀況或倉庫擁擠情況。
- 基於物理的逼真合成資料生成,使用 Cosmos 模型從NVIDIA Omniverse ™ 平台開發的受控 3D 場景生成逼真影片。
- 實體 AI 模型開發和評估,無論是在基礎模型上建立自訂模型、使用 Cosmos 進行強化學習改進模型,或是測試它們在給定特定模擬場景下的表現。
- 遠見 和「多元宇宙」模擬,使用 Cosmos 和 Omniverse 產生人工智慧模型可能採取的所有可能的未來結果,以幫助其選擇最佳和最準確的路徑。
先進的世界模型開發工具
建立實體人工智慧模型需要 PB 級的視訊資料和數萬個運算小時來處理、管理和標記這些資料。為了幫助節省資料管理、培訓和模型自訂方面的巨大成本,Cosmos 具有以下功能:
- 由NVIDIA NeMo™ Curator提供支援的NVIDIA AI 和 CUDA® 加速資料處理管道,使開發人員能夠使用 NVIDIA Blackwell 平台在 14 天內處理、策劃和標記 2000 萬小時的視頻,而無需使用 CPU 花費三年多的時間-僅管道。
- NVIDIA Cosmos Tokenizer,一種最先進的視覺標記器,用於將圖像和視訊轉換為標記。與當今領先的分詞器相比,它的總壓縮率提高了 8 倍,處理速度提高了 12 倍。
- NVIDIA NeMo框架可實現高效的模型訓練、客製化和最佳化。
世界上最大的物理人工智慧產業採用 Cosmos
物理人工智慧產業的先驅者已經在採用 Cosmos 技術。
人工智慧和人形機器人公司 1X使用 Cosmos Tokenizer推出了1X 世界模型挑戰賽資料集。小鵬汽車將利用 Cosmos 加速其人形機器人的開發。 Hillbot 和 Skild AI 正在使用 Cosmos 來快速追蹤其通用機器人的開發。
Agility 首席技術長 Pras Velagapudi 表示:“數據稀缺性和可變性是機器人環境中成功學習的關鍵挑戰。” “Cosmos 的文本、圖像和視頻世界功能使我們能夠為各種任務生成和增強逼真的場景,我們可以使用這些場景來訓練模型,而無需昂貴的真實世界數據捕獲。”
交通運輸領導者也使用 Cosmos 為自動駕駛汽車建立實體人工智慧:
- Waabi 是一家從自動駕駛汽車開始為物理世界開創生成式人工智慧的公司,它正在評估 Cosmos,用於自動駕駛軟體開發和模擬的資料管理。
- Wayve 正在開發用於自動駕駛的人工智慧基礎模型,正在評估 Cosmos 作為搜尋用於安全和驗證的邊緣和極端情況駕駛場景的工具。
- AV 工具鏈提供者 Foretellix 將使用 Cosmos 以及NVIDIA Omniverse Sensor RTX API來大規模評估和產生高保真測試場景和訓練資料。
- 全球共乘巨頭 Uber 正與 NVIDIA 合作,加速自動駕駛。 Uber 豐富的駕駛資料集,結合 Cosmos 平台和NVIDIA DGX Cloud ™ 的功能,可以幫助自動駕駛合作夥伴更有效率地建立更強大的 AI 模型。
Uber 執行長 Dara Khosrowshahi 表示:“生成式人工智慧將為移動出行的未來提供動力,需要豐富的數據和非常強大的運算能力。” “透過與 NVIDIA 合作,我們有信心能夠幫助加快行業安全、可擴展的自動駕駛解決方案的進度。”
開發開放、安全和負責任的 AI
NVIDIA Cosmos 的開發符合 NVIDIA值得信賴的 AI原則,該原則優先考慮隱私、安全、保障、透明度並減少不必要的偏見。
值得信賴的人工智慧對於促進開發者社群內的創新和維護用戶信任至關重要。 NVIDIA 致力於安全、值得信賴的 AI,符合白宮的自願性 AI 承諾和其他全球 AI 安全措施。
開放的 Cosmos 平台包括旨在減少有害文字和圖像的護欄,並具有增強文字提示準確性的工具。使用 NVIDIA API 目錄中的 Cosmos自回歸和擴散模型產生的影片包含隱形浮水印,用於識別 AI 產生的內容,有助於減少錯誤訊息和錯誤歸因的可能性。
NVIDIA 鼓勵開發者採用值得信賴的 AI 實踐,並進一步增強其應用程式的護欄和浮水印解決方案。
可用性
Cosmos WFM現已在 NVIDIA 的開放式模式許可下在 Hugging Face 和 NVIDIA NGC 目錄中提供。 Cosmos 模型很快將作為完全優化的NVIDIA NIM微服務提供。
開發人員可以存取NVIDIA NeMo Curator來加速視訊處理,並使用NVIDIA NeMo自訂自己的世界模型。NVIDIA DGX Cloud提供了一種快速、簡單的方法來部署這些模型,並透過NVIDIA AI Enterprise軟體平台提供企業支援。
NVIDIA 也發布了新的NVIDIA Llama Nemotron 大型語言模型和 NVIDIA Cosmos Nemotron 視覺語言模型,開發人員可以將它們用於醫療保健、金融服務、製造等領域的企業 AI 使用案例。


