時間:2023-07-27|瀏覽:253
ImageBind是一種以視覺為核心的AI模型,可以理解和轉換6種不同模態之間的數據。Meta展示了一些案例,比如聽到狗叫可以畫出一只狗,并給出深度圖和文字描述;輸入鳥的圖像加海浪的聲音可以得到鳥在海邊的圖像。
與之前只支持一個或兩個模態且難以互動和檢索的多模態AI模型相比,ImageBind具有突破性意義。它是第一個能夠同時處理6種感官數據的AI模型,也是第一個在沒有明確監督的情況下學習一個單一嵌入空間的AI模型。
ImageBind的核心方法是將所有模態的數據放入一個統一的聯合嵌入空間,無需通過不同模態組合進行訓練。利用近期的大型視覺語言模型,將視覺和其他模態擴展到新的聯合嵌入空間。
對于那些原始數據中沒有直接聯系的模態,如語音和熱量,ImageBind表現出了涌現能力,可以自動將它們聯系起來。
有行業觀察者將ImageBind與元宇宙聯系在一起,為設計和體驗身臨其境的虛擬世界打開了大門。Meta的研究團隊表示,未來還將加入觸覺、語音、嗅覺和大腦功能磁共振信號,進一步探索多模態大模型的可能性。
同時,Meta表示ImageBind可以利用DINOv2的強大視覺功能進一步提高能力。DINOv2是Meta開源的計算機視覺預訓練模型,與Meta的元宇宙愿景密不可分。Meta的CEO扎克伯格強調,DINOv2可以為元宇宙的建設提供強大支持,提升用戶在元宇宙中的沉浸體驗。
盡管ImageBind目前還只是研究項目,沒有直接的消費者用戶或實際應用,但隨著模型的完善,AI應用場景將進一步擴展,元宇宙建設也將更加先進。
例如,當ImageBind融入虛擬現實設備時,使用者可以獲得更沉浸式的體驗,不僅可以感受游戲場景的溫度,還能感知物理層面上的運動。
據國盛證券分析師劉高暢預測,隨著多模態的發展,AI的泛化能力將提高,通用視覺、機械臂、物流搬運機器人、行業服務機器人和智能家居等將進入人們的生活。未來5-10年內,復雜多模態方案結合的大模型有望具備與世界交互的能力,在通用機器人和虛擬現實等領域得到應用。
來源:科創板日報 作者:科創板日報