時間:2024-02-16|瀏覽:316
人工智能公司 OpenAI 于周四推出了其首個文本轉視頻模型,獲得了熱烈反響,不過該公司承認該模型還有很長的路要走。
OpenAI 于 2 月 15 日推出了名為 Sora 的新生成式 AI 模型,據稱該模型可以根據簡單的文本提示創建詳細的視頻、延續現有視頻,甚至基于靜態圖像生成場景。
隆重推出 Sora,我們的文本轉視頻模型。Sora 可以創建長達 60 秒的視頻,其中包含高度詳細的場景、復雜的攝像機運動以及充滿活力的情感的多個角色。 https://t.co/7j2JN27M3WPprompt:“美麗,白雪皚皚…… pic.twitter.com/ruTEWn87vf
- OpenAI (@OpenAI) 2024 年 2 月 15 日
根據 2 月 15 日的博客文章,OpenAI 聲稱 AI 模型可以生成分辨率高達 1080p 的類似電影的場景。這些場景可以包括多個角色、特定類型的運動以及主題和背景的準確細節。
索拉的工作原理
與 OpenAI 基于圖像的前身 DALL-E 3 非常相似,Sora 運行在所謂的“擴散”模型上。
擴散是指生成式人工智能模型通過生成看起來更像“靜態噪聲”的視頻或圖像來創建其輸出,然后通過幾個步驟“消除噪聲”來逐漸對其進行轉換。
宣布推出 Sora——我們的模型可以根據文本提示創建一分鐘長的視頻:https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— 格雷格·布羅克曼 (@gdb) 2024 年 2 月 15 日
這家人工智能公司寫道,Sora 是建立在 GPT 和 DALL-E3 模型過去研究的基礎上的,該公司聲稱這使得該模型能夠更好地“忠實”地代表用戶輸入。
OpenAI 承認 Sora 仍然存在一些弱點,并且很難準確地模擬復雜場景的物理原理,即混淆了因果關系的本質。
“例如,一個人可能咬了一口餅干,但之后餅干可能沒有咬痕。”
該公司表示,新工具還可能通過混淆左右方向或無法遵循精確的方向描述來混淆給定提示的“空間細節”。
索拉可能會意外地產生物理上難以置信的運動。來源:OpenAI
OpenAI 表示,新的生成模型目前僅適用于“紅隊成員”(網絡安全研究人員的技術用語),以評估“危害或風險的關鍵領域”,并選擇設計師、視覺藝術家和電影制作人來收集有關如何推進模型。
2023 年 12 月,斯坦福大學的一份報告顯示,使用人工智能數據庫 LAION 的人工智能圖像生成工具正在接受數千張非法虐待兒童材料的圖像的訓練,這引發了文本到文本轉換的嚴重道德和法律問題。圖像或視頻模型。
X上的用戶“無語”
數十個視頻演示已在 X 上流傳,展示了 Sora 的實際操作示例,而 Sora 目前在 X 上已發布超過 173,000 個帖子,成為熱門話題。
為了展示新的生成模型的能力,OpenAI 首席執行官 Sam Altman 向 X 上的用戶開放了自定義視頻生成請求,這位 AI 負責人總共分享了 7 個 Sora 生成的視頻,從鴨子騎龍回到金毛獵犬在山頂錄制播客。
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) 2024 年 2 月 15 日
人工智能評論員 Mckay Wrigley 以及其他許多人寫道,Sora 生成的視頻讓他“無言以對”。
Nvidia 高級研究員 Jim Fan 在 2 月 15 日發布的 X 帖子中宣稱,任何認為 Sora 只是另一個“創意玩具”(如 DALL-E 3)的人都大錯特錯。
如果您認為 OpenAI Sora 是像 DALLE 一樣的創意玩具,...再想一想。 Sora 是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的還是幻想的。模擬器學習復雜的渲染、“直觀”物理、長期推理和語義基礎,所有這些…… pic.twitter.com/pRuiXhUqYR
— 吉姆·范 (@DrJimFan) 2024 年 2 月 15 日
在 Fan 看來,Sora 與其說是一個視頻生成工具,不如說是一個“數據驅動的物理引擎”,因為人工智能模型不僅生成抽象視頻,而且還確定性地創建場景本身中對象的物理特性。
雜志:“加密貨幣是不可避免的”,所以我們“全力以赴”——萬斯·斯賓塞 (Vance Spencer),permabull
熱點:視頻