Table of Contents

「終於等到你!」

在經歷了將近一年的等待之後,OpenAI 的 AI 影片生成工具 Sora 終於在 2024 年 12 月 9 日正式發布了,整合了自家 ChatGPT的技術,能將簡單的一行文字提示轉化為精美的動態影片。然而從今年 2 月份的預告到現在,這段漫長的等待背後,究竟發生了什麼事?而在這段期間,其他家的 AI 影片生成工具也沒閒著,那麼 Sora 現在才姍姍來遲,還能在這個市場上佔有一席之地嗎?

先來看看 Sora 的方案與功能

Sora 只開放給Plus 和 Pro 用戶,沒有免費試用方案

首先,Sora 是一個獨立的產品,可以在 sora.com 上直接使用 (而不用進去 ChatGPT 介面)。目前只對 ChatGPT Plus 和 Pro 用戶開放,分別提供每月 20 美元和 200 美元的訂閱方案 (須年滿18歲)。

這兩個方案的差異在於:

  • Plus 用戶每月有 1,000 credits (大約生成 50 部影片),解析度最高 720p,單段影片最長 5 秒,會有浮水印
  • Pro 用戶每月有 10,000 credits (大約可生成 500 部影片),解析度最高 1080p,單段影片最長 20 秒,而且可以同時生成 5 段影片,下載時也不會有浮水印

Sora 除了文生影片,也可以搭配圖片素材,以及對生成的影片二次編輯

除了基本的文字轉影片功能之外,Sora 還提供了一些有趣的功能,像是:

  • Remix:可以用文字描述來替換、移除或重新設計影片中的元素
  • Storyboard:在時間軸上組織和編輯動作序列
  • Re-cut:對影片進行精準裁剪和擴展
  • Loop:創建 2 到 6 秒的無縫循環片段
  • Blend:將兩個不同的場景無縫結合
  • 圖片轉影片:將靜態圖片轉換成動態影片
  • 風格預設:使用或分享自定義風格

而這每一個動作,幾乎都是需要靠消耗 credit 來完成的。這樣算下來,一般 plus 用戶每月 1,000 個 credits,應該是無法如官方宣稱的能生成到 50 部影片。

實測 Sora

不過介紹了這麼多,終歸還是比不過實際試用一次,對吧。

首先我們要進到 Sora 的首頁: sora.com

接著,可以看到畫面的正下方,有一個簡單的對話框,風格就類似於我們在 ChatGPT 上看到的介面,平常有在使用的用戶們應該不陌生。簡單用文字寫了希望產生的影片內容後,再根據需求選擇影片的長寬比、解析度、長度、以及一次要生成幾種版本,就可以送出指令了。

要注意的是,不管你在這上面做什麼操作都是要扣 credit 的,送出指令前按下灰色的那個「?」按鈕,可以預覽目前這個操作將要消耗的點數。(以這個例子來講是一次生成兩版,一張25點,共消耗 50 點)

如果想要在影片裡創造不同的分鏡,可以按下「storyboard」,可以看到 Sora 已經根據我們的指令拆解並細化出較為具體的場景描述了,有任何希望修改的或不符合想像的部分,都可以在這裡修改。

生成的速度不算快,可能今天是產品發布後首日的緣故,送出生成指令後需要排隊個1~5分鐘左右,才能真正看到我們想要的影片。而如果選較高的解析度那生成的速度就要再更久一些 (720p要x4倍、1080p要x8倍)。

至於生成的效果如何?雖然偶爾還是能看到一些 AI 的破綻,但整體的效果、動物與人物的神態是滿精緻的!可惜就是解析度不太夠,不然真的是滿不錯的。

為什麼 OpenAI 等到現在才發布 Sora?

從 2 月份的預告到現在才正式發布,說實在的真的是有點慢。

據 OpenAI 自己表示,這段時間他們主要在處理幾個問題:首先是技術層面的挑戰,生成高品質的影片需要龐大的運算資源,遠超過一般的文字或圖像生成。即使 OpenAI 在財務上現在有母公司微軟在支撐,但頂級運算資源的供應量就是有限,這個問題不是砸錢就一定能解決的。其次是安全性的考量,OpenAI 需要確保 Sora 不會被用來生成假訊息或不當內容,同時也要解決版權和身份保護等問題。為此他們還特別邀請了安全評估人員來找出潛在的漏洞。除此之外,還要處理生成出來影片物理性質以及邏輯是否合理等。

競爭對手已經搶先一步

但在 Sora 忙著確認各種細節、以及不斷推遲發表日程的這段期間,市場上已經出現了幾個強勁的競爭對手,比如已經得到許多電影製作公司與獨立創作工作室採用的紐約團隊 Runway,它不僅提供免費試用、擁有完整的影片編輯工具套件,付費方案的門檻也較低 ($0~$76,企業客製方案另計)。

在對手已經擁有這些早期採用者份額的情況下,Sora 要用什麼策略去競爭呢?是去試圖搶奪這些用戶的注意力、還是另外開發與製造新的需求,把市場做大呢?目前團隊並沒有給出很明確的答案。

於此同時,其他同樣在 AI 戰局裡的幾間大公司也都在各自發展自己的文生影片功能,可以依稀看得出來,他們都希望能藉此壯大自家的 AI 生態系。

Google 的 Lumiere

  • 擅長生成更自然、流暢的動作
  • 特別強調物理運動的準確性
  • 整合了 Google 的 AI 技術生態系統

Meta 的 EMU

  • 專注於社交媒體內容創作
  • 提供豐富的濾鏡和特效
  • 與 Meta 平台(Facebook、Instagram)深度整合

未來展望

雖然 Sora 來得晚了一點,但它跟其他對手相比還是有一些獨特優勢,畢竟 ChatGPT 是屬於 OpenAI 自家的技術,因此當未來 ChatGPT 掌握更強大的自然語言理解能力時,Sora 也理所當然地能獲得這些新語言模型的優先採用權。當理解能力高,產生出符合預期的影片畫面機率應該也能相對提高,所以未來 Sora 的發展我想還是可以期待一下的。

不過這還是要看 OpenAI 後續的更新和創新能力,因為不只 OpenAI ,目前其他各家 AI 運算能力也在無限向上的快速疊加當中,中間在訓練上稍微有一個閃失或停擺,可能不出幾個月就會拉出巨大的差距了。

•     •     •
系列文章