ChatGPT 長「眼睛」了！AI 視訊功能實測大公開

Table of Contents

你對 AI 助理的印象，還停留在只會閒聊的「聊天機器人」階段嗎？自從 ChatGPT 問世以來，市場上便掀起了一場 AI 的軍備競賽。這兩三年來，幾乎每天都有 AI 公司突破技術瓶頸、提升運算效能的消息傳出。在如此激烈的競爭環境下，各家 AI 的「智慧程度」也呈指數性成長。

而引爆生成式 AI 熱潮的元老 OpenAI 當然也沒閒著，在 12 月這次的更新，讓原本只會「打字」跟「說話」的 ChatGPT，進化成能夠透過鏡頭「看東西」、還能分享即時動態螢幕畫面，聽起來就真的像遠端有個助理在跟你視訊，整個都科幻了起來，那實際用起來到底如何呢？

官方規劃的美好藍圖

OpenAI 這次的更新，主打三個重點：

視覺辨識

ChatGPT 能認出各種物品、人物。而且還能理解各種排列組合後給出回應，比如它能分辨出戴聖誕帽的人叫做什麼名字、以及它在對話中捕捉到的關於這個人的其他訊息。

多模態整合

ChatGPT 能透過聽與說，以及透過鏡頭看到你的動作後，理解畫面中的情境與行為。比如官方示範影片中，它甚至能透過鏡頭一步步教你沖咖啡。

應用場景

如果分享手機螢幕畫面，則 ChatGPT 能夠看到並了解用戶正在查看的內容 (如訊息 App)，並請 ChatGPT 協助回覆訊息的措辭。這功能感覺很適合用在教學、客服、企業訓練。想像未來如果上遠距課，能夠直接把東西拿給 AI 看，它就能給你建議，聽起來很方便吧？

實測 ChatGPT 視訊通話模式的功能

OpenAI 表示，這次 ChatGPT 的更新要大約一週才會陸續推送到 Plus 與 Pro 用戶的介面中。等了大概 2 天左右，我也終於收到更新了。實際打開來的第一感受確實是滿新奇的，不過在連續通話大約三五分鐘後，模型的一些認知破綻還是會慢慢顯現出來。(按：我在這裡使用的是GPT-4o模型下的視訊通話模式)

辨識靜態物體

基本上大部分物體都能夠辨識出來，包括家具電器、生活用品、街景等。

這當中我覺得最厲害的，是我隨意將手中的相機入鏡給他看，它竟然能直接說出廠牌、系列、甚至可能的型號。

食物種類如果是比較全球化的就辨識比較準確，一些像是臭豆腐、饅頭等區域性的，就比較容易講錯。還有就是裝了水的容器，它不太能分辨這是裝了水、還是空瓶子。

辨識人及動物

常見的動物如貓狗，它能夠說出物種、花色、甚至品種的區別 (比如拉不拉多犬)，如果是取了名字的寵物，它也能記住花色與寵物名的對應關係。但如果打開 Discovery 給他看野生動物，它就比較容易說錯。

至於人物，ChatGPT 除了能辨識出不同人之間的相貌區別之外，它能讀出的相關訊息意外的詳細：

它不只能辨識人臉上的「憤怒」表情，還能察覺這個是「演的」、「做出一個生氣的樣子」
它能辨識人類的手勢，而且是粗動作 (手臂交叉、一手捏鼻的「大象」)、還是細動作 (比讚、比倒讚) 都能辨別
它能辨識人類整體的姿勢，來判斷該人物的勞累程度、可能的心情等

文字與資訊辨識

相比於 ChatGPT 在 GPT-4 就已經具備的解讀圖片能力，它這次在視訊當中的文字與資訊的辨識能力明顯較差。很多原本能做到的，在視訊模式下反而做不到。比如：

手寫字跡：大部分時候它會直接放棄判讀，並回應它無法辨識「hand writing」
文字段落：給他看一些制式的廣告信件會唸出完全不相關的內容。比如我拿了 momo 的廣告信請它念，它唸出來卻是蝦皮的其他促銷活動。可以感覺出來它不是每次都直接花費算力來啟用辨識功能判斷它眼前一字一句，而是有時候會找出它認為最相似的可能答案來套用。
數字與字母串：隨意給它一串8~10位的數字，它雖然能照著唸出來，但順序會稍有錯誤。比如「4258623575」，可能會錯念成「4258263575」
指針式時鐘：在 GPT-4o 的文字版本當中，ChatGPT 是可以從指針式的時鐘讀出時間的；但到了視訊對話的模式中，卻又看不懂了。不過它在這裡就沒有像在「手寫字跡」那裡直接表示它做不到，反而是一本正經地報一個錯誤的時間。(這也是 ai 很常見的一種通病)

實際測試 ChatGPT 的視訊通話功能：只靠這個畫面，它就能知道我在一間餐廳裡，餐桌上擺著相機，型號是理光 GR III 系列，後面還放了一台iPhone。

現實與理想的差距

簡單來說，OpenAI 把 ChatGPT 這次的更新，跟實際上的表現還是有一段差距。基本的物品辨識還不錯，但複雜的影像理解還在偏向初級的階段，所以在簡單的情境它是可以用的，但如果要期待它能完全取代人工，還是有段距離。

如果你是愛玩新科技的人，可以試試看簡單的應用，像是讓它認識日常用品、或是不這麼要求精確度的場景等等。不過這次的更新確實很有趣，但就像學習新技能一樣，我想它應該還需要一些時間成長吧。

‍

• • •

系列文章

ChatGPT 長「眼睛」了！AI 視訊功能實測大公開

官方規劃的美好藍圖

視覺辨識

多模態整合

應用場景

實測 ChatGPT 視訊通話模式的功能

辨識靜態物體

辨識人及動物

文字與資訊辨識

現實與理想的差距

這篇文章僅供部分人士閱覽

AI 提示詞太難寫？OpenAI 最新免費工具，3 分鐘生成完美提示詞

ChatGPT 開放付費服務！實測20美元的 ChatGPT Plus 有何與眾不同？

免安裝的 SQL 線上模擬器 SQL Fiddle 變聰明了嗎？整合 AI 學習助理，依然完全免費

Disco Diffusion：免費開源的AI圖像生成引擎

跟 AI 說話沒那麼簡單？Prompt Engineering 帶你重新認識溝通的藝術

讓想像的場景成真：單靠文字描述就能生成 AI 圖像的 Midjourney

免安裝的 SQL 線上模擬器 SQL Fiddle 變聰明了嗎？整合 AI 學習助理，依然完全免費

C#：判斷是否網頁已載入完成

開發你的第一個DApp (一) 簡介與環境設定

由天才數學家高斯提出的全新製圖投影法，為什麼還是無法完全取代麥卡托？

SEO 的基本功 (二)：如何進行網站關鍵字搜尋分析

將server加進白名單

JSON：簡潔易用的結構化資料格式

電腦當機時不用重灌的方法：利用登錄檔讓windows起死回生

CSS Layout: 各式常見 CSS 空白版面與元件，刻 UI 的好幫手

內政部 3D 國家底圖平台上線！免費瀏覽全台 440 萬棟建築，帶你從天際俯瞰台灣

Facebook貼文成效不佳嗎？抓住這5大原則，讓你從此從眾多競爭者中脫穎而出

Metamask 小狐狸錢包被盜了!快檢查自己的虛擬資產現在安全嗎?

ChatGPT 長「眼睛」了！AI 視訊功能實測大公開

職場進修總是感覺事倍功半嗎？破解個人化學習的黃金公式