你對 AI 助理的印象,還停留在只會閒聊的「聊天機器人」階段嗎?自從 ChatGPT 問世以來,市場上便掀起了一場 AI 的軍備競賽。這兩三年來,幾乎每天都有 AI 公司突破技術瓶頸、提升運算效能的消息傳出。在如此激烈的競爭環境下,各家 AI 的「智慧程度」也呈指數性成長。
而引爆生成式 AI 熱潮的元老 OpenAI 當然也沒閒著,在 12 月這次的更新,讓原本只會「打字」跟「說話」的 ChatGPT,進化成能夠透過鏡頭「看東西」、還能分享即時動態螢幕畫面,聽起來就真的像遠端有個助理在跟你視訊,整個都科幻了起來,那實際用起來到底如何呢?
官方規劃的美好藍圖
OpenAI 這次的更新,主打三個重點:
視覺辨識
ChatGPT 能認出各種物品、人物。而且還能理解各種排列組合後給出回應,比如它能分辨出戴聖誕帽的人叫做什麼名字、以及它在對話中捕捉到的關於這個人的其他訊息。
多模態整合
ChatGPT 能透過聽與說,以及透過鏡頭看到你的動作後,理解畫面中的情境與行為。比如官方示範影片中,它甚至能透過鏡頭一步步教你沖咖啡。
應用場景
如果分享手機螢幕畫面,則 ChatGPT 能夠看到並了解用戶正在查看的內容 (如訊息 App),並請 ChatGPT 協助回覆訊息的措辭。這功能感覺很適合用在教學、客服、企業訓練。想像未來如果上遠距課,能夠直接把東西拿給 AI 看,它就能給你建議,聽起來很方便吧?
實測 ChatGPT 視訊通話模式的功能
OpenAI 表示,這次 ChatGPT 的更新要大約一週才會陸續推送到 Plus 與 Pro 用戶的介面中。等了大概 2 天左右,我也終於收到更新了。實際打開來的第一感受確實是滿新奇的,不過在連續通話大約三五分鐘後,模型的一些認知破綻還是會慢慢顯現出來。(按:我在這裡使用的是GPT-4o模型下的視訊通話模式)
辨識靜態物體
基本上大部分物體都能夠辨識出來,包括家具電器、生活用品、街景等。
這當中我覺得最厲害的,是我隨意將手中的相機入鏡給他看,它竟然能直接說出廠牌、系列、甚至可能的型號。
食物種類如果是比較全球化的就辨識比較準確,一些像是臭豆腐、饅頭等區域性的,就比較容易講錯。還有就是裝了水的容器,它不太能分辨這是裝了水、還是空瓶子。
辨識人及動物
常見的動物如貓狗,它能夠說出物種、花色、甚至品種的區別 (比如拉不拉多犬),如果是取了名字的寵物,它也能記住花色與寵物名的對應關係。但如果打開 Discovery 給他看野生動物,它就比較容易說錯。
至於人物,ChatGPT 除了能辨識出不同人之間的相貌區別之外,它能讀出的相關訊息意外的詳細:
- 它不只能辨識人臉上的「憤怒」表情,還能察覺這個是「演的」、「做出一個生氣的樣子」
- 它能辨識人類的手勢,而且是粗動作 (手臂交叉、一手捏鼻的「大象」)、還是細動作 (比讚、比倒讚) 都能辨別
- 它能辨識人類整體的姿勢,來判斷該人物的勞累程度、可能的心情等
文字與資訊辨識
相比於 ChatGPT 在 GPT-4 就已經具備的解讀圖片能力,它這次在視訊當中的文字與資訊的辨識能力明顯較差。很多原本能做到的,在視訊模式下反而做不到。比如:
- 手寫字跡:大部分時候它會直接放棄判讀,並回應它無法辨識「hand writing」
- 文字段落:給他看一些制式的廣告信件會唸出完全不相關的內容。比如我拿了 momo 的廣告信請它念,它唸出來卻是蝦皮的其他促銷活動。可以感覺出來它不是每次都直接花費算力來啟用辨識功能判斷它眼前一字一句,而是有時候會找出它認為最相似的可能答案來套用。
- 數字與字母串:隨意給它一串8~10位的數字,它雖然能照著唸出來,但順序會稍有錯誤。比如「4258623575」,可能會錯念成「4258263575」
- 指針式時鐘:在 GPT-4o 的文字版本當中,ChatGPT 是可以從指針式的時鐘讀出時間的;但到了視訊對話的模式中,卻又看不懂了。不過它在這裡就沒有像在「手寫字跡」那裡直接表示它做不到,反而是一本正經地報一個錯誤的時間。(這也是 ai 很常見的一種通病)
現實與理想的差距
簡單來說,OpenAI 把 ChatGPT 這次的更新,跟實際上的表現還是有一段差距。基本的物品辨識還不錯,但複雜的影像理解還在偏向初級的階段,所以在簡單的情境它是可以用的,但如果要期待它能完全取代人工,還是有段距離。
如果你是愛玩新科技的人,可以試試看簡單的應用,像是讓它認識日常用品、或是不這麼要求精確度的場景等等。不過這次的更新確實很有趣,但就像學習新技能一樣,我想它應該還需要一些時間成長吧。