圖/本報AI製圖(示意圖)
AI模型
4 hours ago

#AI模型
#Chrome擴充功能
#程式開發
#Claude
#ChatGPT
#Gemini
圖/本報AI製圖(示意圖)
圖/本報AI製圖(示意圖)
商傳媒|葉安庭/綜合外電報導
摘要

一項針對三大主流 AI 模型(Claude、ChatGPT、Gemini)的實測顯示,在要求開發 Chrome 擴充功能時,僅有 Anthropic 的 Claude 能在給予模糊提示的情況下,成功開發出一個功能完善的程式碼,而 ChatGPT 雖能勉強運作但仍有瑕疵,Google 的 Gemini 則完全未能完成任務。

日前,一份針對大型語言模型(LLM)開發能力的實測報告指出,在給予模糊需求的情況下,OpenAI 的 ChatGPT、Google 的 Gemini 以及 Anthropic 的 Claude 三大主流 AI 模型中,僅有 Claude 成功開發出一個功能完整的 Chrome 擴充功能。

根據科技媒體《MakeUseOf》報導,測試作者要求這三款模型開發一個 Chrome 擴充功能,用於搜尋 Instagram 貼文觀看者名單中的特定使用者。作者僅提供一個非常模糊的提示,旨在測試模型在沒有詳細說明下自行理解和執行任務的能力。

ChatGPT 數次嘗試仍有瑕疵

ChatGPT 的首次嘗試未能成功,生成了一個因缺少工具列彈出視窗而無法點擊的擴充功能。經過修補後,雖然擴充功能可運作,但受限於 Instagram 的「懶載入」機制,每次只能處理少量觀看者名單。儘管 ChatGPT 隨後嘗試改進,加入了「索引所有觀看者」按鈕,聲稱能自動捲動並建立本地索引,但在實際測試中,該功能依然僅限於螢幕上可見的觀看者,未能完全達到預期效果。作者形容,ChatGPT 雖最終讓核心功能運作,卻是透過多次除錯及「相當取巧」的方式達成。

Gemini 表現不如預期

Google 的 Gemini 在測試中表現最不理想。它最初並未直接生成程式碼,反而提供了一份架構分析、關於 DOM 遍歷的教學,以及一段需要貼入代理整合開發環境(IDE)的提示。當作者要求其開發程式碼時,Gemini 試圖將搜尋欄位直接注入 Instagram 的使用者介面中,但該搜尋欄位始終未出現。在經歷六輪不斷失敗的修正後,搜尋欄位雖最終現身,卻仍無法找到任何觀看者,未能實現任何搜尋功能。

Claude 成功克服挑戰

相較之下,Anthropic 的 Claude 展現了出色的問題解決能力。儘管其第一個版本也未能運作,但 Claude 隨後主動分析了 Instagram 的文件物件模型(DOM)結構,並利用 Instagram 的內部應用程式介面(API)端點重新建構了擴充功能。作者表示,Claude 解釋這些內部 API 端點在已登入狀態下更為可靠。最終,經過這次調整,Claude 成功開發出一個完全符合預期且功能完善的 Chrome 擴充功能。作者總結,Claude 是此次測試中最快且僅用最少訊息就達成目標的模型,也是唯一一個成功開發出完全可用工具的模型。