世界首個 AI 程序員 Devin 視頻竟造假?
智者2024年4月15日消息,一個月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,并稱其為“世界上首個AI軟件工程師”,只需一句指令,它可端到端地處理整個開發項目。
Devin背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2100萬美金。
如今Devin再度震撼硅谷——但這次是被打假。
油管程序員博主Internet of Bugs(以下簡稱光頭哥)對Devin的視頻進行了逐幀分析,逐一舉證說明了Devin并不如演示中那般神奇。
甚至有“自己現寫bug然后當場修復”的騷操作。
其它“罪證”,包括但不限于:
號稱能解決任何Upwork任務,但演示中解決的問題并不是prompt要解決的那一個,做無用功;
看起來在修復bug,實際上修復的bug人類程序員根本就不會犯;
沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞復雜了;
修改代碼的水平一言難盡。
此外,光頭哥花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。
此次出來聲張正義的光頭哥,從事軟件行業已經35年。他首先聲明自己的立場:我并不反對高科技,但我確實反對過度炒作。
他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事實上,在Devin剛推出時候,他就反對過“世界上第一個AI軟件工程師”這一說法。
主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的復雜軟件工程任務。
具體來說有6大功能:
端到端構建和部署程序,可以解決的不只是代碼問題,還包括與之相關的整個工作流;
自主查找并修復bug;
訓練和微調自己的AI模型;
修復開源庫;
為成熟的生產庫做貢獻;
超強學習能力,實時補足知識和能力短板。
Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決13.86%的問題——這個數據看起來不高,但其實已經超過了此前所有AI大模型的成績。目前數一數二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。