Devin è il nuovo state-of-the-art nel test di codifica SWE-Bench, ha superato con successo colloqui pratici di ingegneria con le principali aziende di intelligenza artificiale e ha anche completato lavori veri su Upwork.
Devin è un agente autonomo che risolve compiti di ingegneria attraverso l’uso del proprio shell, editor di codice e browser web.
Quando valutato sul benchmark SWE-Bench, che chiede all’IA di risolvere problemi di GitHub trovati in progetti open-source reali, Devin risolve correttamente il 13,86% dei problemi senza assistenza, superando di gran lunga la precedente performance del modello state-of-the-art che era solo dell'1,96% senza assistenza e del 4,80% con assistenza.
Guarda quello che Devin può fare nel thread qui sotto.
Devin, il primo ingegnere software AI
1/4 Devin può imparare ad usare tecnologie sconosciute.
impara ad usare tecnologie sconosciute
2/4 Devin può contribuire a repository di produzione consolidati.
contribuire a repository di produzione consolidati
3/4 Devin può allenare e perfezionare i propri modelli di intelligenza artificiale.
allenare e perfezionare i propri modelli di IA
4/4 Abbiamo persino provato a dare a Devin lavori veri su Upwork e anche quelli ha potuto farli!
ha fatto i lavori veri su Upwork
Per maggiori dettagli su Devin, dai un’occhiata al post sul blog qui: https://cognition-labs.com/blog