Devin è il nuovo state-of-the-art nel test di codifica SWE-Bench, ha superato con successo colloqui pratici di ingegneria con le principali aziende di intelligenza artificiale e ha anche completato lavori veri su Upwork.

Devin è un agente autonomo che risolve compiti di ingegneria attraverso l’uso del proprio shell, editor di codice e browser web.

Quando valutato sul benchmark SWE-Bench, che chiede all’IA di risolvere problemi di GitHub trovati in progetti open-source reali, Devin risolve correttamente il 13,86% dei problemi senza assistenza, superando di gran lunga la precedente performance del modello state-of-the-art che era solo dell'1,96% senza assistenza e del 4,80% con assistenza.

Guarda quello che Devin può fare nel thread qui sotto.

Devin, il primo ingegnere software AI

1/4 Devin può imparare ad usare tecnologie sconosciute.

impara ad usare tecnologie sconosciute

2/4 Devin può contribuire a repository di produzione consolidati.

contribuire a repository di produzione consolidati

3/4 Devin può allenare e perfezionare i propri modelli di intelligenza artificiale.

allenare e perfezionare i propri modelli di IA

4/4 Abbiamo persino provato a dare a Devin lavori veri su Upwork e anche quelli ha potuto farli!

ha fatto i lavori veri su Upwork

Per maggiori dettagli su Devin, dai un’occhiata al post sul blog qui: https://cognition-labs.com/blog