Devin, the first AI software engineer.
Devin è il nuovo state-of-the-art nel test di codifica SWE-Bench, ha superato con successo colloqui pratici di ingegneria con le principali aziende di intelligenza artificiale e ha anche completato lavori veri su Upwork. Devin è un agente autonomo che risolve compiti di ingegneria attraverso l’uso del proprio shell, editor di codice e browser web. Quando valutato sul benchmark SWE-Bench, che chiede all’IA di risolvere problemi di GitHub trovati in progetti open-source reali, Devin risolve correttamente il 13,86% dei problemi senza assistenza, superando di gran lunga la precedente performance del modello state-of-the-art che era solo dell'1,96% senza assistenza e del 4,80% con assistenza....