Devin es el nuevo estado del arte en el benchmark de programación SWE-Bench, ha pasado con éxito entrevistas de ingeniería práctica de las principales empresas de IA e incluso ha completado trabajos reales en Upwork.

Devin es un agente autónomo que resuelve tareas de ingeniería utilizando su propia terminal, editor de código y navegador web.

Cuando se evalúa en el benchmark SWE-Bench, que requiere que una IA resuelva problemas de GitHub encontrados en proyectos de código abierto del mundo real, Devin resuelve correctamente el 13,86% de los problemas sin ayuda, superando con creces el rendimiento del modelo anterior estado del arte del 1,96% sin ayuda y 4,80% asistido.

Descubre lo que Devin puede hacer en el hilo a continuación.

Devin, el primer ingeniero de software de IA

1/4 Devin puede aprender cómo utilizar tecnologías desconocidas.

aprender cómo utilizar tecnologías desconocidas

2/4 Devin puede contribuir a repositorios de producción maduros.

contribuir a repositorios de producción maduros

3/4 Devin puede entrenar y ajustar sus propios modelos de IA.

entrenar y ajustar sus propios modelos de IA

4/4 ¡Incluso intentamos darle a Devin trabajos reales en Upwork y también los pudo hacer!

hizo los trabajos reales en Upwork

Para obtener más detalles sobre Devin, consulta la publicación del blog aquí: https://cognition-labs.com/blog