Devin es el nuevo estado del arte en el benchmark de programación SWE-Bench, ha pasado con éxito entrevistas de ingeniería práctica de las principales empresas de IA e incluso ha completado trabajos reales en Upwork.
Devin es un agente autónomo que resuelve tareas de ingeniería utilizando su propia terminal, editor de código y navegador web.
Cuando se evalúa en el benchmark SWE-Bench, que requiere que una IA resuelva problemas de GitHub encontrados en proyectos de código abierto del mundo real, Devin resuelve correctamente el 13,86% de los problemas sin ayuda, superando con creces el rendimiento del modelo anterior estado del arte del 1,96% sin ayuda y 4,80% asistido.
Descubre lo que Devin puede hacer en el hilo a continuación.
Devin, el primer ingeniero de software de IA
1/4 Devin puede aprender cómo utilizar tecnologías desconocidas.
aprender cómo utilizar tecnologías desconocidas
2/4 Devin puede contribuir a repositorios de producción maduros.
contribuir a repositorios de producción maduros
3/4 Devin puede entrenar y ajustar sus propios modelos de IA.
entrenar y ajustar sus propios modelos de IA
4/4 ¡Incluso intentamos darle a Devin trabajos reales en Upwork y también los pudo hacer!
hizo los trabajos reales en Upwork
Para obtener más detalles sobre Devin, consulta la publicación del blog aquí: https://cognition-labs.com/blog