Devin é o novo estado da arte no benchmark de codificação SWE-Bench, passou com sucesso em entrevistas de engenharia prática de empresas líderes em AI e até mesmo concluiu trabalhos reais no Upwork.
Devin é um agente autônomo que resolve tarefas de engenharia por meio de seu próprio shell, editor de código e navegador da web.
Quando avaliado no benchmark SWE-Bench, que pede a um AI resolver problemas do GitHub encontrados em projetos de código aberto do mundo real, Devin resolve corretamente 13,86% dos problemas sem assistência, muito acima do desempenho do modelo de estado da arte anterior de 1,96% sem assistência e 4,80% com assistência.
Veja o que Devin pode fazer na thread abaixo.
Devin, o primeiro engenheiro de software AI
1/4 Devin pode aprender a usar tecnologias desconhecidas.
aprender a usar tecnologias desconhecidas
2/4 Devin pode contribuir para repositórios de produção maduros.
contribuir para repositórios de produção maduros
3/4 Devin pode treinar e ajustar seus próprios modelos de AI.
treinar e ajustar seus próprios modelos de AI
4/4 Nós até tentamos dar a Devin trabalhos reais no Upwork e ele conseguiu fazer também!
fez os trabalhos reais no Upwork
Para mais detalhes sobre Devin, confira o post do blog aqui: https://cognition-labs.com/blog