Devin é o novo estado da arte no benchmark de codificação SWE-Bench, passou com sucesso em entrevistas de engenharia prática de empresas líderes em AI e até mesmo concluiu trabalhos reais no Upwork.

Devin é um agente autônomo que resolve tarefas de engenharia por meio de seu próprio shell, editor de código e navegador da web.

Quando avaliado no benchmark SWE-Bench, que pede a um AI resolver problemas do GitHub encontrados em projetos de código aberto do mundo real, Devin resolve corretamente 13,86% dos problemas sem assistência, muito acima do desempenho do modelo de estado da arte anterior de 1,96% sem assistência e 4,80% com assistência.

Veja o que Devin pode fazer na thread abaixo.

Devin, o primeiro engenheiro de software AI

1/4 Devin pode aprender a usar tecnologias desconhecidas.

aprender a usar tecnologias desconhecidas

2/4 Devin pode contribuir para repositórios de produção maduros.

contribuir para repositórios de produção maduros

3/4 Devin pode treinar e ajustar seus próprios modelos de AI.

treinar e ajustar seus próprios modelos de AI

4/4 Nós até tentamos dar a Devin trabalhos reais no Upwork e ele conseguiu fazer também!

fez os trabalhos reais no Upwork

Para mais detalhes sobre Devin, confira o post do blog aqui: https://cognition-labs.com/blog