Devin是SWE-Bench编码基准测试的最新技术,成功通过了领先的人工智能公司的实际工程面试,甚至在Upwork上完成了真实的工作。

Devin是一个自主代理,通过自己的shell、代码编辑器和网页浏览器来解决工程任务。

在SWE-Bench基准测试中,该测试要求人工智能解决真实开源项目中的GitHub问题,Devin在无人辅助的情况下能够正确解决13.86%的问题,远远超过之前的最新模型性能,无人辅助为1.96%,有人辅助为4.80%。

在下方的帖子中了解Devin的更多功能。

Devin,第一个AI软件工程师

1/4 Devin可以学习如何使用陌生的技术。

学习如何使用陌生的技术

2/4 Devin可以为成熟的生产代码库做出贡献。

为成熟的生产代码库做出贡献

3/4 Devin可以训练和优化自己的人工智能模型。

训练和优化自己的人工智能模型

4/4 我们甚至尝试让Devin在Upwork上做真实的工作,它也能胜任!

在Upwork上完成真实的工作

有关Devin的更多详情,请查看此博客文章:https://cognition-labs.com/blog