Devin是SWE-Bench编码基准测试的最新技术,成功通过了领先的人工智能公司的实际工程面试,甚至在Upwork上完成了真实的工作。
Devin是一个自主代理,通过自己的shell、代码编辑器和网页浏览器来解决工程任务。
在SWE-Bench基准测试中,该测试要求人工智能解决真实开源项目中的GitHub问题,Devin在无人辅助的情况下能够正确解决13.86%的问题,远远超过之前的最新模型性能,无人辅助为1.96%,有人辅助为4.80%。
在下方的帖子中了解Devin的更多功能。
Devin,第一个AI软件工程师
1/4 Devin可以学习如何使用陌生的技术。
学习如何使用陌生的技术
2/4 Devin可以为成熟的生产代码库做出贡献。
为成熟的生产代码库做出贡献
3/4 Devin可以训练和优化自己的人工智能模型。
训练和优化自己的人工智能模型
4/4 我们甚至尝试让Devin在Upwork上做真实的工作,它也能胜任!
在Upwork上完成真实的工作
有关Devin的更多详情,请查看此博客文章:https://cognition-labs.com/blog