Devinは、SWE-Benchコーディングベンチマークにおいて最新の状態であり、主要なAI企業の実用的なエンジニアリング面接も成功裏にパスし、さらにはUpworkでの実際の仕事も達成しています。
Devinは、独自のシェル、コードエディター、ウェブブラウザを活用してエンジニアリングタスクを解決する自律エージェントです。
SWE-Benchベンチマークで評価された際、DevinはリアルなオープンソースプロジェクトのGitHubの課題を解決するように求められ、その中で13.86%の課題を自己サポートで正しく解決しました。これは先行する最新モデルの1.96%自己サポートおよび4.80%サポートを大幅に上回る成績です。
以下のスレッドでDevinが何をできるかご確認ください。
Devin、最初のAIソフトウェアエンジニア
1/4 Devinは見慣れない技術を使い方を学べます。
見慣れない技術の使い方を学ぶ
2/4 Devinは成熟したプロダクションリポジトリに貢献できます。
成熟したプロダクションリポジトリに貢献する
3/4 Devinは自身のAIモデルをトレーニングおよび微調整することができます。
自身のAIモデルをトレーニングおよび微調整する
4/4 さらに、DevinにはUpworkで実際の仕事を与えてみましたが、それもこなすことができました!
Upworkで実際の仕事をこなす
Devinの詳細については、こちらのブログ記事をご覧ください: https://cognition-labs.com/blog