Devin, the first AI software engineer.

Devinは、SWE-Benchコーディングベンチマークにおいて最新の状態であり、主要なAI企業の実用的なエンジニアリング面接も成功裏にパスし、さらにはUpworkでの実際の仕事も達成しています。 Devinは、独自のシェル、コードエディター、ウェブブラウザを活用してエンジニアリングタスクを解決する自律エージェントです。 SWE-Benchベンチマークで評価された際、DevinはリアルなオープンソースプロジェクトのGitHubの課題を解決するように求められ、その中で13.86%の課題を自己サポートで正しく解決しました。これは先行する最新モデルの1.96%自己サポートおよび4.80%サポートを大幅に上回る成績です。 以下のスレッドでDevinが何をできるかご確認ください。 Your browser does not support the video tag. Devin、最初のAIソフトウェアエンジニア 1/4 Devinは見慣れない技術を使い方を学べます。 Your browser does not support the video tag. 見慣れない技術の使い方を学ぶ 2/4 Devinは成熟したプロダクションリポジトリに貢献できます。 Your browser does not support the video tag. 成熟したプロダクションリポジトリに貢献する 3/4 Devinは自身のAIモデルをトレーニングおよび微調整することができます。 Your browser does not support the video tag. 自身のAIモデルをトレーニングおよび微調整する 4/4 さらに、DevinにはUpworkで実際の仕事を与えてみましたが、それもこなすことができました! Your browser does not support the video tag. Upworkで実際の仕事をこなす Devinの詳細については、こちらのブログ記事をご覧ください: https://cognition-labs.com/blog

3月 15, 2024 · 1 分 · mychatgpt.net

which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

私達は過去2週間、以下のようなさまざまな分野でGPT4、Claude、Mistral、Cohere、Geminiなど、トップモデルをテストしました: 長いコンテキストRAG 遅延時間 推論 コーディング 文章執筆 以下に、市場で6〜7つの最高のLLMモデルとそれらの強み、最適な使用ケースの詳細な説明を示します: 「ビッグボーイ」クラスのモデル GPT-4 Turbo 頼りになる存在です。価格、パフォーマンス、遅延時間のバランスにおいてまだ最高の総合モデルです。私はGPT-4を以下の信頼性のために使用しています: ツール(複雑なスキーマを処理できる) 構造化された出力JSON Opusと共に、GPT-4はもはや明確な優勝者ではありませんが、開発者の経験を考慮すると、まだ強力です。補助API、ドキュメント、GPT、チュートリアルなどのようなものに最適です。使いやすく、99%のタスクではほとんど失敗しません。入力トークン1mあたり30ドルと価格も妥当で、遅延時間も優れています。 Claude-3 Opus 恐らく最も「総合的」なモデルです(GPT-4よりも優れています)。Opusは人間のような出力を取得するために最小限の提示しか必要としません。GPT-4は非常にロボット的になることがありますが、Claudeはこれを修正しています。 Opusは文章の執筆、アイデア出し、一般的な創造性に優れています。この種のタスクではどのモデルよりもOpusを選びます。 コーディングに関しては、GPT-4と同様の能力ですが、APIのためにすべてを交換する価値があるほどではありません(少し高額です)。 長いコンテキスト、PDF、論文: ここではOpusが光ります(Claudeのサイトを通じて)。200kのコンテキストと優れた推論能力により、論文、GitHubリポジトリ、PDFの分析には最適です。 完全なコンテキストで、異なる領域をつなぎ合わせ、LLMでは可能だと思わなかった方法でトピックを深く理解します。唯一の欠点はAPIのコスト(入力1mにつき15ドル+出力1mにつき70ドル)で、本番での使用は難しいです。 Claude-3 Sonnet 評価が低いモデルです。Opusほど頭はよくありませんが、中程度の推論や長いコンテキストには非常に優れた労働力です。私はSonnetを、長文コンテンツの執筆、データのクリーニング、構造化、文書の再構成に使用しています。 ウェブ検索と回答にも優れています(ほとんど幻想することはありません)。GPT-3.5とGPT-4 Turboの間の素晴らしいオプションです。OpusやGPT-4よりも安価で、DIYコードの解釈やデバッグ、その他のタスクには5,000以上のトークンの実行が頻繁に必要な場合にも十分な能力があります。 Gemini Pro 1.5 私が使用した中で最も能力が広く、創造力のあるモデルです。 完璧ほどのリコールを持つ1mのコンテキストは信じられません。Opus、Sonnet、GPT-4をすべてのRAGテストで上回ります。 例えば、私は3つのビデオをアップロードし、利点、欠点、感情、価格(および他のいくつかのフィールド)を持つ構造化されたJSONを要求しました。Gemini 1.5は3つのビデオを区別し、3つすべてのデータの配列を返すことができました。 また、オーディオはないがビデオを処理し、約2時間の映像をほぼ完璧に1分ごとに分割します。一般的に使用できるようになると、この非常に強力なモデルにより、より多くのエージェントワークフローが可能になるでしょう。 Mistral Large(およびMistral Medium) 私はMistral Largeにあまり感心していません。価格が高い(1mの入力トークンあたり24ドル)ですが、素晴らしいモデルです。それでもGPT-4やOpusよりも優れていませんし、価格に値するものではありません。ただし、Mediumはコストパフォーマンスが優れており、実際にはかなり良いです。 MediumはLMSys evalsでLargeと非常に似たスコアを獲得し、Sonnetと同様に評価が低いです。関数呼び出しやコーディングに特に便利であり、GPT-4よりも安価です。Sonnetよりも構造化された出力には優れており、APIも(ツールのためには少し分散している場合もありますが)シンプルです。 欠点は、Mistralモデルがすべて32kのコンテキストであり、Claudeが200kであることです。いずれにせよ、Mediumはしっかりしたモデルです。 「貧乏ボーイ」クラスのモデル Cohere Command R GPT-3.5の代替となる非常に優れた128kのコンテキストです。RAGをサポートしており、長文の取得と出力が得意です。GPT-3.5やMistralとほぼ同じ価格で、長文の「単純なタスク」や複数の繰り返しを必要とする作業に非常に適しています。大きなPDFのチャンカーとして使用すると、再帰的な要約を行うことができます。 FireworksとTogether Mixtral 私はMixtralをかなり使っていますが、驚いたことに、GPT-3.5よりも僅かに良いパフォーマンスを持ち、最速の利用可能なモデルです。 特にFireworksからは、ほぼ300トークン/秒を得ています。これらのモデルは関数呼び出しには適していませんが、10〜30kのコンテキストの要約や抽出には完璧です。100回以上の呼び出しを投げることができ、コンテキストによっては10秒未満で終了します。価格とパフォーマンスの最適化を目指している場合、強くおすすめします。ただし、推論や難しいタスクには使用しないでください。 Groq Mixtral Fireworksと同様ですが、さらに高速です。APIの制限が高くなるまで、ほかに言うことはありません。 要約: 創造的な文章の執筆や研究分析と計画(コーディングも可能なら)にはOpusが適しています。 関数呼び出し、コーディング(安価)および推論が必要な構造化された出力にはGPT-4 Turboが適しています。 長いコンテキストと中程度の推論を必要とするより重いワークロードにはSonnetが適しています。 Mistral Mediumは「GPT-3.5とGPT-4の中間」としての役割を果たします。 Gemini 1.5は非常に能力が広く、クリエイティブな活用が可能ですが、一般的な公開には使用できません。 Mixtral(Fireworks、Groqなど)は、比較的基本的なタスクに対する素早いLLM呼び出しに最適です。 Command Rは、安価でRAGに最適化されたワークロードに適しています。50〜100kのトークンでのパフォーマンスがよく、それに基づいて回答を行うことができます(GPT-3.5やMixtralよりも優れています)。 ここでまとめますが、開発者や製品構築の側面については、時間の関係上議論しきれていません(パフォーマンスを最適化しようとしているため)。長くなりすぎないようにしました。

3月 13, 2024 · 1 分 · mychatgpt.net

7 Websites to create presentations in 60 seconds

PowerPointやGoogleスライドの使用をやめましょう。 60秒でプレゼンテーションを作成するための7つのウェブサイトをご紹介します: Pop AI 磨きがかかったプレゼンテーションやドキュメントを迅速に作成します。 任意のプロンプトを入力し、AIを使用して数分で魅力的なプレゼンテーションを作成できます。 20%割引のクーポンコード「POPAI01」を使用してください。 http://bit.ly/47x7NMl Your browser does not support the video tag. Pop AI Decktopus AI Decktopusは、秒速でプロのプレゼンテーションを作成するためのオールインワンAIスライド生成ツールです。 https://decktopus.com Your browser does not support the video tag. Decktopus AI Gamma Gammaは、ドキュメントを魅力的なプレゼンテーションに迅速に変換し、手動のスライドデザインに比べて時間を節約します。 本当の時間節約アプリです。 http://gamma.app Your browser does not support the video tag. Gamma SlidesAI テキストからプレゼンテーションをAIで生成するためのGoogleスライドのアドオンです。 AIに任意のテキストからプロフェッショナルで魅力的なスライドを作成させましょう。 http://slidesai.io Your browser does not support the video tag. SlidesAI Tome 磨きがかったプレゼンテーションやドキュメントを迅速に作成します。 任意のプロンプトを入力し、AIを使用して数分で魅力的なプレゼンテーションを作成できます。 http://tome.app Your browser does not support the video tag. Tome...

3月 5, 2024 · 1 分 · mychatgpt.net

These 10 websites can replace your Paid PC software (100% FREE)

高価なPCソフトウェアの代金を払う必要はありません。 これらの10のウェブサイトは有料のPCソフトウェアを無料で代替することができます(100%無料)。 Landingsite: 60秒でウェブサイトを作成できます: ホームページの作成と編集 150M+のストック写真 無料のサブドメインと組み込みのSEO トラフィック分析 今すぐ試してみる Your browser does not support the video tag. Landingsite Ezgif: Ezgifはさまざまなことができます: 動画からGIFへの変換 画像変換 画像最適化 リサイズ、回転、トリミング、カット、分割などの編集ツール 今すぐ試してみる Your browser does not support the video tag. Ezgif RemoveBG: 数回のクリックで簡単に画像の背景を削除できます。 今すぐ試してみる Your browser does not support the video tag. RemoveBG Photopea: Adobe PhotoshopやIllustratorを代替する無料のウェブベースの編集ソフトウェアです。 画像の編集 イラストの作成 ウェブ用のデザイン 画像形式の変換 今すぐ試してみる Your browser does not support the video tag. Photopea Nero AI: 高画質のままで写真の拡大や改善、クリーニングができます。 このツールで画像の解像度を向上させます。 今すぐ試してみる Your browser does not support the video tag....

3月 5, 2024 · 1 分 · mychatgpt.net

10 AI tools that'll make you rich in 2024

2024年にあなたを豊かにする10個のAIツール:!10 AI tools that’ll make you rich in 2024 ストック画像を生成する: StockimgAI: チーム向けの素晴らしいAI画像生成ツールです。 簡単にロゴ、ストック画像、ブックカバーを生成できます。 Stockimg.aiでさらに詳しく Your browser does not support the video tag. StockimgAI ウェブサイトを構築する: Durable コーディングがわからない? Durableを使って数秒でウェブサイトを構築します。 ウェブサイト構築にはどんな投資も必要ありません。このツールを使ってビジネスを構築しましょう。 Durable.co Your browser does not support the video tag. Durable あなたの法律チーム: DoNotPay 法律チームがいない? 問題ありません! 世界初のロボット弁護士で法的紛争や定期購読のキャンセルなどを自動化します。 Donotpay.com コーディングパートナー: Codium コーディングのパートナーが必要ですか? CodiumはAIの知識を活かして一緒にコーディングを行います。 codium.com Your browser does not support the video tag. Codium 学術研究者: Consensus 簡単な学術研究にダイブしましょう。 Consensusが学術情報の収集と分析を簡素化します。 consensus.com ビデオ編集者: Descript AIの力でビデオを編集します。 Descriptは高品質なビデオコンテンツの作成のための直感的なプラットフォームを提供します。 descript.com SEOツール: UseStyle Seona AI...

3月 5, 2024 · 1 分 · mychatgpt.net