Devin, the first AI software engineer.

Devinは、SWE-Benchコーディングベンチマークにおいて最新の状態であり、主要なAI企業の実用的なエンジニアリング面接も成功裏にパスし、さらにはUpworkでの実際の仕事も達成しています。 Devinは、独自のシェル、コードエディター、ウェブブラウザを活用してエンジニアリングタスクを解決する自律エージェントです。 SWE-Benchベンチマークで評価された際、DevinはリアルなオープンソースプロジェクトのGitHubの課題を解決するように求められ、その中で13.86%の課題を自己サポートで正しく解決しました。これは先行する最新モデルの1.96%自己サポートおよび4.80%サポートを大幅に上回る成績です。 以下のスレッドでDevinが何をできるかご確認ください。 Your browser does not support the video tag. Devin、最初のAIソフトウェアエンジニア 1/4 Devinは見慣れない技術を使い方を学べます。 Your browser does not support the video tag. 見慣れない技術の使い方を学ぶ 2/4 Devinは成熟したプロダクションリポジトリに貢献できます。 Your browser does not support the video tag. 成熟したプロダクションリポジトリに貢献する 3/4 Devinは自身のAIモデルをトレーニングおよび微調整することができます。 Your browser does not support the video tag. 自身のAIモデルをトレーニングおよび微調整する 4/4 さらに、DevinにはUpworkで実際の仕事を与えてみましたが、それもこなすことができました! Your browser does not support the video tag. Upworkで実際の仕事をこなす Devinの詳細については、こちらのブログ記事をご覧ください: https://cognition-labs.com/blog

<span title='2024-03-15 18:19:17 +0000 UTC'>3月 15, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

VLOGGER

Googleの新しいプロジェクト、VLOGGERは、画像と音声から現実的なキャラクターのスピーチビデオを生成することで、デジタルコミュニケーションを次のレベルに引き上げています。まだ他の一部と比べて実物に近い自然さを実現する途中ではありますが、VLOGGERは革新的なアプローチで際立っています。 VLOGGERとは? VLOGGERは、人物のスナップショットを使用してテキストと音声入力を動的な話者ビデオに変換します。最先端の生成的拡散モデルの力を活用し、静止画像を活気づけるための新しい技術の組み合わせを導入しています。 VLOGGERの主な特徴: **ダイナミックなモーション作成:**高度な確率ベースの人体から3Dモーション拡散モデルを介して、VLOGGERは人間の微妙なニュアンスを捉えてアニメーション化します。 **テキストから画像への進化:**ユニークな拡散ベースのアーキテクチャにより、テキストから画像モデルの領域を拡大し、詳細な時間軸および空間的な操作を可能にします。 VLOGGERの背後にある技術により、さまざまな長さの高品質なビデオが作成されます。これらのビデオは顔や体の表現に対して高い制御度を維持し、先進的かつ柔軟性のあるツールをユーザーに提供します。 VLOGGERの際立った特徴: **汎用性の高さ:**従来のモデルと異なり、VLOGGERは個別のトレーニングを必要とせず、普遍的に適応できます。 **包括的な画像生成:**VLOGGERは単なる顔検出を超え、トリミングの必要なく完全なキャラクタービデオを生成します。 **多様性:**VLOGGERは、全身が見える状況やさまざまなアイデンティティに対応し、包括的な仮想人間の合成を実現します。 これらの進歩により、VLOGGERはさまざまなデジタルプラットフォームでより本物らしくアクセス可能なバーチャル人間の相互作用を実現する道を切り開いています。 Official Website Your browser does not support the video tag. demonstration Official Website

<span title='2024-03-14 10:19:18 +0000 UTC'>3月 14, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

私達は過去2週間、以下のようなさまざまな分野でGPT4、Claude、Mistral、Cohere、Geminiなど、トップモデルをテストしました: 長いコンテキストRAG 遅延時間 推論 コーディング 文章執筆 以下に、市場で6〜7つの最高のLLMモデルとそれらの強み、最適な使用ケースの詳細な説明を示します: 「ビッグボーイ」クラスのモデル GPT-4 Turbo 頼りになる存在です。価格、パフォーマンス、遅延時間のバランスにおいてまだ最高の総合モデルです。私はGPT-4を以下の信頼性のために使用しています: ツール(複雑なスキーマを処理できる) 構造化された出力JSON Opusと共に、GPT-4はもはや明確な優勝者ではありませんが、開発者の経験を考慮すると、まだ強力です。補助API、ドキュメント、GPT、チュートリアルなどのようなものに最適です。使いやすく、99%のタスクではほとんど失敗しません。入力トークン1mあたり30ドルと価格も妥当で、遅延時間も優れています。 Claude-3 Opus 恐らく最も「総合的」なモデルです(GPT-4よりも優れています)。Opusは人間のような出力を取得するために最小限の提示しか必要としません。GPT-4は非常にロボット的になることがありますが、Claudeはこれを修正しています。 Opusは文章の執筆、アイデア出し、一般的な創造性に優れています。この種のタスクではどのモデルよりもOpusを選びます。 コーディングに関しては、GPT-4と同様の能力ですが、APIのためにすべてを交換する価値があるほどではありません(少し高額です)。 長いコンテキスト、PDF、論文: ここではOpusが光ります(Claudeのサイトを通じて)。200kのコンテキストと優れた推論能力により、論文、GitHubリポジトリ、PDFの分析には最適です。 完全なコンテキストで、異なる領域をつなぎ合わせ、LLMでは可能だと思わなかった方法でトピックを深く理解します。唯一の欠点はAPIのコスト(入力1mにつき15ドル+出力1mにつき70ドル)で、本番での使用は難しいです。 Claude-3 Sonnet 評価が低いモデルです。Opusほど頭はよくありませんが、中程度の推論や長いコンテキストには非常に優れた労働力です。私はSonnetを、長文コンテンツの執筆、データのクリーニング、構造化、文書の再構成に使用しています。 ウェブ検索と回答にも優れています(ほとんど幻想することはありません)。GPT-3.5とGPT-4 Turboの間の素晴らしいオプションです。OpusやGPT-4よりも安価で、DIYコードの解釈やデバッグ、その他のタスクには5,000以上のトークンの実行が頻繁に必要な場合にも十分な能力があります。 Gemini Pro 1.5 私が使用した中で最も能力が広く、創造力のあるモデルです。 完璧ほどのリコールを持つ1mのコンテキストは信じられません。Opus、Sonnet、GPT-4をすべてのRAGテストで上回ります。 例えば、私は3つのビデオをアップロードし、利点、欠点、感情、価格(および他のいくつかのフィールド)を持つ構造化されたJSONを要求しました。Gemini 1.5は3つのビデオを区別し、3つすべてのデータの配列を返すことができました。 また、オーディオはないがビデオを処理し、約2時間の映像をほぼ完璧に1分ごとに分割します。一般的に使用できるようになると、この非常に強力なモデルにより、より多くのエージェントワークフローが可能になるでしょう。 Mistral Large(およびMistral Medium) 私はMistral Largeにあまり感心していません。価格が高い(1mの入力トークンあたり24ドル)ですが、素晴らしいモデルです。それでもGPT-4やOpusよりも優れていませんし、価格に値するものではありません。ただし、Mediumはコストパフォーマンスが優れており、実際にはかなり良いです。 MediumはLMSys evalsでLargeと非常に似たスコアを獲得し、Sonnetと同様に評価が低いです。関数呼び出しやコーディングに特に便利であり、GPT-4よりも安価です。Sonnetよりも構造化された出力には優れており、APIも(ツールのためには少し分散している場合もありますが)シンプルです。 欠点は、Mistralモデルがすべて32kのコンテキストであり、Claudeが200kであることです。いずれにせよ、Mediumはしっかりしたモデルです。 「貧乏ボーイ」クラスのモデル Cohere Command R GPT-3.5の代替となる非常に優れた128kのコンテキストです。RAGをサポートしており、長文の取得と出力が得意です。GPT-3.5やMistralとほぼ同じ価格で、長文の「単純なタスク」や複数の繰り返しを必要とする作業に非常に適しています。大きなPDFのチャンカーとして使用すると、再帰的な要約を行うことができます。 FireworksとTogether Mixtral 私はMixtralをかなり使っていますが、驚いたことに、GPT-3.5よりも僅かに良いパフォーマンスを持ち、最速の利用可能なモデルです。 特にFireworksからは、ほぼ300トークン/秒を得ています。これらのモデルは関数呼び出しには適していませんが、10〜30kのコンテキストの要約や抽出には完璧です。100回以上の呼び出しを投げることができ、コンテキストによっては10秒未満で終了します。価格とパフォーマンスの最適化を目指している場合、強くおすすめします。ただし、推論や難しいタスクには使用しないでください。 Groq Mixtral Fireworksと同様ですが、さらに高速です。APIの制限が高くなるまで、ほかに言うことはありません。 要約: 創造的な文章の執筆や研究分析と計画(コーディングも可能なら)にはOpusが適しています。 関数呼び出し、コーディング(安価)および推論が必要な構造化された出力にはGPT-4 Turboが適しています。 長いコンテキストと中程度の推論を必要とするより重いワークロードにはSonnetが適しています。 Mistral Mediumは「GPT-3.5とGPT-4の中間」としての役割を果たします。 Gemini 1.5は非常に能力が広く、クリエイティブな活用が可能ですが、一般的な公開には使用できません。 Mixtral(Fireworks、Groqなど)は、比較的基本的なタスクに対する素早いLLM呼び出しに最適です。 Command Rは、安価でRAGに最適化されたワークロードに適しています。50〜100kのトークンでのパフォーマンスがよく、それに基づいて回答を行うことができます(GPT-3.5やMixtralよりも優れています)。 ここでまとめますが、開発者や製品構築の側面については、時間の関係上議論しきれていません(パフォーマンスを最適化しようとしているため)。長くなりすぎないようにしました。

<span title='2024-03-13 18:19:59 +0000 UTC'>3月 13, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

Melo TTS

Melo TTSで、あなたのCPUでもライティング速度の速いリアルタイムテキスト読み上げ(TTS)を体験してみましょう!🚀 🌍 グローバルに活躍しましょう 英語、スペイン語、フランス語、中国語、日本語、韓国語に対応しています。多様なアプリケーションに最適です! 🔓 オープンソース – Apache 2.0ライセンスの自由な使用が可能です。 🔄 シームレスなコード切り替え – 会話中に中国語と英語を簡単に切り替えましょう。 🍏 Mac対応 – あなたのMacで非常に優れたパフォーマンスを体験してみましょう。 🌐 ハブ上でモデルを見つける – 当社の革新的なモデルに簡単にアクセスできます。 テキストを自然な音声に変換したいですか?Melo TTSを試してみてください! Melo TTSのテクノロジーについて探求してみましょう。ソースコードにはこちらからアクセスできます。 Official Website Your browser does not support the video tag. demonstration Official Website

<span title='2024-03-07 20:18:51 +0000 UTC'>3月 7, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

simplynews.ai

Simply Newsという革新的なアプリをご紹介します。このアプリは、ニュースを消費する方法を根本的に変えています。Simply Newsは、エージェントの力を活用して無数のニュースソースを選りすぐり、あなたの興味に合わせた魅力的なポッドキャストに変換します。 この技術は、AIによる動画生成と比較しても洗練されていると言えます。また、Perplexityなどのプラットフォームを中心に、自動ポッドキャスト作成へのトレンドも広がっています。 Simply Newsの魔法は、以下の4つの手順にあります: ソーター:さまざまなニュースメディアを徹底的に調査し、ポッドキャストのテーマに関連し重要な記事を選びます。 ピッチャー:各記事に対し興味を引く提案文を作成し、それぞれのストーリーのユニークな要素に焦点を当てます。 ジャッジ:提案文を審査し、どの記事を採用するか最終判断を下します。 スクリプター:選ばれた記事に対して細やかなスクリプトを作成し、聴衆にとっての明瞭さと正確さを確保します。 ニュースの未来を体験してみましょう。Simply Newsはこちらからお聴きください。 Official Website Your browser does not support the video tag. demonstration Official Website

<span title='2024-03-06 02:19:10 +0000 UTC'>3月 6, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net