mychatgpt.netへようこそ。ここは最新のAI製品情報を取得するためのサイトです。我々は様々なAI製品の最新の紹介を提供し、便利なカテゴリー分けを行っています。 我々のチームはAI技術に熱心な専門家たちで構成されており、最新のAI製品と技術の研究と共有に専念しています。我々の記事は自然言語処理、機械学習、深層学習、コンピュータビジョンなど、AI製品の幅広い範囲をカバーしています。 我々のウェブサイトは単なる情報提供プラットフォーム以上のものを目指しています。我々は交流と学習のコミュニティを構築することを望んでいます。我々は読者が記事の下にコメントを残し、自分たちの考えや洞察を共有することを奨励しています。また、興味のあるAI製品を評価するための評価システムも提供しています。 我々はあなたの参加を通じて、活気あるAIコミュニティの構築を楽しみにしています。何か質問や提案がある場合は、お気軽にお問い合わせページから我々に連絡してください。 再度、あなたの訪問に感謝します。mychatgpt.netであなたが必要とする情報を見つけることができることを願っています。 お問い合わせ 以下の方法で私たちに連絡を取ることができます: メール:[email protected]にメールを送ってください。 コメントセクション:このページの下部にあるコメント欄にコメントを残してください。Facebookなどのサービスを通じてログインしていただくと、私たちがあなたに連絡を取ることができます。 私たちのウェブサイトが気に入っていただけたら、以下の方法でサポートしていただけると大変感謝いたします: 私たちのウェブサイトをブックマークに追加:私たちのウェブサイトをブックマークに追加してください。 友人と共有:Facebook、Twitter、Instagram、Telegram、Redditなどのソーシャルメディアを通じて、友人と私たちのウェブサイトを共有してください。 私たちは、より良いサービスを提供するために引き続き努力してまいります。ご支援いただきありがとうございます!
Devin, the first AI software engineer.
Devinは、SWE-Benchコーディングベンチマークにおいて最新の状態であり、主要なAI企業の実用的なエンジニアリング面接も成功裏にパスし、さらにはUpworkでの実際の仕事も達成しています。 Devinは、独自のシェル、コードエディター、ウェブブラウザを活用してエンジニアリングタスクを解決する自律エージェントです。 SWE-Benchベンチマークで評価された際、DevinはリアルなオープンソースプロジェクトのGitHubの課題を解決するように求められ、その中で13.86%の課題を自己サポートで正しく解決しました。これは先行する最新モデルの1.96%自己サポートおよび4.80%サポートを大幅に上回る成績です。 以下のスレッドでDevinが何をできるかご確認ください。 Your browser does not support the video tag. Devin、最初のAIソフトウェアエンジニア 1/4 Devinは見慣れない技術を使い方を学べます。 Your browser does not support the video tag. 見慣れない技術の使い方を学ぶ 2/4 Devinは成熟したプロダクションリポジトリに貢献できます。 Your browser does not support the video tag. 成熟したプロダクションリポジトリに貢献する 3/4 Devinは自身のAIモデルをトレーニングおよび微調整することができます。 Your browser does not support the video tag. 自身のAIモデルをトレーニングおよび微調整する 4/4 さらに、DevinにはUpworkで実際の仕事を与えてみましたが、それもこなすことができました! Your browser does not support the video tag. Upworkで実際の仕事をこなす Devinの詳細については、こちらのブログ記事をご覧ください: https://cognition-labs.com/blog
VLOGGER
Googleの新しいプロジェクト、VLOGGERは、画像と音声から現実的なキャラクターのスピーチビデオを生成することで、デジタルコミュニケーションを次のレベルに引き上げています。まだ他の一部と比べて実物に近い自然さを実現する途中ではありますが、VLOGGERは革新的なアプローチで際立っています。 VLOGGERとは? VLOGGERは、人物のスナップショットを使用してテキストと音声入力を動的な話者ビデオに変換します。最先端の生成的拡散モデルの力を活用し、静止画像を活気づけるための新しい技術の組み合わせを導入しています。 VLOGGERの主な特徴: **ダイナミックなモーション作成:**高度な確率ベースの人体から3Dモーション拡散モデルを介して、VLOGGERは人間の微妙なニュアンスを捉えてアニメーション化します。 **テキストから画像への進化:**ユニークな拡散ベースのアーキテクチャにより、テキストから画像モデルの領域を拡大し、詳細な時間軸および空間的な操作を可能にします。 VLOGGERの背後にある技術により、さまざまな長さの高品質なビデオが作成されます。これらのビデオは顔や体の表現に対して高い制御度を維持し、先進的かつ柔軟性のあるツールをユーザーに提供します。 VLOGGERの際立った特徴: **汎用性の高さ:**従来のモデルと異なり、VLOGGERは個別のトレーニングを必要とせず、普遍的に適応できます。 **包括的な画像生成:**VLOGGERは単なる顔検出を超え、トリミングの必要なく完全なキャラクタービデオを生成します。 **多様性:**VLOGGERは、全身が見える状況やさまざまなアイデンティティに対応し、包括的な仮想人間の合成を実現します。 これらの進歩により、VLOGGERはさまざまなデジタルプラットフォームでより本物らしくアクセス可能なバーチャル人間の相互作用を実現する道を切り開いています。 Official Website Your browser does not support the video tag. demonstration Official Website
which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini
私達は過去2週間、以下のようなさまざまな分野でGPT4、Claude、Mistral、Cohere、Geminiなど、トップモデルをテストしました: 長いコンテキストRAG 遅延時間 推論 コーディング 文章執筆 以下に、市場で6〜7つの最高のLLMモデルとそれらの強み、最適な使用ケースの詳細な説明を示します: 「ビッグボーイ」クラスのモデル GPT-4 Turbo 頼りになる存在です。価格、パフォーマンス、遅延時間のバランスにおいてまだ最高の総合モデルです。私はGPT-4を以下の信頼性のために使用しています: ツール(複雑なスキーマを処理できる) 構造化された出力JSON Opusと共に、GPT-4はもはや明確な優勝者ではありませんが、開発者の経験を考慮すると、まだ強力です。補助API、ドキュメント、GPT、チュートリアルなどのようなものに最適です。使いやすく、99%のタスクではほとんど失敗しません。入力トークン1mあたり30ドルと価格も妥当で、遅延時間も優れています。 Claude-3 Opus 恐らく最も「総合的」なモデルです(GPT-4よりも優れています)。Opusは人間のような出力を取得するために最小限の提示しか必要としません。GPT-4は非常にロボット的になることがありますが、Claudeはこれを修正しています。 Opusは文章の執筆、アイデア出し、一般的な創造性に優れています。この種のタスクではどのモデルよりもOpusを選びます。 コーディングに関しては、GPT-4と同様の能力ですが、APIのためにすべてを交換する価値があるほどではありません(少し高額です)。 長いコンテキスト、PDF、論文: ここではOpusが光ります(Claudeのサイトを通じて)。200kのコンテキストと優れた推論能力により、論文、GitHubリポジトリ、PDFの分析には最適です。 完全なコンテキストで、異なる領域をつなぎ合わせ、LLMでは可能だと思わなかった方法でトピックを深く理解します。唯一の欠点はAPIのコスト(入力1mにつき15ドル+出力1mにつき70ドル)で、本番での使用は難しいです。 Claude-3 Sonnet 評価が低いモデルです。Opusほど頭はよくありませんが、中程度の推論や長いコンテキストには非常に優れた労働力です。私はSonnetを、長文コンテンツの執筆、データのクリーニング、構造化、文書の再構成に使用しています。 ウェブ検索と回答にも優れています(ほとんど幻想することはありません)。GPT-3.5とGPT-4 Turboの間の素晴らしいオプションです。OpusやGPT-4よりも安価で、DIYコードの解釈やデバッグ、その他のタスクには5,000以上のトークンの実行が頻繁に必要な場合にも十分な能力があります。 Gemini Pro 1.5 私が使用した中で最も能力が広く、創造力のあるモデルです。 完璧ほどのリコールを持つ1mのコンテキストは信じられません。Opus、Sonnet、GPT-4をすべてのRAGテストで上回ります。 例えば、私は3つのビデオをアップロードし、利点、欠点、感情、価格(および他のいくつかのフィールド)を持つ構造化されたJSONを要求しました。Gemini 1.5は3つのビデオを区別し、3つすべてのデータの配列を返すことができました。 また、オーディオはないがビデオを処理し、約2時間の映像をほぼ完璧に1分ごとに分割します。一般的に使用できるようになると、この非常に強力なモデルにより、より多くのエージェントワークフローが可能になるでしょう。 Mistral Large(およびMistral Medium) 私はMistral Largeにあまり感心していません。価格が高い(1mの入力トークンあたり24ドル)ですが、素晴らしいモデルです。それでもGPT-4やOpusよりも優れていませんし、価格に値するものではありません。ただし、Mediumはコストパフォーマンスが優れており、実際にはかなり良いです。 MediumはLMSys evalsでLargeと非常に似たスコアを獲得し、Sonnetと同様に評価が低いです。関数呼び出しやコーディングに特に便利であり、GPT-4よりも安価です。Sonnetよりも構造化された出力には優れており、APIも(ツールのためには少し分散している場合もありますが)シンプルです。 欠点は、Mistralモデルがすべて32kのコンテキストであり、Claudeが200kであることです。いずれにせよ、Mediumはしっかりしたモデルです。 「貧乏ボーイ」クラスのモデル Cohere Command R GPT-3.5の代替となる非常に優れた128kのコンテキストです。RAGをサポートしており、長文の取得と出力が得意です。GPT-3.5やMistralとほぼ同じ価格で、長文の「単純なタスク」や複数の繰り返しを必要とする作業に非常に適しています。大きなPDFのチャンカーとして使用すると、再帰的な要約を行うことができます。 FireworksとTogether Mixtral 私はMixtralをかなり使っていますが、驚いたことに、GPT-3.5よりも僅かに良いパフォーマンスを持ち、最速の利用可能なモデルです。 特にFireworksからは、ほぼ300トークン/秒を得ています。これらのモデルは関数呼び出しには適していませんが、10〜30kのコンテキストの要約や抽出には完璧です。100回以上の呼び出しを投げることができ、コンテキストによっては10秒未満で終了します。価格とパフォーマンスの最適化を目指している場合、強くおすすめします。ただし、推論や難しいタスクには使用しないでください。 Groq Mixtral Fireworksと同様ですが、さらに高速です。APIの制限が高くなるまで、ほかに言うことはありません。 要約: 創造的な文章の執筆や研究分析と計画(コーディングも可能なら)にはOpusが適しています。 関数呼び出し、コーディング(安価)および推論が必要な構造化された出力にはGPT-4 Turboが適しています。 長いコンテキストと中程度の推論を必要とするより重いワークロードにはSonnetが適しています。 Mistral Mediumは「GPT-3.5とGPT-4の中間」としての役割を果たします。 Gemini 1.5は非常に能力が広く、クリエイティブな活用が可能ですが、一般的な公開には使用できません。 Mixtral(Fireworks、Groqなど)は、比較的基本的なタスクに対する素早いLLM呼び出しに最適です。 Command Rは、安価でRAGに最適化されたワークロードに適しています。50〜100kのトークンでのパフォーマンスがよく、それに基づいて回答を行うことができます(GPT-3.5やMixtralよりも優れています)。 ここでまとめますが、開発者や製品構築の側面については、時間の関係上議論しきれていません(パフォーマンスを最適化しようとしているため)。長くなりすぎないようにしました。
SoraHub
Soraが生成したビデオやプロンプトで最新のAIパワーを活かした創造物に飛び込んでください。簡単に使用できる1つのプラットフォームで創造性の頂点を発見してください。 Official Website Official Website