オープンソース

VLOGGER

Googleの新しいプロジェクト、VLOGGERは、画像と音声から現実的なキャラクターのスピーチビデオを生成することで、デジタルコミュニケーションを次のレベルに引き上げています。まだ他の一部と比べて実物に近い自然さを実現する途中ではありますが、VLOGGERは革新的なアプローチで際立っています。 VLOGGERとは？ VLOGGERは、人物のスナップショットを使用してテキストと音声入力を動的な話者ビデオに変換します。最先端の生成的拡散モデルの力を活用し、静止画像を活気づけるための新しい技術の組み合わせを導入しています。 VLOGGERの主な特徴： **ダイナミックなモーション作成：**高度な確率ベースの人体から3Dモーション拡散モデルを介して、VLOGGERは人間の微妙なニュアンスを捉えてアニメーション化します。 **テキストから画像への進化：**ユニークな拡散ベースのアーキテクチャにより、テキストから画像モデルの領域を拡大し、詳細な時間軸および空間的な操作を可能にします。 VLOGGERの背後にある技術により、さまざまな長さの高品質なビデオが作成されます。これらのビデオは顔や体の表現に対して高い制御度を維持し、先進的かつ柔軟性のあるツールをユーザーに提供します。 VLOGGERの際立った特徴： **汎用性の高さ：**従来のモデルと異なり、VLOGGERは個別のトレーニングを必要とせず、普遍的に適応できます。 **包括的な画像生成：**VLOGGERは単なる顔検出を超え、トリミングの必要なく完全なキャラクタービデオを生成します。 **多様性：**VLOGGERは、全身が見える状況やさまざまなアイデンティティに対応し、包括的な仮想人間の合成を実現します。これらの進歩により、VLOGGERはさまざまなデジタルプラットフォームでより本物らしくアクセス可能なバーチャル人間の相互作用を実現する道を切り開いています。 Official Website Your browser does not support the video tag. demonstration Official Website

Melo TTS

Melo TTSで、あなたのCPUでもライティング速度の速いリアルタイムテキスト読み上げ（TTS）を体験してみましょう！🚀 🌍 グローバルに活躍しましょう英語、スペイン語、フランス語、中国語、日本語、韓国語に対応しています。多様なアプリケーションに最適です！ 🔓 オープンソース – Apache 2.0ライセンスの自由な使用が可能です。 🔄 シームレスなコード切り替え – 会話中に中国語と英語を簡単に切り替えましょう。 🍏 Mac対応 – あなたのMacで非常に優れたパフォーマンスを体験してみましょう。 🌐 ハブ上でモデルを見つける – 当社の革新的なモデルに簡単にアクセスできます。テキストを自然な音声に変換したいですか？Melo TTSを試してみてください！ Melo TTSのテクノロジーについて探求してみましょう。ソースコードにはこちらからアクセスできます。 Official Website Your browser does not support the video tag. demonstration Official Website

NavAIGuide-TS

革新的なRabbit R1を発見してください。このAIハードウェアは、画期的なGPT-4Vビジュアルモデルの活用で注目を集めています。この素晴らしいプロジェクトは、大規模な言語ビジュアルモデルを活用して、モバイル電話やそのアプリケーションをシームレスに制御することを目指しています。このプロジェクトは、モバイル電話の自動テストツールであるAppiumを巧みに利用し、言語モデルとスマートフォンの間で複雑な相互作用を実現しています。しかしこの環境のセットアップの複雑さについては注意が必要です。これには高度なモバイル開発の専門知識と開発証明書が必要であり、初心者には挑戦的なものです。セットアップのハードルにもかかわらず、これは称賛に値する取り組みです。興味を持たれた方は、NavAIGuide-TS GitHubページでプロジェクトをさらに探求し、Mediumで詳細な議論を深めてください。私たちがスマートフォンとのやり取り方法を革新する想像してみてください。NavAIGuideとGPT-4Vの能力により、モバイルAIエージェントの未来は有望であり、伝統的なプラグインやアシスタントが不要になる可能性があります。iOS 17でのこの汎用モバイルAIエージェントの機能をハイライトした魅力的なデモで、最先端の統合を体験してください。 Official Website Your browser does not support the video tag. demonstration Official Website

Orama

Oramaの力を発見しましょう。これはTypeScriptで作られたオープンソースの検索エンジンです。この革新的なツールは、フルテキスト検索とベクトル検索の両方の機能を提供し、堅牢な検索機能を求める開発者にとって理想的な選択肢です。Oramaを使用すると、外部データベースの必要なしで始めることができます。オプションでデータをファイルに保存して永続化するため、インメモリ検索をサポートしています。さらに、Oramaのクラウドサービスを利用すると、自己展開の手間なしでグローバルな検索機能を利用することができます。Oramaについて詳しく調べ、今日から検索機能を向上させましょう！ Oramaコード: GitHub ドキュメント: Oramaドキュメントクラウドサービス: Oramaクラウド Official Website Official Website

ZETA editing

Mac、Windows、およびLinux向けの便利な1クリックランチャーを通じて利用できる革命的なZETAオーディオエディターで、オーディオ編集の体験を高めましょう。@hila8manorと@linoy_tsabanの取り組みにより、このツールはもはやローカル実行に30秒の制限がなくなり、すべてのオーディオクリップで延長された編集セッションが可能になりました。 ZETAという先端技術でオーディオ編集の未来に飛び込んでください。この画期的な機能は、オーディオの変更にddpm反転手法を組み込んだ最初のものとして立ち上がっています。この驚くべき機能により、音楽のジャンルをスムーズに切り替えたり楽器を置き換えたりするだけでなく、任意のトラックからボーカルを取り除くことも可能です。「DDPM反転を使用したゼロショット非監督およびテキストベースのオーディオ編集」はTechnion - Israel Institute of Technologyによって披露された画期的な手法を紹介しています。この研究では、事前学習モデル上でのDDPM反転を使用したゼロショット編集が強調され、信号の変更に事前例を必要としない世界を開放しています。これらの進歩は元々画像編集領域に触発されたもので、ユーザーにテキストベースの編集とオーディオを操作する新しい非監督の方法を提供しています。これにより、楽器の参加度合いやメロディアドリブが調整できるなど、音楽編集の新たな時代を迎えることができます。興味を持った方には、ソースコードと関連する研究論文がこの革新的な編集ツールの背後の技術についてさらに詳しく説明されています。ソースコードはこちらからご覧いただけます。完全な論文はこちらからご覧いただけます。オーディオ編集方法を革新したいですか？ZETAを使って今日から旅を始めましょう。Hugging Face: ZETA Audio Editor で始まりましょう。 Official Website Your browser does not support the video tag. demonstration Your browser does not support the video tag. Some examples Official Website