GLIGEN

GLIGENに直感的なグラフィックインターフェースの不足に不満を抱いたRedditの役員は、自ら問題に取り組み、ユーザーフレンドリーなプラットフォームを作成しました。このプラットフォームによって、正確な仕様で画像を作成する力があなたに与えられます。 指向性のある構図: 被写体の配置: 猫のような被写体を、舞台の中央や横に正確に配置してください。猫を前面に配置して主役にするか、ビジュアルストーリーに小さな役割を与えるためにリサイズしてください。 カスタマイズ可能な要素: 銀色の目を引く宇宙服や月の荒野など、最も細かなディテールを選択してください。夜空の星の密度さえも指示することができます。 GLIGEN―クリエイティブコントロールパネル: テキストから画像への変換: 言葉から始まり、GLIGENが物体やシーンを深い正確さで捉えた画像を作り出す過程を見てください。 幾何学的な正確さ: ジオメトリックなレイアウトコントロールを使用して、大きさや位置、オブジェクト間の相互作用を確立することで、通常から逸脱します。 一貫性の向上: 視覚的な一貫性と正確さを確保するために、要素の具体的な配置を設定することで、GLIGENが効率化します。 創造性と柔軟性の開放: GLIGENを使用することで、あなたがアーティストとなります。テキストの説明が種を植え付け、ジオメトリックなレイアウトを通じてあなたの入力がアートを完成させます。 画像生成の未来を垣間見て、GLIGENデモでGLIGENをお試しください。あなたの創造力がお待ちしています。 Official Website Your browser does not support the video tag. see the demo here GLIGEN: Open-Set Grounded Text-to-Image Generation (CVPR 2023, Demo Video) Official Website

<span title='2024-02-19 04:18:58 +0000 UTC'>2月 19, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

ConsiStory

ConsiStoryを使って、創造力を解き放ち、追加のトレーニングなしで統一された視覚的なストーリーを作り出す画像生成プラットフォームです。テキストプロンプトのシーケンスを入力してストーリーテリングを効率化し、物語性豊かな場面ごとのイメージを視覚的に一体化させることができます。 例えば、あなたが魔法使いの冒険を描く叙事詩を執筆しているとしましょう。ConsiStoryを使えば、以下のような場面の説明を入力するだけで、その冒険の旅を視覚化することができます。 「月明かりの森の中で、古代の城跡に立つ魔法使い」 「クロークを身にまとった魔法使いが、人ごみの市場を行き交う謎めいた人物の後を追う」 「高い崖の上で、夕日の壮大な景色の中でドラゴンと対峙する」 ConsiStoryの特徴は次の通りです: テーマの統一性:全てのイメージにおいて魔法使いが一貫して描かれ、瞬時に識別できる特徴が保たれます。 シーンの多様性:テーマの統一性を保ちつつ、バラエティに富んだ背景と状況が描かれ、物語性を豊かにします。 ストーリーの統合:イメージをつなぎ合わせることでストーリーの一貫性を視覚的に確保し、各シーンを大きな物語の一部として結びつけます。 主なメリット: トレーニング不要:事前に訓練されたモデルにより、追加のトレーニングなしで迅速かつ一貫したイメージ生成が可能です(1枚あたり約10秒)。 ダイナミックなテーマとパーソナライズ:多様なテーマと個別に設定できる共通のオブジェクトをトレーニングなしで生成できます。 ControlNetとの統合:姿勢制御により一貫したキャラクター配置が可能で、精度が向上します。 ConsiStoryの拡張機能には、各イメージのユニークさを保つ Seed Variation と、視覚的な物語内で包括的な表現を反映する Ethnic Diversity が含まれています。 ConsiStoryの動作原理は次の通りです: 対象駆動の共有注意:視覚的なテーマの統一を保証します。 対応ベースの特徴注入:イメージ間のテーマの連続性を促進します。 効率的なアルゴリズム最適化:複雑なトレーニングを回避し、高速なイメージ生成を確保します。 戦略的なレイアウトの多様化:テーマの一貫性を保ちつつ、変異するレイアウトでイメージを生成します。 ConsiStoryは、芸術家、著者、ゲームデザイナーが一貫性のある高品質なイメージを迅速に生成し、魅力的な物語を描く力を与えます。GitHubでのリリースにご期待ください。詳細な技術についてはarXivの論文をご覧ください。 Official Website Your browser does not support the video tag. demo video Official Website

<span title='2024-02-17 00:23:42 +0000 UTC'>2月 17, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

openai-Sora

次世代のテキストから動画へ変換するモデル、ソラにお会いください。ソラは複雑なシーン、流れるようなカメラの動き、そして生命に満ちたキャラクターを備えた、一分間のダイナミックなビデオにあなたの言葉を変えます。 ソラがOpenAIのオファリングで輝く前に、厳格な安全対策が行われています。専門のレッドチーマーがモデルに挑戦し、誤情報、憎悪表現、バイアスなどの弱点を詳細に検証し、責任ある展開を確保します。 テキストから鮮やかな60秒のビデオを作成します。 高精細なシーンと表現豊かなキャラクターを描画します。 特殊家の積極的な安全チェックにより、誤用に対抗します。 Official Website Your browser does not support the video tag. Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. Your browser does not support the video tag. Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field....

<span title='2024-02-15 20:18:42 +0000 UTC'>2月 15, 2024</span>&nbsp;·&nbsp;2 分&nbsp;·&nbsp;mychatgpt.net

Boximator

バイトダンスによる画期的なビデオ制御技術「Boximator」をご紹介します。これは、デュアルボックス制約を介して、ビデオ要素の軌道と寸法を前例のない精度で指示できるツールです。 Boximatorの仕組み: デュアルボックス制約: 「ハードボックス」を使用してオブジェクトの正確な開始位置や終了位置、サイズを特定し、明確な構成フレームワークを確立します。 「ソフトボックス」を適用することで、柔軟な移動の境界線を示し、オブジェクトを確立されたハードボックスの点の間でスムーズに誘導します。 自己学習アプローチ: Boximatorの自己追跡能力により、システムは直感的にオブジェクトの移動を追跡し、フレームごとのユーザーの入力なしで事前に定義された動きを滑らかに表現します。 ビデオ合成 101: ユーザーの入力とBoximatorの予測力の相乗効果により、自然でユーザー定義のオブジェクトの遷移を備え、ビジュアルストーリーテリングの目的を達成したビデオが作成されます。 実用例: 例えば、子猫がテーブルを飛び越える映像を作成するとします: 子猫が静かに始まるテーブルの一方の端に「ハードボックス」を設定します。 ジャンプの目的地を示すため、反対側のテーブルの「ハードボックス」を配置します。 「ソフトボックス」を使用して、飛び越える弧を表現し、リアルな軌道を確保します。 Boximatorに飛び越えるアニメーションを作成させ、必要に応じて追加のソフトボックスでリアリズムを向上させます。 基本的なビデオモデルの重みを保持しながら、Boximatorはオブジェクトの動きを制御し、元の品質と知識を保持することで、より幅広い制御と応用範囲を提供します。 幅広い統合: プラグインとして設計されたBoximatorは、多様なビデオ拡散モデルにシームレスに適応し、さまざまな創造的な課題に役立ちます。 完全なリサーチはこちらでご確認いただけます。GitHubのリリースもお楽しみに! Official Website Boximator: Bring Fine-grained Motion Controllability to Video Synthesis | Bytedance Research Official Website

<span title='2024-02-15 02:19:20 +0000 UTC'>2月 15, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net

OS-Copilot

OS-Copilotをご紹介します。これは革新的なインテリジェントエージェントフレームワークであり、コンピュータ上のさまざまな複雑なタスクを自動化します。上海AI研究所、華東師範大学、プリンストン大学、香港大学など、主要な学術機関との協力によって開発されたOS-Copilotは、AIによるOSインタラクションの大躍進を表しています。 その核には、自己改善と学習の能力があります。OS-Copilotは、ファイル管理、データ処理、環境設定の構成などに優れており、デジタルニーズにとってのスイスアーミーナイフと考えてください。マルチメディアタスクからウェブナビゲーション、サードパーティのアプリケーションとの対話まで、このフレームワークの能力は多岐にわたります。 FRIDAYという名前の仮想エージェントに出会いましょう。FRIDAYはOS-Copilot上に構築され、視覚コンテンツ、テキスト、Excelシートのメモなどから学習します。人間が新たな能力を身につけるように、FRIDAYのスキルセットも実践で拡大していきます。このスマートエージェントはLinuxやMacOSのインターフェースをシームレスに操作し、Pythonスクリプト、ターミナルコマンド、APIの相互作用を巧みに組み合わせます。 FRIDAYの主な特徴: 進化する知能: FRIDAYは自己教育を行い、新しいアプリケーションをマスターし、タスクへのアプローチを緻密化します。 多機能性: 自動化されたコーディングからマルチメディア編集、ウェブブラウジングまで、FRIDAYはさまざまなコンピュータベースのタスクに簡単に対応します。 OSレベルのマスタリー: FRIDAYはファイル、ターミナル、アプリケーションに深く関与し、制御と管理を行います。 サードパーティとのシナジー: FRIDAYはMicrosoft OfficeやIDEのようなさまざまなアプリケーションと連携し、ツールの機能を向上させます。 ワークフローの自動化: データ収集から報告書の作成まで、ワークフローの効率化が革新されます。 カスタマイズ性: FRIDAYを独自のタスクに合わせてカスタマイズし、時間とともにより効率的に実行する方法を学んでいく様子をご覧ください。 適応性: FRIDAYは新たな課題に立ち向かい、幅広い計算タスクに対応し続けます。 生産性の向上: ルーティンから複雑なワークフローの自動化に焦点を当て、FRIDAYはユーザーの生産性と効率を向上させます。 FRIDAYの機能は次のように広がります: ファイルの整理や環境設定など、日常の雑用を効率化します。 Excelなどのアプリケーションでの洗練されたデータ分析と可視化を行います。 ピッチパーフェクトなプレゼンテーションからビデオ編集まで、マルチメディアコンテンツを制作します。 ウェブのナビゲーションと情報の総合を迅速に行います。 コードスニペットの生成やスクリプトの正確な実行を行います。 コミュニケーションや計画ツールの管理を容易にし、オンラインでのプレゼンスを最新の状態に保ちます。 FRIDAYがあなたのコンピューティング体験を変革する方法を探索してください。ソースコードと技術についての洞察について詳しく説明した論文を以下でご覧いただけます: ソースコード: https://github.com/OS-Copilot/FRIDAY 論文: https://arxiv.org/abs/2402.07456 Official Website Your browser does not support the video tag. Video introduction Official Website

<span title='2024-02-15 00:18:59 +0000 UTC'>2月 15, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net