最新人工智能

GLIGEN

对于GLIGEN缺乏直观的图形界面感到不满的一位Reddit高管亲自出马，创建了一个用户友好的平台，让您能够按照精确的规格制作图像。您指尖上的功能： **定向构图：**将您的主题（例如猫）放置在您想要的位置——正中舞台或者侧边。调整大小，使您的猫置于中心位置，或者让它在您的视觉故事中扮演一个小角色。 **可定制的元素：**选择最微小的细节，从太空服的颜色——引人注目的银色，到月球的崎岖地形。甚至可以决定您夜空中星星的密度。 GLIGEN——您的创意控制面板： **文字转图像：**从文字开始，观察GLIGEN如何以高度准确的方式生成对象到场景的图像。 **几何精度：**通过几何布局控制，对每个细节进行调整，打破常规，设定对象之间的大小、位置和交互。 **增强一致性：**通过设置元素的具体位置，确保生成的图像与您的想象一致——GLIGEN简化了一致性和准确性。 **释放创造力与灵活性：**在GLIGEN中，您就是艺术家；文字描述种下种子，而您通过几何布局的输入培育和完善艺术，让其充分绽放。了解图像生成的未来，并亲自尝试GLIGEN——您的创造力正在等待：GLIGEN Demo。 Official Website Your browser does not support the video tag. see the demo here GLIGEN: Open-Set Grounded Text-to-Image Generation (CVPR 2023, Demo Video) Official Website

ConsiStory

释放你的创造力，使用ConsiStory，一个高级图像生成器，无需额外训练，打造出一个无缝的视觉叙事。通过输入一系列文本提示来简化你的故事叙述，观察它将你的故事的每一章生动地转化为一系列视觉上连贯的图像，每一幕各具特色，但风格统一。想象一下，你正在构思一个关于巫师冒险的史诗故事。使用ConsiStory，通过输入不同阶段的描述，将这个史诗般的旅程可视化： “在古老的城堡废墟中，一个魔术师手持魔杖，在月光照耀下的森林中。” “穿着斗篷，魔术师在熙熙攘攘、摊位鳞次栉比的市场中跟踪一个神秘人物。” “在高耸的悬崖上与一条龙对峙，背景是壮丽的日落。” 以下是ConsiStory的独特之处：主题完整性：在所有图像中始终描绘出你的魔术师，保持可辨认的特征，以便立即识别。场景多样性：尽管主题完整性，每个场景都是独一无二的，拥有不同的背景和情节，丰富你的叙事。故事整合：通过链接图像，视觉上确保你的故事连贯性，使每个场景成为整体叙述的一部分。主要优势：无需训练：预训练模型可快速、一致地创建图像，无需进一步训练，每张图像约10秒钟。动态主题和个性化：生成具有多个一致主题和个性化常见对象的集合，无需训练。与ControlNet集成：通过姿势控制实现一致的角色定位，增加精确性。 Enhanced ConsiStory功能包括种子变异，使每个图像都具有独特性，以及种族多样性，在你的视觉故事中反映包容性。 ConsiStory的工作原理：基于主题的共享注意力：确保视觉主题的统一性。基于对应特征的注入：促进图像间主题的连贯性。有效的算法优化：确保快速图像生成，避免复杂的训练过程。策略布局多样化：生成具有不同布局的图像，保持主题一致性。 ConsiStory赋予艺术家、作家和游戏设计师迅速生成一系列连贯、高质量的图像的能力，这些图像能够吸引人并讲述故事。请密切关注GitHub上的发布，并深入了解开源论文中的技术细节。 Official Website Your browser does not support the video tag. demo video Official Website

openai-Sora

认识 Sora，这是一种前沿的文本到视频转换模型，可以将您的文字转化为动态的、一分钟长的视频，包括精心设计的场景、流畅的摄像机运动以及充满生命力的角色。在 Sora 在 OpenAI 的产品中展现出色之前，各种严格的安全措施已被采取。专业的红队成员对该模型进行挑战，对其进行细致的审查以发现可能存在的错误信息、仇恨言论和偏见，以确保负责任地部署。利用文本创建生动的 60 秒视频。高度详细的场景和富有表现力的角色。由专家进行积极的安全检查，以防止滥用。 Official Website Your browser does not support the video tag. Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. Your browser does not support the video tag. Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field....

Boximator

发掘字节跳动的开创性视频控制技术Boximator，这是一种工具，通过双重框约束，让您以前所未有的精确度来指定视频元素的轨迹和尺寸。 Boximator的工作原理：双重框约束：使用硬框来确定物体的确切起始和结束位置以及大小，建立清晰的构图框架。使用软框来提示灵活的移动边界，使物体在已确定的硬框点之间平滑移动。自学习方法： Boximator的自我跟踪能力使系统可以直观地跟随物体的运动，确保事先定义的动作无缝地表达，无需逐帧用户输入。视频合成 101：用户输入和Boximator的预测能力的协同使视频展现出自然、用户定义的物体转换，并达到视觉叙事的目标。实际应用：举个例子，想象制作一个视频，其中小猫跃过一张桌子：使用硬框在一端的桌子上标记小猫平静的起点。在对面的桌子上设置一个硬框来定义跳跃的目标。使用软框来描述跳跃的弧线，确保贴近真实的轨迹。让Boximator来动画化跳跃，并使用额外的软框进行微调，以获得更逼真的效果。总的来说，通过结合硬框和软框，用户可以获得对视频对象运动的强大控制能力，适应从简单跳跃到复杂场景的各种情况。增强基础模型能力： Boximator在保持基础视频模型权重的同时，增强了物体运动控制能力，同时保留了原始的质量和知识，这种融合提供了更多的控制和应用广度。广泛的集成：作为一个插件，Boximator可以无缝地适应各种视频传播模型，扩大了在各种创意挑战中的实用性。点击这里查看完整的研究链接。敬请期待GitHub发布！ Official Website Boximator: Bring Fine-grained Motion Controllability to Video Synthesis | Bytedance Research Official Website

OS-Copilot

发现OS-Copilot，一个创新的智能代理框架，可以自动化计算机上的各种复杂任务。OS-Copilot是由上海人工智能实验室、华东师范大学、普林斯顿大学和香港大学等领先的学术机构合作开发的，代表了AI驱动的操作系统交互的一次飞跃。这个框架的核心是自我改进和学习能力。OS-Copilot在文件管理、数据处理、配置环境设置等方面表现出色，可以将其视为您数字需求的瑞士军刀。从多媒体任务到网络导航和与第三方应用的交互，该框架的能力广泛而全面。遇见FRIDAY，这是基于OS-Copilot构建的虚拟代理，可以从图像内容、文本甚至Excel表格中的涂鸦中学习。就像人类习得新的能力一样，FRIDAY的技能随着实践而不断扩展。这个智能代理可以无缝地操作Linux和MacOS界面，灵活地结合Python脚本、终端命令和API交互，准确无误地执行任务。 FRIDAY的主要特点：不断演进的智能： FRIDAY自我教育，掌握新的应用程序并调优任务处理方法。多样化的功能：从自动编码到多媒体编辑和网页浏览，FRIDAY轻松应对各种基于计算机的任务。操作系统级别的掌握：它深入操作系统，与文件、终端和应用程序交互，实现控制和管理。与第三方应用的协同： FRIDAY与各种应用程序紧密结合，增强了Microsoft Office和IDE等工具的功能。工作流自动化：从数据收集到报告创建的工作流程优化，彻底改革效率。可定制性：定制FRIDAY以执行独特的任务，并观察它随着时间的推移变得更加熟练。适应性： FRIDAY不会被新的挑战吓倒；它适应并繁荣，处理各种计算任务。提升生产力： FRIDAY将日常例行事务自动化到复杂的工作流程中，专注于提高用户的生产力和效率。 FRIDAY的能力扩展至：简化文件组织和环境设置等日常琐事。在Excel等应用程序中进行复杂的数据分析和可视化。制作多媒体内容，从完美的演示文稿到视频编辑等。快速浏览网页并整理信息。生成代码片段并精确执行脚本。轻松管理沟通和计划工具，使您的在线存在保持更新。探索FRIDAY如何改变您的计算体验。深入了解源代码和讨论该技术的有见地的论文：源代码：https://github.com/OS-Copilot/FRIDAY 论文：https://arxiv.org/abs/2402.07456 Official Website Your browser does not support the video tag. Video introduction Official Website