开放源代码

VLOGGER

谷歌的新项目VLOGGER通过仅使用图像和音频生成真实的字符语音视频，将数字通信推向了一个新的水平。虽然VLOGGER仍在朝着某些同行的逼真自然性发展，但其创新方法使其脱颖而出。 VLOGGER是什么？ VLOGGER利用人物快照，将文本和音频输入转化为动态演讲者视频。借助尖端生成扩散模型的力量，它引入了一种新颖的技术组合，将静态图像呈现为生动的画面。 VLOGGER的核心特点： **动态运动创建：**通过一个复杂的随机人体到3D运动扩散模型，VLOGGER捕捉并模拟人类微妙之处。 **文本到图像的演变：**它通过独特的扩散式架构扩展了文本到图像模型的领域，允许详细的时空操作。 VLOGGER背后的技术使得创造不同长度的高质量视频成为可能。这些视频对面部和身体的表现具有高度的控制，为用户提供了一个不仅先进而且灵活的工具。 VLOGGER的独特之处： **通用应用：**与之前需要特定人员培训的模型不同，VLOGGER具有普适性。 **整体图像生成：**它超越了简单的人脸检测，生成了完整形象的字符视频，无需裁剪。 **多功能性：**VLOGGER适用于各种不同场景，包括全身可见性和各种身份，确保全面的虚拟人合成。通过这些创新，VLOGGER为在各种数字平台上进行更真实和可访问的虚拟人交互铺平了道路。 Official Website Your browser does not support the video tag. demonstration Official Website

Melo TTS

体验闪电般快速、实时的文字转语音（TTS）技术，甚至在您的CPU上也可以实现！🚀 🌍 全球化 - 支持多种语言，包括英语、西班牙语、法语、中文、日语和韩语。非常适合各种应用！ 🔓 开源 - 享受Apache 2.0许可证带来的自由，适用于您的所有项目。 🔄 平滑切换 - 在对话中轻松地在中文和英语之间切换。 🍏 兼容Mac - 在您的Mac上体验无与伦比的性能。 🌐 在平台上找到我们的模型 - 轻松访问我们创新的模型。准备将您的文字转化为自然语音吗？立即尝试Melo TTS！深入了解Melo TTS背后的技术。在此访问源代码。 Official Website Your browser does not support the video tag. demonstration Official Website

NavAIGuide-TS

发现创新的Rabbit R1，这是一种利用开创性的GPT-4V视觉模型引起关注的AI硬件。这个令人惊叹的项目旨在利用大型语言视觉模型无缝地控制您的手机及其应用程序。它巧妙地采用了移动手机自动化测试工具Appium，实现语言模型与智能手机之间的复杂交互。然而，值得注意的是设置这个环境的复杂性。它需要高水平的移动开发专业知识和开发证书，对初学者来说具有挑战性。尽管设置存在障碍，但这是一项值得称赞的努力。对于那些感兴趣的人，请在NavAIGuide-TS GitHub页面上进一步探索这个项目，并深入讨论在Medium上的详细讨论。想象一下，改变我们与智能手机互动的方式。借助NavAIGuide和GPT-4V的实力，移动AI代理的未来看起来很有前途，有可能使传统的插件和助手变得不再必要。体验这个先进集成的令人钦佩的demo，展示了iOS 17上这个综合性移动AI代理的能力。 Official Website Your browser does not support the video tag. demonstration Official Website

Orama

发现Orama的力量，它是使用TypeScript构建的开源搜索引擎。这项创新工具提供全文和向量搜索功能，使其成为寻求强大搜索功能的开发人员的理想选择。使用Orama，您可以无需外部数据库即可开始，因为它支持内存搜索，并可选择将数据保存在文件中以持久化。此外，Orama的云服务使全球搜索功能成为可能，无需麻烦的自部署。立即探索更多关于Orama的信息，提升您的搜索能力！ Orama代码：GitHub 文档：Orama文档云服务：Orama云服务 Official Website Official Website

ZETA editing

提升您的音频编辑体验，借助革命性的ZETA音频编辑器，通过为Mac、Windows和Linux设计的便捷的一键启动器即可访问。由于@hila8manor和@linoy_tsaban的努力，该工具不再有本地运行的30秒限制，允许您在所有音频剪辑上进行延长编辑会话。通过ZETA，您将深入了解音频编辑的未来——这一前沿技术是首个将DDPM反演方法用于修改音频的技术。这一显著特点不仅可以让您无缝切换音乐风格、替换乐器，还可以删除任何曲目中的人声。以Technion - Israel Institute of Technology的“零样本无监督和基于文本的音频编辑使用DDPM反演”为例，展示了突破性的技术。该研究通过DDPM反演在预训练模型上进行了零样本编辑，开启了一个无需先前示例即可修改信号的世界。这些先进技术最初受到图像编辑领域的启发，现在使用户能够执行基于文本的编辑，并发现新的无监督音频处理方法。这标志着音乐编辑的新时代，提供了大量具有音乐意义的修改选项，如调整乐器参与和旋律即兴。对于那些感兴趣的人，源代码和相关研究论文将更深入地介绍这一创新编辑工具背后的技术。在此处查看源代码：https://github.com/HilaManor/AudioEditingCode/ 在此处阅读完整论文：https://arxiv.org/abs/2402.10009 准备革新您的音频编辑方式了吗？立即开始使用ZETA，开始您的音频编辑之旅吧！Hugging Face: ZETA音频编辑器。 Official Website Your browser does not support the video tag. demonstration Your browser does not support the video tag. Some examples Official Website