最新人工智能

Devin, the first AI software engineer.

Devin是SWE-Bench编码基准测试的最新技术，成功通过了领先的人工智能公司的实际工程面试，甚至在Upwork上完成了真实的工作。 Devin是一个自主代理，通过自己的shell、代码编辑器和网页浏览器来解决工程任务。在SWE-Bench基准测试中，该测试要求人工智能解决真实开源项目中的GitHub问题，Devin在无人辅助的情况下能够正确解决13.86%的问题，远远超过之前的最新模型性能，无人辅助为1.96%，有人辅助为4.80%。在下方的帖子中了解Devin的更多功能。 Your browser does not support the video tag. Devin，第一个AI软件工程师 1/4 Devin可以学习如何使用陌生的技术。 Your browser does not support the video tag. 学习如何使用陌生的技术 2/4 Devin可以为成熟的生产代码库做出贡献。 Your browser does not support the video tag. 为成熟的生产代码库做出贡献 3/4 Devin可以训练和优化自己的人工智能模型。 Your browser does not support the video tag. 训练和优化自己的人工智能模型 4/4 我们甚至尝试让Devin在Upwork上做真实的工作，它也能胜任！ Your browser does not support the video tag. 在Upwork上完成真实的工作有关Devin的更多详情，请查看此博客文章：https://cognition-labs.com/blog

VLOGGER

谷歌的新项目VLOGGER通过仅使用图像和音频生成真实的字符语音视频，将数字通信推向了一个新的水平。虽然VLOGGER仍在朝着某些同行的逼真自然性发展，但其创新方法使其脱颖而出。 VLOGGER是什么？ VLOGGER利用人物快照，将文本和音频输入转化为动态演讲者视频。借助尖端生成扩散模型的力量，它引入了一种新颖的技术组合，将静态图像呈现为生动的画面。 VLOGGER的核心特点： **动态运动创建：**通过一个复杂的随机人体到3D运动扩散模型，VLOGGER捕捉并模拟人类微妙之处。 **文本到图像的演变：**它通过独特的扩散式架构扩展了文本到图像模型的领域，允许详细的时空操作。 VLOGGER背后的技术使得创造不同长度的高质量视频成为可能。这些视频对面部和身体的表现具有高度的控制，为用户提供了一个不仅先进而且灵活的工具。 VLOGGER的独特之处： **通用应用：**与之前需要特定人员培训的模型不同，VLOGGER具有普适性。 **整体图像生成：**它超越了简单的人脸检测，生成了完整形象的字符视频，无需裁剪。 **多功能性：**VLOGGER适用于各种不同场景，包括全身可见性和各种身份，确保全面的虚拟人合成。通过这些创新，VLOGGER为在各种数字平台上进行更真实和可访问的虚拟人交互铺平了道路。 Official Website Your browser does not support the video tag. demonstration Official Website

which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

我们在过去的两周里对所有顶尖模型，如GPT4、Claude、Mistral、Cohere、Gemini在以下各个领域进行了测试：长篇背景RAG 延迟推理编码写作这里有一份详细的市场上最佳的6-7个LLM模型的细致分析，它们的优势和最佳使用案例： “大型机器”级别的模型 GPT-4 Turbo 主力模型。在价格/性能/延迟方面仍然是最好的全能模型。我使用GPT-4是因为它在以下方面可靠：工具（处理复杂模式）结构化的输出JSON 在使用Opus之后，GPT-4已不再是明确的获胜者，但由于其开发者体验的强大，例如助手API、文档、GPT、教程等，它仍然非常强大。它易于使用，在99%的任务中几乎不会失效。价格定为30美元/1M输入令牌，并具有很好的延迟。 Claude-3 Opus 可能是最好的“通用”模型（胜过GPT-4）。Opus只需很少的提示就能产生类似人类的输出。GPT-4可能会非常机械，但是Claude修复了这个问题。 Opus在写作、构思和创造力方面表现出色。对于这类任务，我会选择它。在编码方面，它与GPT-4相当，但不值得为此将一切都移到API上，因为费用有点太高。长篇背景、PDF文件、论文： Opus在这方面表现出色（通过Claude的网站）。它的长篇背景和强大的推理能力使其非常适合分析论文、GitHub存储库和PDF文件。在全文背景下，它可以在不同领域之间建立联系，并以一种我以前认为在LLM中不可能的方式深入了解主题。唯一的缺点是API成本（15美元/1M输入+70美元/1M输出），使其在生产中难以使用。 Claude-3 Sonnet 一个被低估的模型。虽然不如Opus聪明，但在中等推理和长篇背景方面是一个很好的助手。我使用Sonnet进行长篇内容写作、数据清理、结构化和重组。它还擅长网络搜索+回答问题（很少产生幻觉）。在GPT-3.5和GPT-4 Turbo之间是一个很好的选择。比Opus和GPT-4更便宜，而且其编码足够好，可以进行自定义代码解释、调试以及其他需要每次执行超过5k个令牌的任务。 Gemini Pro 1.5 我使用过的最强大的模型，纯粹是因为它的广度和创造力。几乎完美的1M上下文是不可思议的。在我所有的RAG测试中，它的表现优于Opus、Sonnet和GPT-4。举个例子，我上传了3个视频，并要求返回带有优点、缺点、情感、价格等信息的结构化JSON。它能够区分这3个视频，并返回所有3个视频的数据数组。它还可以处理视频（无音频），几乎完美地将超过2小时的镜头拆分为每分钟的时间。这是一种极其强大的模型，一旦普遍可用，将改变这个领域。我看到对于这一点，更多的代理工作流程将成为可能。 Mistral大型（以及Mistral中型）我对Mistral大型模型没有太多印象，因为它的价格较高（24美元/1M输入令牌）。它是一个很好的模型，但不如GPT-4或Opus好，并且不值得这个价格。然而，中型模型在性价比方面非常不错。中型模型在LMSys评估上得分与大型模型非常相似，就像Sonnet一样，被低估了。它特别适用于函数调用和编码，而且比GPT-4便宜。它在结构化输出方面比Sonnet好得多，具有更简单的API（Claude的工具可能有点混乱）。缺点是Mistral模型都只有32k的上下文，而Claude有200k。无论如何，中型模型性能稳定。 “穷小子”级别的模型 Cohere Command R 一个非常好的128k背景的GPT-3.5替代品，支持RAG。在长篇召回和输出方面与GPT-3.5和Mistral基本相同的价格下表现更好。我计划在需要多次迭代和处理大量文本段的长篇“愚蠢任务”中经常使用它。它在将大型PDF文件分块以执行递归摘要时非常出色。 Fireworks和Together Mixtral 我经常使用Mixtral，并且令我惊讶的是，它是目前速度最快，性能略好于GPT-3.5的模型。特别是在Fireworks中，我获得了将近300令牌/秒的速度。这些模型在函数调用方面表现不佳，但对于大约10-30k上下文摘要+提取非常适用。您可以进行100多次调用，由于其速度（取决于上下文），它们将在<10秒内完成。如果您想要优化价格与性能，我强烈推荐。不过，不要将其用于推理/困难任务。 Groq Mixtral 与Fireworks相同，但速度更快。在API具有更高限制之前，没有其他太多的补充。概括： Opus适用于创意写作和研究分析与规划（如果您负担得起的话还包括编码） GPT-4 Turbo适用于函数调用,编码（更便宜）以及需要推理的结构化输出 Sonnet适用于涉及长篇背景和中度推理的较重工作负载 Mistral中型适用于“介于GPT-3.5和GPT-4之间”的工具调用 Gemini 1.5（我会进行很多交换，但不能用于公开使用） Mixtral（Fireworks、Groq等）：用于相对基本任务的快速LLM调用 Command R：非常适合廉价的、以RAG为优化的工作负载。在50-100k标记上表现良好，并基于此进行答案（优于GPT-3.5和Mixtral）我将在这里结束，但我还有很多关于开发者/产品构建方面（因为我正在尝试优化性能）的补充。不想让这篇文章太长。

Melo TTS

体验闪电般快速、实时的文字转语音（TTS）技术，甚至在您的CPU上也可以实现！🚀 🌍 全球化 - 支持多种语言，包括英语、西班牙语、法语、中文、日语和韩语。非常适合各种应用！ 🔓 开源 - 享受Apache 2.0许可证带来的自由，适用于您的所有项目。 🔄 平滑切换 - 在对话中轻松地在中文和英语之间切换。 🍏 兼容Mac - 在您的Mac上体验无与伦比的性能。 🌐 在平台上找到我们的模型 - 轻松访问我们创新的模型。准备将您的文字转化为自然语音吗？立即尝试Melo TTS！深入了解Melo TTS背后的技术。在此访问源代码。 Official Website Your browser does not support the video tag. demonstration Official Website

simplynews.ai

发现 Simply News，一款革新新闻消费方式的创新应用。通过智能代理的力量，Simply News筛选出无数新闻来源的内容，将其转化为符合您兴趣的吸引人的播客。这项技术可以说比其人工智能生成的视频同类产品更加精细，它是自动化播客创作的一个不断发展的趋势，其中诸如 Perplexity 的平台正在引领潮流。 Simply News 的魔力在于它的四个部分过程：筛选器：深入研究各种新闻来源，根据相关性和重要性选择与播客主题相符的文章。提案人：为每篇选择的文章提供引人入胜的提案，关注每个故事所提供的独特叙述。评委：担任审查提案的关键角色，最终决定哪些故事能够通过审核。编剧：为所选文章编写引人入胜的剧本，确保听众听得清楚准确。体验新闻的未来，请点击这里收听 Simply News。 Official Website Your browser does not support the video tag. demonstration Official Website