Devin, the first AI software engineer.

Devin是SWE-Bench编码基准测试的最新技术,成功通过了领先的人工智能公司的实际工程面试,甚至在Upwork上完成了真实的工作。 Devin是一个自主代理,通过自己的shell、代码编辑器和网页浏览器来解决工程任务。 在SWE-Bench基准测试中,该测试要求人工智能解决真实开源项目中的GitHub问题,Devin在无人辅助的情况下能够正确解决13.86%的问题,远远超过之前的最新模型性能,无人辅助为1.96%,有人辅助为4.80%。 在下方的帖子中了解Devin的更多功能。 Your browser does not support the video tag. Devin,第一个AI软件工程师 1/4 Devin可以学习如何使用陌生的技术。 Your browser does not support the video tag. 学习如何使用陌生的技术 2/4 Devin可以为成熟的生产代码库做出贡献。 Your browser does not support the video tag. 为成熟的生产代码库做出贡献 3/4 Devin可以训练和优化自己的人工智能模型。 Your browser does not support the video tag. 训练和优化自己的人工智能模型 4/4 我们甚至尝试让Devin在Upwork上做真实的工作,它也能胜任! Your browser does not support the video tag. 在Upwork上完成真实的工作 有关Devin的更多详情,请查看此博客文章:https://cognition-labs.com/blog

<span title='2024-03-15 18:19:17 +0000 UTC'>三月 15, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

VLOGGER

谷歌的新项目VLOGGER通过仅使用图像和音频生成真实的字符语音视频,将数字通信推向了一个新的水平。虽然VLOGGER仍在朝着某些同行的逼真自然性发展,但其创新方法使其脱颖而出。 VLOGGER是什么? VLOGGER利用人物快照,将文本和音频输入转化为动态演讲者视频。借助尖端生成扩散模型的力量,它引入了一种新颖的技术组合,将静态图像呈现为生动的画面。 VLOGGER的核心特点: **动态运动创建:**通过一个复杂的随机人体到3D运动扩散模型,VLOGGER捕捉并模拟人类微妙之处。 **文本到图像的演变:**它通过独特的扩散式架构扩展了文本到图像模型的领域,允许详细的时空操作。 VLOGGER背后的技术使得创造不同长度的高质量视频成为可能。这些视频对面部和身体的表现具有高度的控制,为用户提供了一个不仅先进而且灵活的工具。 VLOGGER的独特之处: **通用应用:**与之前需要特定人员培训的模型不同,VLOGGER具有普适性。 **整体图像生成:**它超越了简单的人脸检测,生成了完整形象的字符视频,无需裁剪。 **多功能性:**VLOGGER适用于各种不同场景,包括全身可见性和各种身份,确保全面的虚拟人合成。 通过这些创新,VLOGGER为在各种数字平台上进行更真实和可访问的虚拟人交互铺平了道路。 Official Website Your browser does not support the video tag. demonstration Official Website

<span title='2024-03-14 10:19:18 +0000 UTC'>三月 14, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

我们在过去的两周里对所有顶尖模型,如GPT4、Claude、Mistral、Cohere、Gemini在以下各个领域进行了测试: 长篇背景RAG 延迟 推理 编码 写作 这里有一份详细的市场上最佳的6-7个LLM模型的细致分析,它们的优势和最佳使用案例: “大型机器”级别的模型 GPT-4 Turbo 主力模型。在价格/性能/延迟方面仍然是最好的全能模型。我使用GPT-4是因为它在以下方面可靠: 工具(处理复杂模式) 结构化的输出JSON 在使用Opus之后,GPT-4已不再是明确的获胜者,但由于其开发者体验的强大,例如助手API、文档、GPT、教程等,它仍然非常强大。 它易于使用,在99%的任务中几乎不会失效。价格定为30美元/1M输入令牌,并具有很好的延迟。 Claude-3 Opus 可能是最好的“通用”模型(胜过GPT-4)。Opus只需很少的提示就能产生类似人类的输出。GPT-4可能会非常机械,但是Claude修复了这个问题。 Opus在写作、构思和创造力方面表现出色。对于这类任务,我会选择它。 在编码方面,它与GPT-4相当,但不值得为此将一切都移到API上,因为费用有点太高。 长篇背景、PDF文件、论文: Opus在这方面表现出色(通过Claude的网站)。它的长篇背景和强大的推理能力使其非常适合分析论文、GitHub存储库和PDF文件。 在全文背景下,它可以在不同领域之间建立联系,并以一种我以前认为在LLM中不可能的方式深入了解主题。唯一的缺点是API成本(15美元/1M输入+70美元/1M输出),使其在生产中难以使用。 Claude-3 Sonnet 一个被低估的模型。虽然不如Opus聪明,但在中等推理和长篇背景方面是一个很好的助手。我使用Sonnet进行长篇内容写作、数据清理、结构化和重组。 它还擅长网络搜索+回答问题(很少产生幻觉)。在GPT-3.5和GPT-4 Turbo之间是一个很好的选择。比Opus和GPT-4更便宜,而且其编码足够好,可以进行自定义代码解释、调试以及其他需要每次执行超过5k个令牌的任务。 Gemini Pro 1.5 我使用过的最强大的模型,纯粹是因为它的广度和创造力。 几乎完美的1M上下文是不可思议的。在我所有的RAG测试中,它的表现优于Opus、Sonnet和GPT-4。 举个例子,我上传了3个视频,并要求返回带有优点、缺点、情感、价格等信息的结构化JSON。它能够区分这3个视频,并返回所有3个视频的数据数组。 它还可以处理视频(无音频),几乎完美地将超过2小时的镜头拆分为每分钟的时间。这是一种极其强大的模型,一旦普遍可用,将改变这个领域。我看到对于这一点,更多的代理工作流程将成为可能。 Mistral大型(以及Mistral中型) 我对Mistral大型模型没有太多印象,因为它的价格较高(24美元/1M输入令牌)。它是一个很好的模型,但不如GPT-4或Opus好,并且不值得这个价格。然而,中型模型在性价比方面非常不错。 中型模型在LMSys评估上得分与大型模型非常相似,就像Sonnet一样,被低估了。它特别适用于函数调用和编码,而且比GPT-4便宜。它在结构化输出方面比Sonnet好得多,具有更简单的API(Claude的工具可能有点混乱)。 缺点是Mistral模型都只有32k的上下文,而Claude有200k。无论如何,中型模型性能稳定。 “穷小子”级别的模型 Cohere Command R 一个非常好的128k背景的GPT-3.5替代品,支持RAG。在长篇召回和输出方面与GPT-3.5和Mistral基本相同的价格下表现更好。 我计划在需要多次迭代和处理大量文本段的长篇“愚蠢任务”中经常使用它。它在将大型PDF文件分块以执行递归摘要时非常出色。 Fireworks和Together Mixtral 我经常使用Mixtral,并且令我惊讶的是,它是目前速度最快,性能略好于GPT-3.5的模型。 特别是在Fireworks中,我获得了将近300令牌/秒的速度。这些模型在函数调用方面表现不佳,但对于大约10-30k上下文摘要+提取非常适用。您可以进行100多次调用,由于其速度(取决于上下文),它们将在<10秒内完成。如果您想要优化价格与性能,我强烈推荐。不过,不要将其用于推理/困难任务。 Groq Mixtral 与Fireworks相同,但速度更快。在API具有更高限制之前,没有其他太多的补充。 概括: Opus适用于创意写作和研究分析与规划(如果您负担得起的话还包括编码) GPT-4 Turbo适用于函数调用,编码(更便宜)以及需要推理的结构化输出 Sonnet适用于涉及长篇背景和中度推理的较重工作负载 Mistral中型适用于“介于GPT-3.5和GPT-4之间”的工具调用 Gemini 1.5(我会进行很多交换,但不能用于公开使用) Mixtral(Fireworks、Groq等):用于相对基本任务的快速LLM调用 Command R:非常适合廉价的、以RAG为优化的工作负载。在50-100k标记上表现良好,并基于此进行答案(优于GPT-3.5和Mixtral) 我将在这里结束,但我还有很多关于开发者/产品构建方面(因为我正在尝试优化性能)的补充。不想让这篇文章太长。

<span title='2024-03-13 18:19:59 +0000 UTC'>三月 13, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

Melo TTS

体验闪电般快速、实时的文字转语音(TTS)技术,甚至在您的CPU上也可以实现!🚀 🌍 全球化 - 支持多种语言,包括英语、西班牙语、法语、中文、日语和韩语。非常适合各种应用! 🔓 开源 - 享受Apache 2.0许可证带来的自由,适用于您的所有项目。 🔄 平滑切换 - 在对话中轻松地在中文和英语之间切换。 🍏 兼容Mac - 在您的Mac上体验无与伦比的性能。 🌐 在平台上找到我们的模型 - 轻松访问我们创新的模型。 准备将您的文字转化为自然语音吗?立即尝试Melo TTS! 深入了解Melo TTS背后的技术。在此访问源代码。 Official Website Your browser does not support the video tag. demonstration Official Website

<span title='2024-03-07 20:18:51 +0000 UTC'>三月 7, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

simplynews.ai

发现 Simply News,一款革新新闻消费方式的创新应用。通过智能代理的力量,Simply News筛选出无数新闻来源的内容,将其转化为符合您兴趣的吸引人的播客。 这项技术可以说比其人工智能生成的视频同类产品更加精细,它是自动化播客创作的一个不断发展的趋势,其中诸如 Perplexity 的平台正在引领潮流。 Simply News 的魔力在于它的四个部分过程: 筛选器:深入研究各种新闻来源,根据相关性和重要性选择与播客主题相符的文章。 提案人:为每篇选择的文章提供引人入胜的提案,关注每个故事所提供的独特叙述。 评委:担任审查提案的关键角色,最终决定哪些故事能够通过审核。 编剧:为所选文章编写引人入胜的剧本,确保听众听得清楚准确。 体验新闻的未来,请点击这里收听 Simply News。 Official Website Your browser does not support the video tag. demonstration Official Website

<span title='2024-03-06 02:19:10 +0000 UTC'>三月 6, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net