Devin, the first AI software engineer.

Devin是SWE-Bench编码基准测试的最新技术,成功通过了领先的人工智能公司的实际工程面试,甚至在Upwork上完成了真实的工作。 Devin是一个自主代理,通过自己的shell、代码编辑器和网页浏览器来解决工程任务。 在SWE-Bench基准测试中,该测试要求人工智能解决真实开源项目中的GitHub问题,Devin在无人辅助的情况下能够正确解决13.86%的问题,远远超过之前的最新模型性能,无人辅助为1.96%,有人辅助为4.80%。 在下方的帖子中了解Devin的更多功能。 Your browser does not support the video tag. Devin,第一个AI软件工程师 1/4 Devin可以学习如何使用陌生的技术。 Your browser does not support the video tag. 学习如何使用陌生的技术 2/4 Devin可以为成熟的生产代码库做出贡献。 Your browser does not support the video tag. 为成熟的生产代码库做出贡献 3/4 Devin可以训练和优化自己的人工智能模型。 Your browser does not support the video tag. 训练和优化自己的人工智能模型 4/4 我们甚至尝试让Devin在Upwork上做真实的工作,它也能胜任! Your browser does not support the video tag. 在Upwork上完成真实的工作 有关Devin的更多详情,请查看此博客文章:https://cognition-labs.com/blog

<span title='2024-03-15 18:19:17 +0000 UTC'>三月 15, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

我们在过去的两周里对所有顶尖模型,如GPT4、Claude、Mistral、Cohere、Gemini在以下各个领域进行了测试: 长篇背景RAG 延迟 推理 编码 写作 这里有一份详细的市场上最佳的6-7个LLM模型的细致分析,它们的优势和最佳使用案例: “大型机器”级别的模型 GPT-4 Turbo 主力模型。在价格/性能/延迟方面仍然是最好的全能模型。我使用GPT-4是因为它在以下方面可靠: 工具(处理复杂模式) 结构化的输出JSON 在使用Opus之后,GPT-4已不再是明确的获胜者,但由于其开发者体验的强大,例如助手API、文档、GPT、教程等,它仍然非常强大。 它易于使用,在99%的任务中几乎不会失效。价格定为30美元/1M输入令牌,并具有很好的延迟。 Claude-3 Opus 可能是最好的“通用”模型(胜过GPT-4)。Opus只需很少的提示就能产生类似人类的输出。GPT-4可能会非常机械,但是Claude修复了这个问题。 Opus在写作、构思和创造力方面表现出色。对于这类任务,我会选择它。 在编码方面,它与GPT-4相当,但不值得为此将一切都移到API上,因为费用有点太高。 长篇背景、PDF文件、论文: Opus在这方面表现出色(通过Claude的网站)。它的长篇背景和强大的推理能力使其非常适合分析论文、GitHub存储库和PDF文件。 在全文背景下,它可以在不同领域之间建立联系,并以一种我以前认为在LLM中不可能的方式深入了解主题。唯一的缺点是API成本(15美元/1M输入+70美元/1M输出),使其在生产中难以使用。 Claude-3 Sonnet 一个被低估的模型。虽然不如Opus聪明,但在中等推理和长篇背景方面是一个很好的助手。我使用Sonnet进行长篇内容写作、数据清理、结构化和重组。 它还擅长网络搜索+回答问题(很少产生幻觉)。在GPT-3.5和GPT-4 Turbo之间是一个很好的选择。比Opus和GPT-4更便宜,而且其编码足够好,可以进行自定义代码解释、调试以及其他需要每次执行超过5k个令牌的任务。 Gemini Pro 1.5 我使用过的最强大的模型,纯粹是因为它的广度和创造力。 几乎完美的1M上下文是不可思议的。在我所有的RAG测试中,它的表现优于Opus、Sonnet和GPT-4。 举个例子,我上传了3个视频,并要求返回带有优点、缺点、情感、价格等信息的结构化JSON。它能够区分这3个视频,并返回所有3个视频的数据数组。 它还可以处理视频(无音频),几乎完美地将超过2小时的镜头拆分为每分钟的时间。这是一种极其强大的模型,一旦普遍可用,将改变这个领域。我看到对于这一点,更多的代理工作流程将成为可能。 Mistral大型(以及Mistral中型) 我对Mistral大型模型没有太多印象,因为它的价格较高(24美元/1M输入令牌)。它是一个很好的模型,但不如GPT-4或Opus好,并且不值得这个价格。然而,中型模型在性价比方面非常不错。 中型模型在LMSys评估上得分与大型模型非常相似,就像Sonnet一样,被低估了。它特别适用于函数调用和编码,而且比GPT-4便宜。它在结构化输出方面比Sonnet好得多,具有更简单的API(Claude的工具可能有点混乱)。 缺点是Mistral模型都只有32k的上下文,而Claude有200k。无论如何,中型模型性能稳定。 “穷小子”级别的模型 Cohere Command R 一个非常好的128k背景的GPT-3.5替代品,支持RAG。在长篇召回和输出方面与GPT-3.5和Mistral基本相同的价格下表现更好。 我计划在需要多次迭代和处理大量文本段的长篇“愚蠢任务”中经常使用它。它在将大型PDF文件分块以执行递归摘要时非常出色。 Fireworks和Together Mixtral 我经常使用Mixtral,并且令我惊讶的是,它是目前速度最快,性能略好于GPT-3.5的模型。 特别是在Fireworks中,我获得了将近300令牌/秒的速度。这些模型在函数调用方面表现不佳,但对于大约10-30k上下文摘要+提取非常适用。您可以进行100多次调用,由于其速度(取决于上下文),它们将在<10秒内完成。如果您想要优化价格与性能,我强烈推荐。不过,不要将其用于推理/困难任务。 Groq Mixtral 与Fireworks相同,但速度更快。在API具有更高限制之前,没有其他太多的补充。 概括: Opus适用于创意写作和研究分析与规划(如果您负担得起的话还包括编码) GPT-4 Turbo适用于函数调用,编码(更便宜)以及需要推理的结构化输出 Sonnet适用于涉及长篇背景和中度推理的较重工作负载 Mistral中型适用于“介于GPT-3.5和GPT-4之间”的工具调用 Gemini 1.5(我会进行很多交换,但不能用于公开使用) Mixtral(Fireworks、Groq等):用于相对基本任务的快速LLM调用 Command R:非常适合廉价的、以RAG为优化的工作负载。在50-100k标记上表现良好,并基于此进行答案(优于GPT-3.5和Mixtral) 我将在这里结束,但我还有很多关于开发者/产品构建方面(因为我正在尝试优化性能)的补充。不想让这篇文章太长。

<span title='2024-03-13 18:19:59 +0000 UTC'>三月 13, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

7 Websites to create presentations in 60 seconds

请停止使用PowerPoint和Google幻灯片。 以下是7个能够在60秒内创建演示文稿的网站: Pop AI 快速创建精美的演示文稿和文档。 输入任何提示,使用人工智能在几分钟内制作出令人信服的演示文稿。 使用我的优惠代码“POPAI01”可享受8折优惠。 http://bit.ly/47x7NMl Your browser does not support the video tag. Pop AI Decktopus AI Decktopus是一款全功能的人工智能幻灯片生成器,可以帮助您在几秒钟内创建专业的演示文稿。 https://decktopus.com Your browser does not support the video tag. Decktopus AI Gamma Gamma可以快速将文档转换为引人入胜的演示文稿,与手动设计幻灯片相比节省时间。 真是个省时的工具。 http://gamma.app Your browser does not support the video tag. Gamma SlidesAI Google Slides的附加组件,使用人工智能从文本生成演示文稿。 让人工智能在短时间内根据任何文本创建专业而引人入胜的幻灯片。 http://slidesai.io Your browser does not support the video tag. SlidesAI Tome 快速创建精美的演示文稿和文档。 输入任何提示,使用人工智能在几分钟内制作出令人信服的演示文稿。 http://tome.app Your browser does not support the video tag....

<span title='2024-03-05 22:19:13 +0000 UTC'>三月 5, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

These 10 websites can replace your Paid PC software (100% FREE)

不要为昂贵的电脑软件付费。 以下这10个网站可以替代你的付费电脑软件(100% 免费): Landingsite:在60秒内建立一个网站: 首页生成和编辑 150M+免费库存照片 免费子域名和内置SEO 流量分析 立即试用 Your browser does not support the video tag. Landingsite Ezgif:Ezgif可以为你做很多事情: 视频转GIF动画 图片格式转换 图片优化 调整、旋转、裁剪、分割等编辑工具 立即试用 Your browser does not support the video tag. Ezgif RemoveBG:只需点击几下,轻松去除图像背景。 立即试用 Your browser does not support the video tag. RemoveBG Photopea:免费的基于Web的编辑器,取代Adobe Photoshop和Illustrator。 编辑图片 创建插图 为Web设计 转换图像格式 立即试用 Your browser does not support the video tag. Photopea Nero AI:放大、改进和清理照片而无损失质量。 使用此工具提高图像分辨率。 立即试用 Your browser does not support the video tag....

<span title='2024-03-05 20:19:18 +0000 UTC'>三月 5, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net

10 AI tools that'll make you rich in 2024

2024年让您致富的10个AI工具: 生成股票图像: StockimgAI: 一个令人惊叹的AI图像生成工具,适用于团队。 轻松生成标志、股票图像和书籍封面。 在Stockimg.ai了解更多 Your browser does not support the video tag. StockimgAI 创建网站: Durable 不懂编码? 使用Durable在几秒钟内构建网站。 您无需投资即可建立业务。使用此工具进行网站构建即可。 Durable.co Your browser does not support the video tag. Durable 您的法律团队: DoNotPay 没有法律团队?没问题! 利用世界上第一个机器人律师自动化解决法律纠纷、取消订阅等问题。 Donotpay.com 编码伙伴: Codium 需要一个编码伙伴吗? Codium通过AI智能与您一同编写,增强您的编码项目。 codium.com Your browser does not support the video tag. Codium 学术研究员: Consensus 轻松进行学术研究。 Consensus简化了学术信息的收集和分析。 consensus.com 视频编辑器: Descript 利用AI的力量编辑视频。 Descript提供直观的平台,用于创建高质量的视频内容。 descript.com SEO工具: UseStyle Seona AI 轻松优化您的网站。利用AI改进网站美感和功能。 来自usestyle.ai Sheet+ 转变您的Google表格。 自动化任务,像专业人士一样管理数据。 sheetplus.ai Gamma App...

<span title='2024-03-05 16:20:42 +0000 UTC'>三月 5, 2024</span>&nbsp;·&nbsp;1 分钟&nbsp;·&nbsp;mychatgpt.net