AI 聊天机器人对峙将困惑放在首位,其次是 ChatGPT 和 Gemini

《华尔街日报》通过一系列盲测评估了五个领先的人工智能聊天机器人,以确定这些人工智能聊天机器人处理现实世界查询的能力。目的是评估它们在实际场景中的有用性,而不是科学基准。聊天机器人在健康建议、财务指导、烹饪创意、专业写作、创意写作、总结技巧、编码和速度方面进行了测试。

他们比较了 OpenAI 的 ChatGPT、Microsoft 的 Copilot、Google 的 Gemini、Anthropic 的 Claude 和 Perplexity,以评估它们在各种日常任务中的表现,突出每个机器人的优势和劣势。令他们惊讶的是,Perplexity AI 凭借最新升级到 GPT-4o 击败了 ChatGPT,成为总冠军。谷歌双子座只排在第三位。尽管使用了与 ChatGPT 相似的模型,但 Microsoft 的 Copilot 在第四位仅次于 Claude 排名第五。

虽然需要注意的是,由于范围有限,此类特定的动手测试不具有代表性,但它们可能会提供有关这些聊天机器人特定优势的一些提示。例如,Copilot 在“创意写作”方面表现出色,ChatGPT 排在最后,而 Perplexity 被证明是五个比较解决方案中最慢的。在编码和速度方面,ChatGPT 目前似乎无与伦比。以下是《华尔街日报》的简要结果。

困惑 AI

Perplexity AI 在比较中成为总赢家,展示了其在几个关键领域的卓越能力。对于专业的写作任务,Perplexity 通过制作详细且适合上下文的职位列表而表现出色,展示了对特定要求的深刻理解。它的总结技巧特别值得注意,它提供了各种类型内容的详细和准确的摘要,包括文本、PDF 和 YouTube 视频字幕。

在健康建议方面,Perplexity提供了最全面的指导,在其回应中考虑了财务稳定性和关系强度等多种因素。然而,应该指出的是,Perplexity是测试的五个聊天机器人中最慢的,这表明其彻底性和响应速度之间存在权衡。

ChatGPT的

OpenAI 的 ChatGPT 虽然没有获得头把交椅,但在多个领域表现出强劲的表现。它在烹饪创意、精心制作的菜单和食谱方面尤其令人印象深刻,这些菜单和食谱可以轻松满足各种饮食限制。在编码任务中,ChatGPT 被证明具有很强的能力,为与 JavaScript 和 Web 应用程序开发相关的技术查询提供精确的解决方案。

此外,ChatGPT 以其快速响应速度而著称,始终比竞争对手更快地提供答案。尽管有这些优势,但 ChatGPT 在创意写作方面的表现并不好,它的排名低于其他一些聊天机器人。

谷歌双子座

谷歌的 Gemini 在财务指导领域脱颖而出,就利率、退休储蓄和继承规则等一系列主题提供清晰、全面和实用的建议。它的财务见解全面且可操作,使其成为寻求财务建议的用户的宝贵工具。

然而,双子座在健康建议方面表现不佳,其回答不那么详细,主要集中在信心和准备上,没有太多深度。在整体评估中,双子座获得了第三名,表明整体表现强劲但并不出色。

Anthropic的克劳德

Anthropic的克劳德(Claude)表现出一些显着的优势,但在某些领域也面临挑战。虽然它在有效地总结网络内容方面遇到了困难,但它在其他领域显示出潜力。克劳德在专业写作和创意写作方面的表现一般,既不出色也不明显落后于其他聊天机器人。

在健康建议和财务指导方面,克劳德提供了有用的信息,但缺乏表现最好的聊天机器人提供的全面细节。总体而言,克劳德的表现将其排在第四位,表明在特定领域有改进的余地。

Microsoft Copilot

Microsoft 的 Copilot 尽管使用了与 ChatGPT 相似的模型,但在评估中排名第五。Copilot 的杰出表现是在创意写作方面,它制作了诙谐而引人入胜的内容,例如以布偶为主角的幽默婚礼祝酒词。

然而,在其他领域,Copilot却不尽如人意。它的专业写作任务不如Perplexity详细或准确,其财务指导缺乏关键细节,使建议的可操作性降低。在烹饪创意方面,Copilot也未能满足其食谱中的特定饮食要求。这些缺点导致其在评价中的总体排名较低。

未经允许不得转载:表盘吧 » AI 聊天机器人对峙将困惑放在首位,其次是 ChatGPT 和 Gemini