当前位置：搞趣网 >马斯克的Grok3翻车了!竟答不对9.11和9.9哪个大

马斯克的Grok3翻车了!竟答不对9.11和9.9哪个大

2025年02月19日来源：互联网整理作者：网络搞趣网官方微博

北京时间2月18日，马斯克与xAI团队在直播中正式发布了Grok最新版本Grok3。早在本次发布会之前，依靠着种种相关信息的抛出，加上马斯克本人24/7不间断的预热炒作，让全球对Grok3的期待值被拉到了空前的程度。

在一周前，马斯克在直播中评论DeepSeek R1时，还信心满满地表示「xAI即将推出更优秀的AI模型」。从现场展示的数据来看，Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型，马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算，并预测「三年内将实现诺贝尔奖级别突破」。

但这些目前都只是马斯克的一家之言。笔者在发布后，就测试了最新的Beta版Grok3，并提出了那个经典的用来刁难大模型的问题：「9.11与9.9哪个大？」遗憾的是，在不加任何定语以及标注的情况下，号称目前最聪明的Grok3，仍然无法正确回答这个问题。

在这个测试发出之后，很短的时间内迅速引发了不少朋友的关注，无独有偶，在海外也有很多类似问题的测试，例如「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题，Grok3也被发现仍然无法应对。因此被戏称为「天才不愿意回答简单问题」。

除了网友自发测试的这些基础知识上Grok3出现了翻车，在xAI发布会直播中，马斯克演示使用Grok3来分析他号称经常玩的Path of Exile 2 (流放之路2)对应的职业与升华效果，但实际上Grok3给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。

这一事件迅速引发了社会各界的广泛关注和讨论。Grok3的翻车并非偶然。从发布会现场及后续实测来看，该模型在数学、科学与编程等基准测试上虽然表现出色，但在处理常识性问题时却显得力不从心。这不仅让人质疑其人类级推理能力」的真实性，更暴露出当前AI技术在常识判断上的巨大缺陷。马斯克在发布会上曾信心满满地表示，Grok3未来将用于SpaceX火星任务计算，并预测三年内将实现诺贝尔奖级别突破」。然而，连简单的数字大小判断都出错，这样的AI如何能让人放心地将其应用于复杂的航天计算任务中？

从技术层面分析，Grok3的翻车主要源于其训练数据和算法设计。Grok-3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型，但常识依旧很难。xAI透露，Grok-3的开发得益于用8个月时间建成的Colossus超级计算机，它由10万个英伟达的H100 GPU驱动，为训练提供了2亿个GPU小时。此外，xAI宣布推出名为Deepsearch的Grok-3智能搜索引擎。

这一事件再次提醒我们，尽管AI技术在某些领域取得了显著进展，但在常识判断和人类级推理能力方面，仍存在明显的不足。未来，AI技术的发展还需要在更多领域进行深入探索和优化，以实现更全面和智能的AI应用。

【责任编辑：网络】

免责声明：本文图片引用自网络，如有侵权请联系我们予以删除

搞趣网发布此文仅为传递信息，不代表搞趣网认同其观点。

马斯克的Grok3翻车了!竟答不对9.11和9.9哪个大

热门资讯