突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题
5686点击    2025-02-20 17:23

刚刚Grok-3免费开放了!DeepSearch和Think两大模式加持,刚上了热搜的「9.11和9.9哪个大」终于能做对了(但没全对),甚至1分钟秒解MIT积分赛题。然而,它刚一亮相就遭OpenAI研究员「打假」,被对方质疑作弊。


世界首个20万块GPU(另有说法是10万)训出的Grok-3,官宣人人可用了!


DeepSearch、Think两大模式,同时上线。唯独遗憾的是,Big Brain还在雪藏。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


Grok 3全部免费开放,直到服务器崩溃为止


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


一边,AI科技圈开发者激动地奔走相告,另一边,OpenAI和xAI直接打起来了。


先是本科辍学的OpenAI研究员Aidan McLaughlin,谴责Grok-3在评测中用基于64个样本进行多数投票刷分。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

灰色阴影区域表示在64个样本下的多数投票一致性表现


随后,OpenAI应用研究主管Boris Power更是丝毫不留情面,「看到Grok团队在评估中作弊和欺骗的动机,真令人失望。简而言之,o3-mini在每个评估中都优于Grok-3。Grok-3确实是一个不错的模型,但没有必要过度宣传」。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


对此,xAI高级工程师Igor Babuschkin,「完全不对。我们只是用了和你们一样的方法」。


从下图中不难看出,o1-preview和o1确实有同款「阴影」。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


不过,根据McLaughlin的解释道,OpenAI o3-mini并没有使用这种方法。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


OpenAI与xAI针锋相对,也不是一天两天了,好在他们的竞争,利好所有人。


话不多说,直接上实测吧。


一波实测来了


就在昨天,「Grok-3答错9.11和9.9哪个大」这个话题,还一度冲到热搜话题前几。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


我们实测发现,果然,如果用同样的方式问,Grok-3还是会答错。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


而在开启Think模式后,它只思考了4秒就轻松做对了!


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


有趣的是,如果把prompt换成「9.11和9.9谁大」,Grok-3在普通模式下也能给出正确答案了。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


然而,在开启Think模式之后,Grok-3却为了这个prompt想了足足34秒……


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


有网友实测Grok-3 二十四小时后,发现它的几大优点——


  • 对代码真的很好;
  • 上下文窗口非常非常长;
  • 能充分利用上下文;
  • 擅长遵循指令;
  • 而且有一个非常令人愉快的性格。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


在代码工作流中,Grok-3表现得十分丝滑。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


有人用Grok-3做了个带声音的视频游戏,主题是马斯克使用激光、火箭和婴儿来摧毁美国政府。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


耗时一个小时后,Grok-3成功做出了这个游戏。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


网友只用5分钟,就写出了一款大战小行星的游戏。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


另一种形式的游戏如下。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


甚至有人只在几分钟内,就用Grok-3和Imagen 3、tripoai等工具,创建了下面这些逼真的3D模型。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


有人总结了一份Grok-3全部潜能的完整速查表,因为它「强大到疯狂」,但大多数人还不知道该如何有效使用。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


照片级真实的图像


Grok-3是不是世界上最聪明的AI还有待考察,但它现在确实可以生成照片级真实的图像。


X网友Min Choi分享了10个案例。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


  1. 在海滩上的随意自拍
  2. 疯狂的细节,你可以看到每根羽毛
  3. SpaceX的火箭
  4. 图像细节程度简直令人惊异的眼睛特写
  5. 月球网络探测车
  6. 在纽约地铁上的自拍
  7. 走秀的猫咪
  8. 微型小熊猫的微距镜头
  9. 一位年轻白化男子手持绿色小狗的文艺复兴风格肖像
  10. 水池边的自拍


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


对此,有网友说,我们现在已经很难分清图片上的是不是现实了。


「我们已经跨越了那个门槛!」,Min说。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


不过也有网友发现了它的一些缺点,比如生成正在倒立的人物时,依然会出现匪夷所思的问题。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


网友实测,Grok-3在2024麻省理工积分大赛中,直接干掉o1 Pro和人类选手,并在1分02秒内解决了这个问题!


就连马斯克称赞道,简直太酷了。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


添加图片注释,不超过 140 字(可选)



突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


高级语音模式,期待住了


下一步,Grok-3或许还会推出高级语音模式,一些拿到灰度测试的网友晒出了自己的实测。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


它不仅支持联网模式,还支持自定义语音模式、语音转录、音频分享等功能。


目前,默认的是Sal男性声音。此外,还有一个Ara女性声音可选。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


用户界面底部有三个键:关闭退出语音模式;静音;分享


如下是转录功能的展示。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


下面视频中,Grok-3不仅会唱生日快乐歌,还会笑。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题


参考资料:

https://x.com/xai/status/1892400129719611567


文章来自于“新智元”,作者“编辑部 HNYZ”。


突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

关键词: AI , Grok3 , Grok , xAI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
语音转录

【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。

项目地址:https://github.com/openai/whisper

在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0