马斯克的Grok API 编程能力大超预期!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
马斯克的Grok API 编程能力大超预期!
3117点击    2024-11-08 10:19

Sentdex最新测评结果令人意外!


马斯克的Grok API 编程能力大超预期!


技术大牛Harrison Kinsley(@Sentdex)刚刚完成了对XAI的Grok-beta模型的基准测试,测试结果远超预期


强劲的性能表现


在修改过的内部Bigcodebench测试中,Grok-beta展现出了惊人的实力。这个基准测试包含了1140个编程提示,相当全面。


马斯克的Grok API 编程能力大超预期!


Sidney VanNess(@sidneyvanness) 对此评价:


这让我想起十多年前开始使用AWS服务的时候。当时有些服务看起来真的很贵,把业务建立在AWS平台上感觉风险很大。但我们赌的是他们的服务单位成本会比我们消耗的速度下降得更快。这个赌注总体来说是对的,现在看来历史可能会重演。


API定价结构详解


在定价方面,Grok-beta的收费为:


  • 输入:$5/1M tokens
  • 输出:$15/1M tokens


这比Sonnet 3.5($3/$15)略贵,也比GPT4o($2.5/$10)贵不少。整个基准测试的成本约为5美元


但Harrison表示,尽管价格较高,他仍会选择使用Grok。原因很简单:Grok在即时审核和模型对齐方面都更加开放。相比之下,o1-mini在处理基准测试中的普通问题时,有10%的拒绝率


Lil Gradient(@lil_gradient)关心性能问题:


API性能如何(每秒token数和首个token响应时间)?


Harrison回应说这些指标很难公平比较,因为不同服务商的性能会随负载变化而波动。


意外发现


在与OctoDB的讨论中,Harrison补充说明:


在bigcodebench测试中GPT-4o确实比claude-3.5表现更好。但这个结论需要限定条件,因为深入的编程基准测试并不多。虽然Bigcode是目前最好的编程基准测试,但它并不能完全代表编程能力。


马斯克的Grok API 编程能力大超预期!


对于这些模型的定价争议,Harrison表示:「考虑到这些模型能带来的价值,当前的价格其实都很便宜。」


Sidney分享了一个真实案例:他最近在起草一份复杂领域的专利,通过使用这些模型,法律费用可能降低了90%,因为他可以在交给律师审核之前完成大部分工作。


这个测试结果不仅展示了Grok-beta的实力,也让我们看到了AI编程助手的快速进步。


Harrison最后说到:


「他们才刚刚开始。」


文章来自于微信公众号 “AGI Hunt”,作者“JJJohn”


马斯克的Grok API 编程能力大超预期!

关键词: Grok , x AI , Grok API , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/