ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
马斯克的Grok API 编程能力大超预期!
2443点击    2024-11-08 10:19

Sentdex最新测评结果令人意外!



技术大牛Harrison Kinsley(@Sentdex)刚刚完成了对XAI的Grok-beta模型的基准测试,测试结果远超预期


强劲的性能表现


在修改过的内部Bigcodebench测试中,Grok-beta展现出了惊人的实力。这个基准测试包含了1140个编程提示,相当全面。



Sidney VanNess(@sidneyvanness) 对此评价:


这让我想起十多年前开始使用AWS服务的时候。当时有些服务看起来真的很贵,把业务建立在AWS平台上感觉风险很大。但我们赌的是他们的服务单位成本会比我们消耗的速度下降得更快。这个赌注总体来说是对的,现在看来历史可能会重演。


API定价结构详解


在定价方面,Grok-beta的收费为:


  • 输入:$5/1M tokens
  • 输出:$15/1M tokens


这比Sonnet 3.5($3/$15)略贵,也比GPT4o($2.5/$10)贵不少。整个基准测试的成本约为5美元


但Harrison表示,尽管价格较高,他仍会选择使用Grok。原因很简单:Grok在即时审核和模型对齐方面都更加开放。相比之下,o1-mini在处理基准测试中的普通问题时,有10%的拒绝率


Lil Gradient(@lil_gradient)关心性能问题:


API性能如何(每秒token数和首个token响应时间)?


Harrison回应说这些指标很难公平比较,因为不同服务商的性能会随负载变化而波动。


意外发现


在与OctoDB的讨论中,Harrison补充说明:


在bigcodebench测试中GPT-4o确实比claude-3.5表现更好。但这个结论需要限定条件,因为深入的编程基准测试并不多。虽然Bigcode是目前最好的编程基准测试,但它并不能完全代表编程能力。



对于这些模型的定价争议,Harrison表示:「考虑到这些模型能带来的价值,当前的价格其实都很便宜。」


Sidney分享了一个真实案例:他最近在起草一份复杂领域的专利,通过使用这些模型,法律费用可能降低了90%,因为他可以在交给律师审核之前完成大部分工作。


这个测试结果不仅展示了Grok-beta的实力,也让我们看到了AI编程助手的快速进步。


Harrison最后说到:


「他们才刚刚开始。」


文章来自于微信公众号 “AGI Hunt”,作者“JJJohn”


关键词: Grok , x AI , Grok API , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/