
AI Agent 的「GPT 时刻」,Manus 炸醒整个 AI 圈
AI Agent 的「GPT 时刻」,Manus 炸醒整个 AI 圈正如「Manus」的名字寓意,它在拉丁文里象征着「手」。也就是说,知识不仅要在脑子里,还要能用手执行。这正是 Agent 和 AI Bot(聊天机器人)产品的本质进阶。
正如「Manus」的名字寓意,它在拉丁文里象征着「手」。也就是说,知识不仅要在脑子里,还要能用手执行。这正是 Agent 和 AI Bot(聊天机器人)产品的本质进阶。
PyTorch机器学习大神Horace He宣布,正是离职加入OpenAI前CTO初创Thinking Machines。这位技术奇才,曾被OpenAI、SSI、谷歌等顶级AI实验室争相邀请,最终选择了刚刚成立的初创。他的选择,不仅是个人职业生涯的转折,更是对AI未来发展方向的一次战略性押注。
ChatGPT新Bug引热议:无法画出“有0头大象的房间”。
在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!
说真的,dify除了知识库以外,其他大部分功能体验都比fastgpt要好。而fastgpt的知识库效果是公认的好(以下是某群 群友的评价~)不过我想: 如果能把dify和fastgpt结合,且不妙哉?
恰巧那段时间,他开始使用OpenAI的人工智能聊天工具ChatGPT,主要是捣鼓点购物清单,让它帮忙做做预算什么的。它能帮忙写讣闻吗?金开始给ChatGPT发送一些祖母的人生经历——她在护士的岗位上干到退休、热爱保龄球、儿孙满堂等等——并要求它据此写一篇讣告。
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
基础模型竞争又紧张刺激起来了!GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数,总分1412:1411只差一分。
Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。
通过Deepseek、ChatGPT、Gemini等大模型说出来的话,不少没有辨别能力的小伙伴就会默认是公道与正确的。其实是未必。1.Deepseek、ChatGPT、Gemini等联网搜索的结果与规则还在完善;