AI资讯新闻榜单内容搜索-Claude3.5

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯

8139 点击 2025-09-06 11:35

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于Claude 3.5 Sonnet的智能体，就会表现出极强的合作意识。而GPT-4o则是主打一个“自私”，只考虑自己的短期利益。

来自主题: AI技术研报

7896 点击 2024-12-20 09:47

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

这两天，我被这个Claude3.5这个神级Prompt惊呆了。佩服的五体投地。非常简单的话说，就是它用Prompt把o1级别的思维链，复刻到了Claude3.5里，而且思考逻辑更详细、更像人，甚至思考过程都跟o1一样，可以展开折叠。

来自主题: AI资讯

9807 点击 2024-11-15 20:28

AI写作|炸裂了！新版Claude写知乎短篇小说真的太强了！

前段时间Claude3.5不是更新了嘛，据说各个性能都上升了不少，其中我发现文本撰写能力更是直接上升了20%多。

来自主题: AI资讯

9161 点击 2024-10-31 10:34

把AI放进《我的世界》服务器：GPT-4o杀牛宰羊，Claude3.5把家拆了｜开源

把《我的世界》交给大模型，会怎么样？

来自主题: AI资讯

11115 点击 2024-10-21 14:55

浅谈Llama3.1，从结构、训练过程、影响到数据合成

Llama3.1系列模型的开源，真让大模型格局大震，指标上堪比最好的闭源模型比如GPT 4o和Claude3.5，让开源追赶闭源成为现实。

来自主题: AI技术研报

12083 点击 2024-08-20 14:39

多模态能力全球TOP3，来自中国从容大模型

国产多模态大模型的头号交椅，再次易主

来自主题: AI资讯

7083 点击 2024-07-02 18:20

击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三

近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v，仅次于 GPT-4o（69.9）和 Claude3.5-Sonnet（67.9）。

来自主题: AI资讯

9371 点击 2024-06-29 00:19

陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

Claude 3.5 Sonnet的图表推理能力，比GPT-4o高出了27.8%。针对多模态大模型在图表任务上的表现，陈丹琦团队提出了新的测试基准。新Benchmark比以往更有区分度，也让一众传统测试中的高分模型暴露出了真实能力。

来自主题: AI技术研报

10302 点击 2024-06-29 00:07