实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
搜索
数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
Runway带着新一代视频生成模型Gen-4杀回来了!
OpenAI真的要开源了!奥特曼官宣,即将开源自GPT-2以来的首款推理模型,可在消费级硬件上运行。同时,OpenAI又拿到了最高400亿单轮融资,估值直冲3000亿。
当你幻想买彩票中“一个小目标”时,可能已经掉进了电诈的连环骗局。
当AI科技的浪潮撞上了各家游戏公司对“降本增效”的迫切需求,过去的几年里,行业里只要能叫上名的企业集体尝试把AI加入生产流程,力求“花小钱办大事”。
面对 AI,字节依然是那个字节:一旦看到有潜力的方向,就加倍、饱和、全面出击。
红杉资本、A16Z 最近讨论了对语音人工智能初创公司 Sesame 的融资。该公司专注于开发人工智能语音助手和可穿戴设备。
最近,ChatGPT 4o 新上线了多模态绘图功能,‘吉卜力’刷爆了特工们朋友圈的同时,也夹带着艺术设计圈朋友们的哀嚎,最让我们共情的莫过于推上的此段发言:
这比真人都真
2025年,人工智能领域正在经历一场由LLM Agent引发的深刻变革,不管普通人的衣食住行还是研究者的尖端研究,都很难不受Agent的影响。