
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平
当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平
LeCun 向 Alexandr Wang 汇报?Meta 内部:是的。 招募了一众 AI 大牛以后,Meta 能吃得消吗?—— 这可能是很多人在问的问题。
中国人民大学高瓴人工智能学院的研究团队提出通过创新模型架构来提升性能,其SPACE模型引入新架构,提升了DNA基础模型的性能与泛化能力,在多项测试中表现优异。
Grok 4一夜爆火硅谷,幕后团队功不可没。今天,一张内部作战图在全网疯转,华人学者占比高达80%。清华、上交、浙大等校友云集,还有一位95后联创。
作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。
我们认为,“隐私”与“AI”的关系,是关乎未来的一个关键议题,必须被严肃、妥善地解决。我们之所以坚持,是因为这不仅是技术问题,更关乎制度上的“先例”会怎么被建立。
现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。
昨天,飞书在上海举办了 2025 年飞书未来无限大会,我们也去现场瞅了瞅。刚进会场,第一感受就是人真多。
最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。
让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。