
103K「硬核」题,让大模型突破数学推理瓶颈
103K「硬核」题,让大模型突破数学推理瓶颈本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。
要说AI商业化最成功的领域,广告绝对算一个。
AI的未来,不只是属于他们,而是由他们创造 在这场由AI引爆的全球创业浪潮中,一批出生于2000年后的年轻人正以惊人的速度冲上前台。
最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。
现在市面上有46种Prompt工程技术,但真正能在软件工程任务中发挥作用的,可能只有那么几种。来自巴西联邦大学、加州大学尔湾分校等顶级院校的研究者们,花了大量时间和计算资源,调研了58种,整理了46种,最终筛选测试了14种主流提示技术在10个软件工程任务上的表现,用了4个不同的大模型(包括咱们的Deepseek-V3),总共跑了2000多次实验。
奥特曼亲笔长文「温和的奇点」,在AI圈内掀起巨震。他预示了人类正迈向超级智能时代,奇点不会一夜袭来,而是悄然渗透。
OpenAI深夜放大招,正式推出“最新最强版”推理模型o3-pro! 而且同一时间,o3模型降价80%不降智。官方测评结果显示,在专家评估中,所有人一致更偏爱o3-pro而非o3的回答。
IT桔子在2024年做过一次统计:AI创业者曾在非常优秀的大厂/名企工作过的,在已透露职业背景的AI创业者中占比达到90%。其中,培养中国AI创业者较多的25家名企,包括百度、阿里、腾讯、华为、网易、360等13家中国企业;还有12家外企和跨国公司。
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?