AI资讯新闻榜单内容搜索-小模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 小模型

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

gpt5来临前夕，oai疑似发布的小模型gpt-oss 120B的架构图已经满天飞了。难得openai要open一次，自然调动了我的全部注意力机制。本来以为oai还要掏出gpt2意思意思，结果看到了一个120B moe。欸？！

来自主题: AI资讯

10116 点击 2025-08-04 15:03

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报

7581 点击 2025-07-11 16:30

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

7474 点击 2025-07-09 12:10

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

如果一个视觉语言模型（VLM）只会“看”，那真的是已经不够看的了。

来自主题: AI技术研报

10002 点击 2025-07-02 15:56

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

Thinking模式当道，教师模型也该学会“启发式”教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI，带着他们的新方法来了！

来自主题: AI技术研报

10235 点击 2025-06-25 10:55

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

无需蒸馏任何大规模语言模型，小模型也能自给自足、联合提升？

来自主题: AI技术研报

7995 点击 2025-06-22 16:13

沉迷贪吃蛇，7B小模型竟变身「数学天才」！几何推理碾压GPT-4o

沉迷贪吃蛇，7B小模型竟变身「数学天才」！几何推理碾压GPT-4o

沉迷贪吃蛇，7B小模型竟变身「数学天才」！几何推理碾压GPT-4o

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏，AI不仅掌握了游戏技巧，还培养出强大的跨领域推理能力，在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报

7548 点击 2025-06-17 16:53

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

Time-R1通过三阶段强化学习提升模型的时间推理能力，其核心是动态奖励机制，根据任务难度和训练进程调整奖励，引导模型逐步提升性能，最终使3B小模型实现全面时间推理能力，超越671B模型。

来自主题: AI技术研报

7462 点击 2025-06-09 15:54

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？

来自主题: AI技术研报

7818 点击 2025-06-05 10:27

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

为提升大模型“推理+搜索”能力，阿里通义实验室出手了。

来自主题: AI技术研报

9099 点击 2025-05-31 16:19

上一页当前第5页,共17页下一页