AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 模型训练
将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。然而,当前的 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。

来自主题: AI技术研报
5456 点击    2025-02-07 16:16
英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA

英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA

英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA

SANA 1.5是一种高效可扩展的线性扩散Transformer,针对文本生成图像任务进行了三项创新:高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本,还在生成质量上达到了最先进的水平。

来自主题: AI技术研报
9778 点击    2025-02-07 16:05
被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。

来自主题: AI技术研报
5447 点击    2025-02-07 15:43
微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

2025年,软件工程要彻底变天了。先有奥特曼预言,后有微软下场All in智能体。刚刚,首个自主SWE智能体面世,不仅会主动改bug修复错误,还能自主提交PR评论。

来自主题: AI技术研报
6467 点击    2025-02-07 15:30
大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

来自主题: AI技术研报
3525 点击    2025-02-06 15:30
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。

来自主题: AI技术研报
4439 点击    2025-02-05 13:46
OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?

OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?

OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?

这两天,国外网友纷纷发现o3-mini-high在思考过程中居然会经常出现中文!难道真如网友猜测,是借鉴DeepSeek了?

来自主题: AI资讯
7537 点击    2025-02-04 17:12
字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

在人工智能浪潮席卷全球的今天,大语言模型 (LLM) 正在重塑软件开发流程。近日,字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节,展示了 AI 在提升企业研发效率方面的重要进展。

来自主题: AI技术研报
6171 点击    2025-02-03 18:01
全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

当下,视频生成备受关注,有望成为处理物理知识的 “世界模型” (World Model),助力自动驾驶、机器人等下游任务。然而,当前模型在从 “生成” 迈向世界建模的过程中,存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报
6800 点击    2025-02-02 19:07