AI资讯新闻榜单内容搜索-模型训练

DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力

1822 年，电学之父法拉第在日记中写到“既然通电能够产生磁力，为什么不能用磁铁产生电流呢？我一定要反过来试试！”。于是在 1831 年，第一台发电机被发明，推动了人类进入电气化时代。

来自主题: AI技术研报

7651 点击 2024-12-27 10:16

引入长思维链！微信基于阿里千问大模型搞出个翻译版o1

最近，类 o1 模型的出现，验证了长思维链 (CoT) 在数学和编码等推理任务中的有效性。在长思考（long thought）的帮助下，LLM 倾向于探索、反思和自我改进推理过程，以获得更准确的答案。

来自主题: AI技术研报

8705 点击 2024-12-27 10:03

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

大模型中，线性层的低比特量化已经逐步落地。然而，对于注意力模块，目前几乎各个模型都还在用高精度（例如 FP16 或 FP32）的注意力运算进行训练和推理。并且，随着大型模型需要处理的序列长度不断增加，Attention（注意力运算）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

8428 点击 2024-12-27 09:44

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

o3在超难推理任务ARC-AGI上的成绩，属实给人类带来了不少震撼。但有人专门研究了它不会做的题之后，有了更有趣的发现—— o3之所以不会做这些题，原因可能不是因为太难，而是题目的规模太大了。

来自主题: AI资讯

7140 点击 2024-12-26 15:49

无需训练、即插即用，新算法大幅增强视频生成质量｜NUS＆上海AI Lab&UT Austin

无需额外模型训练、即插即用，全新的视频生成增强算法——Enhance-A-Video来了！

来自主题: AI技术研报

10901 点击 2024-12-26 13:16

2025年，中国AI的趋势与思考

两年前，ChatGPT横空出世，掀起一场超强的“AI旋风”；最近，OpenAI用连续12天的发布会再次让全球进入“AI狂欢”。但不同于两年前的震惊、兴奋与困惑，今天的学界和产业界对于AGI路线有了更多的“中国思考”。

来自主题: AI资讯

8121 点击 2024-12-25 09:19

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

对 AI 研究者来说，数学既是一类难题，也是一个标杆，能够成为衡量 AI 技术的发展重要尺度。近段时间，随着 AI 推理能力的提升，使用 AI 来证明数学问题已经成为一个重要的研究探索方向。

来自主题: AI技术研报

7749 点击 2024-12-24 15:37

行人、车辆、动物等ReID最新综述！武大等全面总结Transformer方法 | IJCV 2024

研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析，将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景，提出了Transformer基线UntransReID，设计动物Re-ID的标准化基准测试，为未来Re-ID研究提供新手册。

来自主题: AI技术研报

5921 点击 2024-12-24 15:22

GPT - 5 卡壳了。。。

OpenAI 代号为 Orion 的新 AI 项目遇到了一个又一个问题。

来自主题: AI资讯

8745 点击 2024-12-24 10:01

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

只需几十个样本即可训练专家模型，强化微调RLF能掀起强化学习热潮吗？具体技术实现尚不清楚，AI2此前开源的RLVR或许在技术思路上存在相似之处。

来自主题: AI资讯

8688 点击 2024-12-23 15:58