
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架自然语言 token 代表的意思通常是表层的(例如 the 或 a 这样的功能性词汇),需要模型进行大量训练才能获得高级推理和对概念的理解能力,
来自主题: AI技术研报
4506 点击 2025-02-16 13:12
自然语言 token 代表的意思通常是表层的(例如 the 或 a 这样的功能性词汇),需要模型进行大量训练才能获得高级推理和对概念的理解能力,
2024年已经结束,2025年对于AI又意味着什么?田渊栋最新长文中对过去一年做了全面的总结。
一般而言,LLM 被限制在语言空间(language space)内进行推理,并通过思维链(CoT)来表达推理过程,从而解决复杂的推理问题。
3 月 6 日,田渊栋又一项研究出炉,这次,他们主攻 LLM 内存效率。除了田渊栋本人,还有来自加州理工学院、德克萨斯大学奥斯汀分校以及 CMU 的研究者。