消除激活值(outliers),大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024(Oral Presentation),他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。
消除激活值(outliers),大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024(Oral Presentation),他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。
卖铲子相比蜂拥去淘金,永远是更好的选择。在大模型风靡全球、蕴含极大商业价值的今天,「先进铲子」之间的竞赛,正趋向白热化。
一个时代有一个时代的操作系统。 但已经趋势明确的AI时代,操作系统究竟长什么样?该有怎样的能力?以及谁会是那个天命OS……通通还没有共识。
Glean可以把它想象成是企业内部的Google或ChatGPT,它是一个员工可以去提问的地方,而Glean会利用公司的知识来回答所有这些问题,无论这些知识存储在哪里,都会将其整合到一起。
到现在为止,世界上几乎没有程序员不以某种方式使用人工智能助手。但使用 GitHub Copilot 或 Cursor.AI 来询问技术问题和获取调试帮助可能只是个开始。人工智能编程有一天可能涉及能够根据自然语言提示自行编写程序的代理。这些程序甚至可能取代人类工程师。
在买下ai.com之后,OpenAI又把chat.com纳入囊中了,据称花费了1500-2000万美金。相较于前者,chat.com更符合ChatGPT聊天的调性。如今,进入ChatGPT,只需6/8个字符就可以了。
美国大选尘埃落定,关于AI的行政命令即将废除,芯片法案或许也会出现变动。硅谷科技巨头们将迎接怎样的巨变?
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。
今年我的重心转向了学习物理、阅读历史和写作,很少再专门思考AI话题。