Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索
Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索大家好,我是Jomy,是智跃Zleap的CEO,也是Zleap产品和技术的主要设计者。此前在报道中,我曾粗略介绍过Zleap产品背后的技术:一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天,我要正式为大家介绍驱动这个Agent的底层技术:SAG。
大家好,我是Jomy,是智跃Zleap的CEO,也是Zleap产品和技术的主要设计者。此前在报道中,我曾粗略介绍过Zleap产品背后的技术:一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天,我要正式为大家介绍驱动这个Agent的底层技术:SAG。
我最开始接触Claude Code——这种「代理式终端编程工具」的时候,说实话,很不习惯 于是我安装了很多第三方工具来让它变得更好用,例如安装ccusage查看用量、安装Claudia把它变回 IDE等等
清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。
2025年6月,AI 代码编辑器 Cursor 因定价模式调整引发广泛争议。原先的“按次计费”(per-request billing)改为基于 token 的“按量计费”(usage-based pricing),导致部分用户面临意外扣费,社区反馈强烈Cursor 于7月5日发布致歉声明,承诺退款并澄清新计费模式。
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。
判断AI是否智能,评价维度如今已不仅限于刷榜成绩。
护城河是所有投资人和创始人都非常关注的一个概念,因为它涉及到企业的长期价值和生死存亡。AI 时代,大家对护城河同样有执念,但是越来越搞不懂什么才是这个时代的护城河了,甚至是否还有护城河都已经是一个问题。
从去年8月开始,SAG-AFTRA(美国演员工会-美国广播电视艺术家联合会,下称“SAG”)针对游戏行业大规模滥用AI的现象,发起了大规模罢工——SAG的诉求,主要包括资方使用AI技术时保证配音演员和动捕演员的权益不受侵害、明确告知声像作品的使用用途等等。
大模型中,线性层的低比特量化已经逐步落地。然而,对于注意力模块,目前几乎各个模型都还在用高精度(例如 FP16 或 FP32)的注意力运算进行训练和推理。并且,随着大型模型需要处理的序列长度不断增加,Attention(注意力运算)的时间开销逐渐成为主要开销。
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!