清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线
清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线过去几年,多模态模型在理解任务上快速演进,图像问答、OCR、视觉推理、跨模态对话等能力不断提升;与此同时,图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是:能否用同一个模型,同时做好理解与生成?这正是统一多模态模型(Unified Multimodal Models, UMMs)正在回答的问题。
过去几年,多模态模型在理解任务上快速演进,图像问答、OCR、视觉推理、跨模态对话等能力不断提升;与此同时,图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是:能否用同一个模型,同时做好理解与生成?这正是统一多模态模型(Unified Multimodal Models, UMMs)正在回答的问题。
一次只持续了不到1小时的投毒事件,撕开了AI基础设施「信任链」的致命裂缝。更魔幻的是,全行业逃过一劫,居然靠黑客自己写出bug。
这两天,字节跳动开源了一个 Agent 产品,直接炸了。
想象一下这样的生活片段:你拿起手机 30 秒,屏幕立刻跳出提醒,“当前心率 78,压力中等,建议深呼吸”;家里的智能摄像头静静看着午睡的宝宝,突然通过 App 提醒你:“宝宝心率偏快,呼吸略显急促,建议进屋查看”;养老院里,巡检机器人通过一次擦身而过的对视,便能感知到老人今天情绪低落,且血氧饱和度略低于往常......
中国是NeurIPS最大的「粮仓」,却被新规一刀切断。CCF回应只有一句话:全体中国计算机领域科学家拒绝为其服务!更狠的还在后面:如不纠正错误,直接移出CCF推荐目录。
最近一直在聊Agent、聊Vibe Coding。
谷歌一篇论文,直接让存储巨头们「集体失眠」,一夜市值蒸发几百亿!最新博客官宣TurboQuant算法,直接将缓存压到3-bit,内存占用只有1/6。
最近一段时间,AI 产品的演进路径逐渐收敛到一个方向:如何让个体更高效。从自动写代码的 Devin,到嵌入各类办公软件的 Copilot,这些工具不断刷新个人生产力的上限,让“一个人完成更多事”成为现实,但问题是个体效率提升,并不等于团队效率同步提升。
天使轮拿下2.42亿美元后,它石智航到底干啥去了?然而接下来的一年里,它石智航选择了一条截然不同的路:没有参加各种行业大会,没有频繁对外发声,没有出现在春晚或各类展示活动中,一直踏实干活。
Salesforce最近在推的Einstein Agent,定位已经从Copilot(副驾驶)转向了真正的Agent(代理)。他们的客户服务Agent可以独立处理客户请求,销售Agent可以自主跟进线索。Google也在Workspace中推出了类似能力,Agent能够独立完成邮件处理、日程安排等任务。这不是个例,而是整个行业都在经历的范式转变。