视频生成一长就漂移竟是前序帧「太干净」惹的祸!研究揭示共享噪声水平才是长视频稳定关键
视频生成一长就漂移竟是前序帧「太干净」惹的祸!研究揭示共享噪声水平才是长视频稳定关键自回归视频生成越往后越崩的问题有救了!
搜索
自回归视频生成越往后越崩的问题有救了!
最近几年,大模型赛道好不热闹。
吉林大学&微软亚洲研究院等团队提出MindPower框架,让机器人像人一样理解他人想法并主动帮忙,构建了首个以机器人为中心的心智推理评测体系,通过六层推理链条,让AI不仅看懂场景,更能推断意图、做出决策、执行动作,显著提升助人能力。
当 Transformer 席卷计算机视觉领域,高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显:标准 Softmax 注意力的二次复杂度,让 70K+token 的超分辨率任务直接显存爆炸,高分辨率图像分割、检测的推理延迟居高不下。
最近AI圈又多了一张硬核通行证,Anthropic刚刚在官网发布了Claude首个AI架构师认证。
近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?
Karpathy让AI通宵干活,自己去蒸桑拿了。
OpenAI刚刚开除了一名员工,原因令人瞠目:此人利用公司核心机密,在Polymarket等预测市场上疯狂下注牟利。更炸裂的是,调查发现这绝非个例——过去一年多,60个神秘钱包做出了77次精准到离谱的「内幕押注」。
大家好,我是袋鼠帝。 我最近做了一个挺有意思的实验。
vibe coding这个词,是一年前Karpathy造的,现在他自己不用了。110次实验,AI Agent自主跑完,全程没碰键盘,顺带还搭了套家庭监控分析系统。Box CEO Levie看完说了一句话:专家不会消失,但专家能做到的事,边界变了。