Medeo 教程:一次生成无脑抽卡不可取,真正的视频 Agent 应该啥样
Medeo 教程:一次生成无脑抽卡不可取,真正的视频 Agent 应该啥样今年早些时候给大家介绍了 AI 视频生成 Agent Medeo 的 0.5 版本,当时他们已经算是这个品类的先行者了。
今年早些时候给大家介绍了 AI 视频生成 Agent Medeo 的 0.5 版本,当时他们已经算是这个品类的先行者了。
最近,视频会议软件公司 Zoom 发布了一条出人意料的消息:他们宣称在“人类最后的考试”(Humanity s Last Exam,简称 HLE)这个号称当前 AI 领域最具挑战性的基准测试上,取得了 48.1% 的成绩,比此前由 Google Gemini 3 Pro(带工具)保持的 45.8% 高出 2.3 个百分点。
在深入技术细节之前,我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案:正如钟离在漫画中所言,面对海量视觉指令数据的选择任务,传统方法需要遍历全部数据才能进行筛选造成大量「磨损」(高昂计算成本)。同时在面对数据重要性和多样性问题时,传统方法往往顾此失彼。
就在最近,豆包上新了图像创作模型 Doubao-Seedream-4.5(以下简称 Seedream 4.5)。 猜猜下面两张图片,哪张是 Seedream 4.5 生成的?哪张是最近风头正盛的 Nano Banana Pro 生成的?
崇“洋”媚外这一块,也是轮到美国网友了!最近,一篇“中国机器人在比火场救人,美国机器狗还在给扎克伯格套脸?”的帖子被顶上了Reddit热门。这多多少少让一众美国网友有点破防。
新加坡国立大学 LV Lab(颜水成团队) 联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架:首次从频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的「低频到高频」演变规律,并据此设计了动态路由机制。
Anthropic联合创始人兼首席科学官Jared Kaplan,认为在2027-2030年期间,我们将不得不做出是否允许 AI 自我进化的抉择,而允许的话很可能导致AI失控,毁灭全人类。Anthropic在迅速提升AI模型性能不断逼近AGI奇点的同时,也在同时让「9人特种部队」用1.4万字的「AI宪法」防范AI失控。
近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。
上周,Sam Altman 罕见地按下了属于 OpenAI 的核按钮——「Code Red」(红色警报)。 这不仅仅是一个战术调整,更像是一场带着血腥味的「断臂求生」。Altman 的意思很明确:Sora?先停一停。那些酷炫但不赚钱的副业?全部靠边站。在未来八周内,全公司必须死磕一件事——让 ChatGPT 重新变得不可替代。
还在为单独找配音、手动加音效、反复调画面节奏而焦头烂额?