Claude比你更懂你的需求?Anthropic工程师公开内部用法:用HTML作为AI规范,反而比Markdown更省Token;让“验证”成为Agent的原生特性
Claude比你更懂你的需求?Anthropic工程师公开内部用法:用HTML作为AI规范,反而比Markdown更省Token;让“验证”成为Agent的原生特性“Claude 可能比你更擅长从你这里提取出你想要和需要的东西,而不是由你向 Claude 详细指定。”
搜索
“Claude 可能比你更擅长从你这里提取出你想要和需要的东西,而不是由你向 Claude 详细指定。”
智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。
很多人以为,AI视频的终点是“生成一段让人惊艳的画面”。
机器人操作正在从结构化工业场景走向更开放的真实环境。相比完成单个预设动作,真实任务往往包含更长的执行链条、更复杂的物体交互,以及更多不可控的外部扰动。一次抓取没有完全夹稳、目标物体被轻微碰偏、双臂交接时姿态出现偏差,都可能让后续步骤偏离原本计划。
近日,谷歌在2026 I/O大会上发布了旗下AI for Science工具组合Gemini for Science。 该组合包含了谷歌旗下三款顶尖的AI科研工具,能实现假设生成、计算发现和文献综述的
近日,小红书开始灰度开放Skill上传入口,提出了一个值得认真对待的问题:在 Skill生态中,内容平台究竟扮演什么角色?和大厂推出的Agent平台之间,是竞争关系,还是正在形成某种协作分工?
Google把科学研究的三个核心瓶颈:假设生成、计算发现、文献洞察拆解为三个可由AI深度辅助的模块,并同日发表两篇Nature论文,为假设生成和计算发现两大环节提供支撑。
现在,图灵奖得主 Yoshua Bengio 给出了一份全新的并行方案。他们提出了 GRAM(Generative Recursive reAsoning Models,生成式递归推理模型),把确定性的递归潜在推理变成了概率性的多轨迹计算。模型在潜在空间中进行随机递归推理,每一步都可以采样不同的方向,最终形成对解空间的多路径探索。
来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR—— 一个轻量级的后训练加速框架。不需要从头训练,在 Emu3.5-Image-34B 模型上,仅用原始训练数据的 0.05%(约 8 万张图片),就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash,实现最高 22.9 倍的端到端加速。
本周的 I/O 大会上,谷歌推出了智能体(Agent)时代的全新搜索体验,号称 25 年来对自家搜索引擎的首次重大更新。就在大家满怀期待都开始大用特用的时候,却发现了一系列 bug。