Harness 刚火,可能就要成为过去时了|Hao好聊论文
Harness 刚火,可能就要成为过去时了|Hao好聊论文随着任务的复杂度提升,Agent(智能体)的上下文在无限膨胀。在无穷的历史对话、工具调用输出、中间步骤以及报错信息中,模型迷糊了,于是开始跳步、忽视、绕道。
随着任务的复杂度提升,Agent(智能体)的上下文在无限膨胀。在无穷的历史对话、工具调用输出、中间步骤以及报错信息中,模型迷糊了,于是开始跳步、忽视、绕道。
在当下的创投话题里,有个热门概念叫“一人公司”,说只要熟练掌握AI工具,人们完全可以在没有同事、没有团队、没有组织结构的情况下独立创业,造出现象级的产品。
想象几个并不遥远的场景: 医院的病房里,刚做完手术的患者正在练习下床、走动,智能系统通过摄像头捕捉他的动作,判断步态是否稳定、有没有跌倒风险;回到家,在卧室或浴室这样私密的空间里,老人起身、转身、洗漱,甚至意外滑倒的瞬间,也可能被视觉传感器记录,只为了让 AI 能更早发现异常;
在本文中,我将探讨编码智能体(coding agents)及其智能体编排(agent harnesses)的整体设计:它们究竟是什么、工作原理如何,以及在实际应用中各组件是如何协同运作的。
Anthropic 的 Claude Code 源码被扒了个干干净净。55 个目录、331 个模块、目前业界最经受实战检验的 Agent 架构——全部暴露在 .map 文件里。
我每次翻《天龙八部》,翻到少林寺藏经阁那一段,都要停下来。
现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及3300+人工时高质量标注,揭示模型与人类的巨大鸿沟(49vs90)、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。
生数科技或计划在2026年上半年启动港股IPO流程,估值超20亿美元。
“你好,老板,你这个视频我们用即梦Seedance 2.0 生成,这一条视频报价1235.25元人民币,我们分分钟就可以用这1609.45元做出来这条视频,这可是仅仅2235.32元人民币就能换来的视频爆款,都不知道有多划算,我们产出一条视频仅需要一天,白天开工,到了晚上您只需要支付3245.98元就可以了,现在签合同吗?”
对于已经在使用强大的 Hermes Agent 的 Mac 用户来说,现在有了一款能让您的工作流更加流畅、更具原生体验的工具——Hermes Desktop。它并非一个简单的浏览器封装,而是一款专为 macOS 设计的本地应用程序,旨在将您最关心的工作流程无缝集成到一个窗口中。
今日(4月12日)上午,软银、NEC等多家日企联合组建国家级AI产业联盟,发力物理AI。
在竞争激烈的行业中,很多创业公司即便拥有充足的资金、强大的团队和名声显赫的投资者,仍然会在短时间内面临失败。
刚刚,外媒《旧金山标准报》报道,当地时间4月12日凌晨1点40分,OpenAI CEO萨姆·阿尔特曼(Sam Altman)的住所又被袭击,两名嫌疑人从车内向阿尔特曼的住所开枪,无人受伤。
如果你只把 Vercel 理解为“一个部署前端项目的工具”,那你大概只看到了它的 10%。Vercel 现在的估值是 93 亿美元,GAAP 年化收入已达 3.4 亿,同比增长 84%。这个数字放在 2026 年的 AI 公司里不算最耀眼的,但绝对是最不可思议的——因为它的起点不是 AI,而是“部署”。
有人把这些规范都整理成了 MD 文件,都在这个网站上 getdesign.md。62 个全球顶级品牌的设计语言,提炼成结构化的DESIGN.md文件,让 AI 编码 Agent 能直接读懂并执行。
从春节开始,能直接操控电脑替人干活的开源项目 OpenClaw(网友戏称龙虾)在科技圈彻底爆火。
腾讯云“防爆箱”护航百万“龙虾”上岗,已助力MiniMax强化学习训练。
名人风格的 AI 助手具备教学潜力吗?
「小猫补光灯」的作者花生...啊不...这人改名叫花叔了...hhhh,又整了一个新活:一周 8000 多个 star
在AI狂飙的这些年里,行业几乎被一条逻辑主导:算力决定上限,而GPU就是算力的核心。
LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施,达到了 76.4% 的通过率,超过了所有人工设计的方案。
2026年4月10日清晨,一名刚满20岁的年轻人,提着自制的燃烧弹,砸向了一栋价值2700万美元的豪宅。几个小时后,这名嫌疑人又出现在OpenAI的办公楼外,扬言要把整栋大楼烧成灰烬。
当企业真金白银开始从 ChatGPT 流向 Claude,Anthropic 打的早已不只是模型性能战,而是一场从工程师口碑、企业信任到「AI灵魂校准」的全面突围。
超声领域也有大模型了!
相信大家都能感觉到,进入2月以来,“上下文工程”、“Vibe Coding”的热度已经让位给了一个新名词:"harness engineering"。
T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。
Browser Use是Hermes Agent官方推荐的云端浏览器自动化提供商之一:
字节扣子悄悄升级了,全新上线2.5版本。
近日,哈尔滨工业大学(深圳)联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT(Latent Reasoning Tuning),通过一个轻量级的推理网络,将大模型冗长的「思维链」压缩为紧凑的隐式向量表征,一次前向计算即可完成推理,无需逐 token 生成数千字的中间推理过程。
MiniMax M2.7 在今天正式开源。我们和华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA,以及 Together AI、Fireworks、Ollama 等海内外芯片厂商、推理平台携手,在开源首日即完成模型接入与推理适配工作,推动全球 AI 生态繁荣发展。