500行极简开源框架,硬刚GPT/Gemini视觉极限!
500行极简开源框架,硬刚GPT/Gemini视觉极限!多模态模型代码写得像老司机,却在数手指、量柱子时频频翻车?UniPat AI用五百行代码打造的SWE-Vision,让模型「掏出Python尺子」自我验证,一举拿下五大视觉相关基准SOTA。
多模态模型代码写得像老司机,却在数手指、量柱子时频频翻车?UniPat AI用五百行代码打造的SWE-Vision,让模型「掏出Python尺子」自我验证,一举拿下五大视觉相关基准SOTA。
半年前我对MuleRun的结论是,阿里老哥拿出了看家的电商心法,要做AI淘宝,供给侧改革,思路典中典。那篇文章最后一句话是等大来——你去喝两瓶假酒一觉睡到明年什么都没错过。
多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。
Karpathy让AI通宵干活,自己去蒸桑拿了。
最近,一个叫OpenClaw(小龙虾)的开源项目突然爆火,甚至出现线下排队安装的场面。很多人第一次直观地看到,AI不只是chatbot,而是可以真正“动手”操作电脑、完成复杂任务和个性化工作流的智能体。这意味着AI正在进入下半场,开始走向真实应用,并逐渐进入普通人的日常生活。
vibe coding这个词,是一年前Karpathy造的,现在他自己不用了。110次实验,AI Agent自主跑完,全程没碰键盘,顺带还搭了套家庭监控分析系统。Box CEO Levie看完说了一句话:专家不会消失,但专家能做到的事,边界变了。
在奥斯汀的龙虾大会,15岁的Branson Pfiester分享了他的养虾经历—— 在过去三周里,他使用Home Club这个平台,创造了超过3万美元的合同收入。他还有一个「知识抓取机器人」。当有新客户时,它会对他们进行全面的研究,帮他弄清楚帮助他们业务的最佳方式等等。
空间 Agentic AI 公司 Fullive.AI,成立1个月内连续完成种子轮、种子+轮融资,由高瓴创投、慕华科创、智元机器人、北大苏南研究院与多家产业加持方共同投资,多维资本担任本轮融资财务顾问。本轮资金将用于 Bio-OS 空间 AI Agent的迭代、首款睡眠空间 AI 硬件的研发,以及 AI 生态建设。
编程智能体时代,顶流Cursor举旗发布新的评测基准——CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。关于咋评的这个问题,Cursor还专门撰写了一篇博客。
最近,一家医疗AI公司给出了更「系统级」的解法。刚刚,智诊科技(WiseDiag)正式发布企业级医疗健康行业智能体平台WiseClaw!它的产品底座,正是来自OpenClaw架构。