能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了
能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的
今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的
刚刚,AI医疗新突破,来自谷歌!这一次,他们直接瞄准了真实临床环境的痛点。为此,谷歌祭出了最新模型MedGemma 1.5,找到了破局答案。相较于此前的MedGemma 1.5,MedGemma 1.5在多模态应用上实现重大突破,融合了:
OpenAI悄悄发布了翻译产品ChatGPT Translate,谷歌则祭出强势回应——TranslateGemma,一个能在手机上翻55种语言的开源模型。
CAMEL AI 早前的一个开源项目 Eigent,因为和 Cowork 高度相似,作为开源平替,也跟着火了一把。 这条帖子爆火后,CAMEL AI 团队复盘了他们从 2023 年发布 CAMEL 框架开始,到 Eigent 项目的三年探索经历。
我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是:用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在:
1 月 15 日,OpenAI 宣布参与了脑机接口(Brain-Computer Interface,BCI,一种直接读取或调控大脑神经活动以实现人机交互的技术)公司 Merge Labs 的种子轮融资。这家刚刚走出隐身模式的初创公司总计募得约 2.52 亿美元,
只靠模型性能,永远解决不了工程问题,真正的解法在云端Agent——这是芸思智能(Vinsoo)团队在研发之初就建立的认知。Vinsoo3.0中,Vinsoo云端Agent通过架构革命,实现了对传统工具的降维打击。
随着AI大模型研发在架构、记忆、存储等等领域的深水区创新,OCR重新成为了技术专项。DeepSeek在研究、智谱在研究、阿里千问和腾讯混元也都在研究……还得是吴恩达老师,火速来了新课程,帮你速通OCR。
Claude Cowork一出,直接砸碎了Guohao Li的创业梦,华人学者反手把分布式多智能体项目全开源!代码朋克的怒火,已点燃整个AI社区。下一代Agent的战争,就此打响。
数学奇点初现!Gemini攻克全新数学定理,斯坦福大牛惊呼「想出来能吹一辈子」;陶哲轩预言数学家+AI共生未来;Grok发现黎曼猜想新的隐蔽通道……