全靠Claude4!30年FAANG老工程师:AI帮我解决了4年老bug
全靠Claude4!30年FAANG老工程师:AI帮我解决了4年老bugAI 就像一头野驴,跑起来就不停。人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。奥!最新进展是已经能自己生成音画同步的超真实脱口秀了。
AI 就像一头野驴,跑起来就不停。人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。奥!最新进展是已经能自己生成音画同步的超真实脱口秀了。
最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!
国补后7649(原价8999),雷鸟正式发布了带有定制大模型和全彩显示的AI眼镜——X3 Pro。
人工智能的2C应用进展很快,2024年美国居民生成式AI的渗透率已达39.6%(来源:圣路易斯联储)。然而,当前的模型厂商还热衷于评分打榜、技术炫耀,企业应用尚处于早期阶段。迫切需要找到丰富的落地场景,加快推进AI和各行各业的深度融合。
上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。
5 月 27 日,Trae.ai —— 也就是字节跳动推出的那个“AI 编程 IDE”,海外版正式上线 Pro 订阅模式。5 月 27 日,Trae.ai —— 也就是字节跳动推出的那个“AI 编程 IDE”,海外版正式上线 Pro 订阅模式。
Meta推出KernelLLM,这个基于Llama 3.1微调的8B模型,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能超越GPT-4o和DeepSeek V3,多次生成时得分飙升。
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。
自 2024 年 3 月 Devin 首次亮相以来,AI 编程世界的叙事就被彻底改写。这款由 Cognition 打造的“全自动 AI 软件工程师”,在短短数月内登上技术话题的C位:一段其独立修复开源 Bug 的演示视频在 X 平台播放量突破 3000 万,成为AI圈罕见的“破圈时刻”。
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。