多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复
自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复
最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训
GPT-5 的发布,可以看作是一个分水岭。练习时长两年半的 GPT-5,并没有展现出和 GPT-4 本质上的差别,甚至因为模型的预设人格引发了用户的反感情绪。
霸榜苹果应用榜的ChatGPT,终于被真·超越了! Nano Banana掀起破圈热潮之后,谷歌Gemini登顶成新王。 并且不止美区,包括在印度、加拿大、摩洛哥等地,Gemini全部实现登顶。
噫吁嚱! 那个昔日叱咤风云的开源框架——TensorFlow,已然是行将就木了。
在讨论 AGI 或者通用机器人定义时,人们往往会自然联想到一些直观的衡量标准,比如 AI 能否解出高考题、在国际数学奥林匹克(IMO,International Mathematical Olympiad)上获得金牌,或者机器人能否胜任家务。
AI正在以意想不到的方式进入现实政治舞台:阿尔巴尼亚成为全球首个任命「AI部长」的国家,虚拟系统Diella将全面负责公共采购项目,以对抗长期困扰该国的腐败问题。
刚刚,Claude 发布了一个重磅更新:可以直接生成Excel和PPT了! 现在,Claude可以直接创建和编辑各种文件: Excel表格、Word文档、PPT幻灯片、PDF文件,通通不在话下。
诺奖得主哈萨比斯直击AI痛点:当前LLM远非博士级智能,仅在特定领域闪光,却缺乏全面性和一致性。真正的AGI,还需1-2项关键突破,等待有5-10年。