AI资讯新闻榜单内容搜索-3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 3
全靠Claude4!30年FAANG老工程师:AI帮我解决了4年老bug

全靠Claude4!30年FAANG老工程师:AI帮我解决了4年老bug

全靠Claude4!30年FAANG老工程师:AI帮我解决了4年老bug

AI 就像一头野驴,跑起来就不停。人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。奥!最新进展是已经能自己生成音画同步的超真实脱口秀了。

来自主题: AI资讯
8828 点击    2025-05-28 12:12
全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!

来自主题: AI技术研报
9277 点击    2025-05-28 11:58
AI落地难题:越“基础”的行业跑得越慢?

AI落地难题:越“基础”的行业跑得越慢?

AI落地难题:越“基础”的行业跑得越慢?

人工智能的2C应用进展很快,2024年美国居民生成式AI的渗透率已达39.6%(来源:圣路易斯联储)。然而,当前的模型厂商还热衷于评分打榜、技术炫耀,企业应用尚处于早期阶段。迫切需要找到丰富的落地场景,加快推进AI和各行各业的深度融合。

来自主题: AI资讯
7271 点击    2025-05-28 10:15
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

来自主题: AI技术研报
6737 点击    2025-05-28 09:42
字节Trae正面硬刚 Cursor,首月订阅3美元,次月10美元,但有个致命问题...

字节Trae正面硬刚 Cursor,首月订阅3美元,次月10美元,但有个致命问题...

字节Trae正面硬刚 Cursor,首月订阅3美元,次月10美元,但有个致命问题...

5 月 27 日,Trae.ai —— 也就是字节跳动推出的那个“AI 编程 IDE”,海外版正式上线 Pro 订阅模式。5 月 27 日,Trae.ai —— 也就是字节跳动推出的那个“AI 编程 IDE”,海外版正式上线 Pro 订阅模式。

来自主题: AI资讯
10078 点击    2025-05-28 09:04
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

Meta推出KernelLLM,这个基于Llama 3.1微调的8B模型,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能超越GPT-4o和DeepSeek V3,多次生成时得分飙升。

来自主题: AI技术研报
7004 点击    2025-05-27 18:00
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
10046 点击    2025-05-27 16:53
Cognition,10块奥数金牌撑起的AI编程奇迹,这家华人公司是否能笑到最后?

Cognition,10块奥数金牌撑起的AI编程奇迹,这家华人公司是否能笑到最后?

Cognition,10块奥数金牌撑起的AI编程奇迹,这家华人公司是否能笑到最后?

自 2024 年 3 月 Devin 首次亮相以来,AI 编程世界的叙事就被彻底改写。这款由 Cognition 打造的“全自动 AI 软件工程师”,在短短数月内登上技术话题的C位:一段其独立修复开源 Bug 的演示视频在 X 平台播放量突破 3000 万,成为AI圈罕见的“破圈时刻”。

来自主题: AI资讯
8730 点击    2025-05-27 16:40
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。

来自主题: AI技术研报
9071 点击    2025-05-27 16:13