AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

您有没有发现一个奇怪的现象:同样是Vibe coding,有些人轻松拿到完整的Flask应用,有些人却只得到几行if-else语句?剑桥大学计算机科学与技术系的研究者们最近发布了一项研究,用科学的方法证实了我们的直觉——AI确实会"看人下菜碟"。

来自主题: AI技术研报
7281 点击    2025-06-17 10:08
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。

来自主题: AI技术研报
6489 点击    2025-06-17 09:46
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限

来自主题: AI技术研报
8239 点击    2025-06-16 17:26
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。

来自主题: AI技术研报
8160 点击    2025-06-16 17:04
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

来自主题: AI技术研报
7609 点击    2025-06-16 16:31
Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

苹果一篇论文,再遭打脸。研究员联手Claude Opus用一篇4页论文再反击,揭露实验设计漏洞,甚至指出部分测试无解却让模型「背锅」的华点。

来自主题: AI技术研报
7641 点击    2025-06-16 15:29
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报
7192 点击    2025-06-16 15:27
技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型,MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势,这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报
6080 点击    2025-06-16 15:24
近期必读!Devin VS Anthropic 的多智能体构建方法论

近期必读!Devin VS Anthropic 的多智能体构建方法论

近期必读!Devin VS Anthropic 的多智能体构建方法论

昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方面。

来自主题: AI技术研报
8917 点击    2025-06-16 10:17