AI资讯新闻榜单内容搜索-LLM

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

来自主题: AI技术研报

3978 点击 2024-11-11 14:36

你是天才竟然比白痴得分低？卡梅隆和斯坦福最新，你是Assistant会让LLM降低性能，Roleplay究竟该怎么用

在Prompt工程领域，角色扮演提示是否能够有效提高大型语言模型（LLM）的性能一直是一个备受关注的话题。

来自主题: AI资讯

3143 点击 2024-11-11 14:32

从LLM大模型到SLM小模型再到TinyML，这个领域有望增长31倍并催生新的商业模式

生成式人工智能GenAI是否存在泡沫？这个问题日益成为业界热议的焦点。目前，全球对AI基础设施的投资已到了癫狂的成千上万亿美元的规模，然而大模型如何实现盈利却始终没有一个明确的答案。

来自主题: AI资讯

3374 点击 2024-11-11 10:20

谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背后藏着更大秘密

大模型幻觉，究竟是怎么来的？谷歌、苹果等机构研究人员发现，大模型知道的远比表现的要多。它们能够在内部编码正确答案，却依旧输出了错误内容。

来自主题: AI技术研报

3841 点击 2024-11-10 14:11

$清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分$

清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

大模型的记忆限制被打破了，变相实现“无限长”上下文。最新成果，来自清华、厦大等联合提出的LLMxMapReduce长本文分帧处理技术。

来自主题: AI技术研报

3943 点击 2024-11-09 15:38

MetaGPT开源自动生成智能体工作流，4.55%成本超GPT-4o

对于 LLM 从业者来说，让 LLM 落地应用并发挥作用需要手动构建并反复调试 Agentic Workflow，这无疑是个繁琐过程，一遍遍修改相似的代码，调试 prompt，手动执行测试并观察效果，并且换个 LLM 可能就会失效，有高昂的人力成本。许多公司甚至专职招聘 Prompt Engineer 来完成这一工作。

来自主题: AI技术研报

3381 点击 2024-11-09 10:31