AI资讯新闻榜单内容搜索-LiveCodeBe

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LiveCodeBe
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。

来自主题: AI技术研报
6374 点击    2025-10-25 14:32
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自主题: AI技术研报
7031 点击    2025-07-07 10:39
阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写

阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写

阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写

阿里通义Qwen团队熬夜通宵,推理模型Max旗舰版来了!QwQ-Max-Preview预览版,已在LiveCodeBench编程测试中排名第5,小超o1中档推理和DeepSeek-R1-Preview预览版。

来自主题: AI资讯
8905 点击    2025-02-25 11:52
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

来自主题: AI资讯
4390 点击    2025-01-19 15:11