AI资讯新闻榜单内容搜索-LiveCodeBe

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LiveCodeBe
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自主题: AI技术研报
6072 点击    2025-07-07 10:39
阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写

阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写

阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写

阿里通义Qwen团队熬夜通宵,推理模型Max旗舰版来了!QwQ-Max-Preview预览版,已在LiveCodeBench编程测试中排名第5,小超o1中档推理和DeepSeek-R1-Preview预览版。

来自主题: AI资讯
8118 点击    2025-02-25 11:52
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

来自主题: AI资讯
3961 点击    2025-01-19 15:11