AI资讯新闻榜单内容搜索-模型测评

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 模型测评
o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

美国本科生最难数学竞赛,o1 pro竟然只用半小时就全部做出来了?要知道,参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现,错误率似乎高达100%,12道题没有一道完全正确?

来自主题: AI技术研报
8077 点击    2024-12-09 15:09
Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具

Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具

Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具

最近,Nature上的一项研究,全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示,与其说LLM是科学理论,不如说它们更接近工具,比如广义导数。

来自主题: AI技术研报
7846 点击    2024-11-16 15:52
北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

单元测试是软件开发流程中的一个关键环节,主要用于验证软件中的最小可测试单元,函数或模块是否按预期工作。单元测试的目标是确保每个独立的代码片段都能正确执行其功能,对于提高软件质量和开发效率具有重要意义。

来自主题: AI技术研报
4941 点击    2024-09-03 16:22
大模型长文本阅读能力如何评估?

大模型长文本阅读能力如何评估?

大模型长文本阅读能力如何评估?

长文本处理能力对LLM的重要性是显而易见的。在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k,然而今日,128k的上下文长度已经成为衡量模型技术先进性的重要标志之一。那你知道LLMs的长文本阅读能力如何评估吗?

来自主题: AI资讯
6090 点击    2024-08-14 11:25
国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

在2023年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题

来自主题: AI资讯
5095 点击    2024-04-19 21:21
谁在评价大模型?AI大模型评测榜单乱象调查

谁在评价大模型?AI大模型评测榜单乱象调查

谁在评价大模型?AI大模型评测榜单乱象调查

新华社研究院发布了《人工智能大模型体验报告2.0》,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型,最终讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排在倒数第二。

来自主题: AI资讯
9102 点击    2023-09-24 12:43