# 热门搜索 #
搜索
搜索: 模型测评
北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

单元测试是软件开发流程中的一个关键环节,主要用于验证软件中的最小可测试单元,函数或模块是否按预期工作。单元测试的目标是确保每个独立的代码片段都能正确执行其功能,对于提高软件质量和开发效率具有重要意义。

来自主题: AI技术研报
4629 点击    2024-09-03 16:22
大模型长文本阅读能力如何评估?

长文本处理能力对LLM的重要性是显而易见的。在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k,然而今日,128k的上下文长度已经成为衡量模型技术先进性的重要标志之一。那你知道LLMs的长文本阅读能力如何评估吗?

来自主题: AI资讯
5737 点击    2024-08-14 11:25
谁在评价大模型?AI大模型评测榜单乱象调查

新华社研究院发布了《人工智能大模型体验报告2.0》,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型,最终讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排在倒数第二。

来自主题: AI资讯
8835 点击    2023-09-24 12:43