AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。

来自主题: AI技术研报
6205 点击    2024-07-02 18:25
ML工程师一次微调7个模型,击败OpenAI GPT-4

ML工程师一次微调7个模型,击败OpenAI GPT-4

ML工程师一次微调7个模型,击败OpenAI GPT-4

「微调你的模型,获得比GPT-4更好的性能」不只是说说而已,而是真的可操作。最近,一位愿意动手的ML工程师就把几个开源LLM调教成了自己想要的样子。

来自主题: AI技术研报
9424 点击    2024-07-02 15:26
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

本文研究发现大语言模型在持续预训练过程中出现目标领域性能先下降再上升的现象。

来自主题: AI技术研报
9932 点击    2024-07-02 11:27
等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

人工智能(AI)在过去十年里取得了长足进步,特别是在自然语言处理和计算机视觉领域。然而,如何提升 AI 的认知能力和推理能力,仍然是一个巨大的挑战。

来自主题: AI技术研报
10389 点击    2024-07-01 15:13
LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则

LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则

LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则

最近,Hacker News热榜上出现了一篇「声讨」LangChain的技术文章,得到了评论区网友的一致呼应。去年还火遍LLM圈的LangChain,为什么口碑逆转了?

来自主题: AI资讯
12151 点击    2024-07-01 13:20
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。

来自主题: AI资讯
10064 点击    2024-07-01 12:21
Google AI:构建未来智能世界的创新引擎

Google AI:构建未来智能世界的创新引擎

Google AI:构建未来智能世界的创新引擎

谷歌作为全球领先的科技公司,在 AI 领域拥有深厚的积累和卓越的创新能力,在谷歌眼里,生成式 AI 带来了哪些机会?Google AI 是如何在谷歌产品中落地的?Google Cloud 提供了一系列工具和平台,如何帮助开发者构建和部署自己的专属 LLM 和 Agent?负责任的 AI 为企业带来哪些价值?

来自主题: AI资讯
10242 点击    2024-06-28 16:44
LLM最喜欢的随机数是什么?答案竟是ta!

LLM最喜欢的随机数是什么?答案竟是ta!

LLM最喜欢的随机数是什么?答案竟是ta!

计算机程序可以生成很像真随机的「伪随机数」,而LLM表示,干脆不装了,我就有自己最喜欢的数。

来自主题: AI技术研报
9776 点击    2024-06-28 16:37
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

来自主题: AI资讯
5083 点击    2024-06-28 16:24