AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT),从两个独立的维度分别考察了LLM的时间理解和算术能力。

来自主题: AI技术研报
10123 点击    2024-07-05 16:35
GPT-4o竟是「道德专家」?解答50道难题,比纽约大学教授更受欢迎

GPT-4o竟是「道德专家」?解答50道难题,比纽约大学教授更受欢迎

GPT-4o竟是「道德专家」?解答50道难题,比纽约大学教授更受欢迎

大语言模型有道德推理能力吗?不仅有,甚至可能在道德推理方面超越普通人和专家学者!最新研究发现:GPT-4o针对道德难题给出的建议比人类专家更让人信服。

来自主题: AI技术研报
10051 点击    2024-07-05 16:30
少即是多!10亿参数「小巨人」击败ChatGPT

少即是多!10亿参数「小巨人」击败ChatGPT

少即是多!10亿参数「小巨人」击败ChatGPT

只有10亿参数的xLAM-1B在特定任务中击败了LLM霸主:OpenAI的GPT-3.5 Turbo和Anthropic的Claude-3 Haiku。上个月刚发布的苹果智能模型只有30亿参数,就连奥特曼都表示,我们正处于大模型时代的末期。那么,小语言模型(SLM)会是AI的未来吗?

来自主题: AI技术研报
8259 点击    2024-07-04 16:25
ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

开源大语言模型(LLM)百花齐放,为了让它们适应各种下游任务,微调(fine-tuning)是最广泛采用的基本方法。基于自动微分技术(auto-differentiation)的一阶优化器(SGD、Adam 等)虽然在模型微调中占据主流,然而在模型越来越大的今天,却带来越来越大的显存压力。

来自主题: AI技术研报
11428 点击    2024-07-04 13:35
全球AI竞赛,美国的优势不止英伟达

全球AI竞赛,美国的优势不止英伟达

全球AI竞赛,美国的优势不止英伟达

只要仍使用英语训练 LLM 模型,美国就还有优势。

来自主题: AI资讯
6342 点击    2024-07-03 14:26
大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。

来自主题: AI技术研报
5975 点击    2024-07-02 18:25
ML工程师一次微调7个模型,击败OpenAI GPT-4

ML工程师一次微调7个模型,击败OpenAI GPT-4

ML工程师一次微调7个模型,击败OpenAI GPT-4

「微调你的模型,获得比GPT-4更好的性能」不只是说说而已,而是真的可操作。最近,一位愿意动手的ML工程师就把几个开源LLM调教成了自己想要的样子。

来自主题: AI技术研报
9210 点击    2024-07-02 15:26
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

本文研究发现大语言模型在持续预训练过程中出现目标领域性能先下降再上升的现象。

来自主题: AI技术研报
9710 点击    2024-07-02 11:27
等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

人工智能(AI)在过去十年里取得了长足进步,特别是在自然语言处理和计算机视觉领域。然而,如何提升 AI 的认知能力和推理能力,仍然是一个巨大的挑战。

来自主题: AI技术研报
10126 点击    2024-07-01 15:13
LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则

LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则

LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则

最近,Hacker News热榜上出现了一篇「声讨」LangChain的技术文章,得到了评论区网友的一致呼应。去年还火遍LLM圈的LangChain,为什么口碑逆转了?

来自主题: AI资讯
11893 点击    2024-07-01 13:20