AI资讯新闻榜单内容搜索-Llama-3

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Llama-3

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

8548 点击 2026-02-11 13:58

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

10196 点击 2025-09-09 10:49

突破86%，解耦LLM的记忆与推理，首个超越GPT-4o的推理框架（含prompt） | 最新

突破86%，解耦LLM的记忆与推理，首个超越GPT-4o的推理框架（含prompt） | 最新

突破86%，解耦LLM的记忆与推理，首个超越GPT-4o的推理框架（含prompt） | 最新

这是一个不容小觑的最新推理框架，它解耦了LLM的记忆与推理，用此框架Fine-tuned过的LLaMa-3.1-8B在TruthfulQA数据集上首次超越了GPT-4o。

来自主题: AI技术研报

8705 点击 2024-11-28 11:26

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等出品，首个多模态版o1开源模型来了—— 代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。

来自主题: AI技术研报

7818 点击 2024-11-19 21:01

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。

来自主题: AI资讯

5770 点击 2024-10-08 17:20

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

OpenAI o1，在IQ测试中拿到了第一名！大佬Maxim Lott，给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试，结果表明，o1稳居第一名。

来自主题: AI资讯

7133 点击 2024-09-14 16:02

Llama-3不算真开源：今年10月，权威定义就要来了

Llama-3不算真开源：今年10月，权威定义就要来了

Llama-3不算真开源：今年10月，权威定义就要来了

你给翻译翻译，什么是开源？

来自主题: AI资讯

9869 点击 2024-08-28 15:33

Meta浙大校友让评估模型「自学成才」，数据全合成无需人工标注，训练Llama 3 70B超过405B

Meta浙大校友让评估模型「自学成才」，数据全合成无需人工标注，训练Llama 3 70B超过405B

Meta浙大校友让评估模型「自学成才」，数据全合成无需人工标注，训练Llama 3 70B超过405B

随着LLM不断迭代，偏好和评估数据中大量的人工标注逐渐成为模型扩展的显著障碍之一。Meta FAIR的团队最近提出了一种使用迭代式方法「自学成才」的评估模型训练方法，让70B参数的Llama-3-Instruct模型分数超过了Llama 3.1-405B。

来自主题: AI资讯

6618 点击 2024-08-26 09:52

清华唐杰团队新作：一口气生成2万字，大模型开卷长输出

清华唐杰团队新作：一口气生成2万字，大模型开卷长输出

清华唐杰团队新作：一口气生成2万字，大模型开卷长输出

一口气生成2万字，大模型输出也卷起来了！

来自主题: AI技术研报

12128 点击 2024-08-15 17:07

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

导读：时隔4个月上新的Gemma 2模型在LMSYS Chatbot Arena的排行上，以27B的参数击败了许多更大规模的模型，甚至超过了70B的Llama-3-Instruct，成为开源模型的性能第一！

来自主题: AI资讯

10951 点击 2024-07-02 11:20

上一页当前第1页,共2页下一页