AI资讯新闻榜单内容搜索-Llama

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: Llama
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前,普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。

来自主题: AI技术研报
7068 点击    2025-02-17 14:37
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

来自主题: AI技术研报
6025 点击    2025-02-05 16:54
杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距

杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距

杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距

刚刚,大模型竞技场榜单上再添一款国产模型——来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

来自主题: AI资讯
6599 点击    2025-02-05 11:19
曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡

曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡

曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡

Meta这次真的坐不住了,计划在AI上继续加码!匿名员工爆料,黑马DeepSeek的出现,让Llama 4还未发布就已经落后,Meta慌了。

来自主题: AI资讯
6694 点击    2025-01-26 00:01
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

「工程师正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。」DeepSeek 开源大模型的阳谋,切切实实震撼着美国 AI 公司。最先陷入恐慌的,似乎是同样推崇开源的 Meta。

来自主题: AI资讯
6653 点击    2025-01-24 10:59
Atom Capital:中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略

Atom Capital:中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略

Atom Capital:中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略

2024又是AI精彩纷呈的一年。LLM不再是AI舞台上唯一的主角。随着预训练技术遭遇瓶颈,GPT-5迟迟未能问世,从业者开始从不同角度寻找突破。以o1为标志,大模型正式迈入“Post-Training”时代;开源发展迅猛,Llama 3.1首次击败闭源模型;中国本土大模型DeepSeek V3,在GPT-4o发布仅7个月后,用 1/10算力实现了几乎同等水平。

来自主题: AI资讯
7246 点击    2025-01-19 10:38
一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory

一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory

一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory

大模型长序列的处理能力已越来越重要,像复杂长文本任务、多帧视频理解任务、以及 OpenAI 近期发布的 o1、o3 系列模型的高计算量模式,需要处理的输入 + 输出总 token 数从几万量级上升到了几百万量级。

来自主题: AI技术研报
7235 点击    2025-01-11 13:45
DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿

DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿

DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿

因为 V3 版本开源模型的发布,DeepSeek 又火了一把,而且这一次,是外网刷屏。 训练成本估计只有 Llama 3.1 405B 模型的 11 分之一,后者的效果还不如它。

来自主题: AI资讯
6751 点击    2025-01-09 09:31
全网都在扒的DeepSeek团队,是清北应届生撑起一片天

全网都在扒的DeepSeek团队,是清北应届生撑起一片天

全网都在扒的DeepSeek团队,是清北应届生撑起一片天

DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。

来自主题: AI资讯
8117 点击    2025-01-04 15:15