AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
LoRA最新最权威的一切都在这了,2025综述

LoRA最新最权威的一切都在这了,2025综述

LoRA最新最权威的一切都在这了,2025综述

在人工智能快速发展的今天,大型基础模型(如GPT、BERT等)已经成为AI应用的核心基石。然而,这些动辄数十亿甚至数万亿参数的模型给开发者带来了巨大的计算资源压力。传统的全参数微调方法不仅需要大量的计算资源,还面临着训练不稳定、容易过拟合等问题。

来自主题: AI技术研报
6669 点击    2025-01-16 10:48
2025年,谁最可能成为AI时代的中国Reddit

2025年,谁最可能成为AI时代的中国Reddit

2025年,谁最可能成为AI时代的中国Reddit

AI训练即将进入语料比拼阶段 Reddit 在过去的 2024 年算得上是容光焕发。这家创立了近 20 年的社交平台,去年 3 月在纽交所完成上市,并在上市后的第三季度实现首次盈利,到目前股票已涨到上市首日开盘价的 350% 左右。

来自主题: AI资讯
6827 点击    2025-01-16 10:33
Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过的任务,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。

来自主题: AI技术研报
8458 点击    2025-01-16 10:23
Transformer²要做「活」的AI模型,动态调整权重,像章鱼一样适应环境

Transformer²要做「活」的AI模型,动态调整权重,像章鱼一样适应环境

Transformer²要做「活」的AI模型,动态调整权重,像章鱼一样适应环境

自适应 LLM 反映了神经科学和计算生物学中一个公认的原理,即大脑根据当前任务激活特定区域,并动态重组其功能网络以响应不断变化的任务需求。

来自主题: AI技术研报
5128 点击    2025-01-15 18:30
AI 公司是真「饿了」,开始砸钱买你拍的「废片」

AI 公司是真「饿了」,开始砸钱买你拍的「废片」

AI 公司是真「饿了」,开始砸钱买你拍的「废片」

做过 Up 主、YouTuber 或是视频自媒体从业者都知道,一部传到平台上 10 分钟的成片,背后可能是几个小时的素材。

来自主题: AI资讯
8481 点击    2025-01-15 14:42
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

随着语言大模型的成功,视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速,但在长上下文场景下表现却不尽如人意,这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报
7251 点击    2025-01-15 14:23
余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一

余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一

余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一

在机器学习和数据科学领域,余弦相似度长期以来一直是衡量高维对象之间语义相似度的首选指标。余弦相似度已广泛应用于从推荐系统到自然语言处理的各种应用中。它的流行源于人们相信它捕获了嵌入向量之间的方向对齐,提供了比简单点积更有意义的相似性度量。

来自主题: AI技术研报
7432 点击    2025-01-14 14:47
思维链?思维树?华为诺亚:现在到了思维森林时刻!

思维链?思维树?华为诺亚:现在到了思维森林时刻!

思维链?思维树?华为诺亚:现在到了思维森林时刻!

OpenAI 接连发布 o1 和 o3 模型,大模型的高阶推理能力正在迎来爆发式增强。在预训练 Scaling law “撞墙” 的背景下,探寻新的 Scaling law 成为业界关注的热点。高阶推理能力有望开启新的 Scaling law,为大模型的发展注入新的活力。

来自主题: AI技术研报
6746 点击    2025-01-14 14:43
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了

同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了

同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了

AC3D 从基本原理出发,分析了摄像机运动在视频生成中的特点,并通过以下三方面改进了视频生成的效果和效率:

来自主题: AI技术研报
6475 点击    2025-01-14 14:36