AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

随着大语言模型展现出惊人的语言智能,各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长,如何将它们集成起来以挖掘其互补潜力,成为了 AI 研究的前沿课题。

来自主题: AI技术研报
8738 点击    2024-07-19 16:21
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。

来自主题: AI技术研报
4716 点击    2024-07-19 16:16
清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性

来自主题: AI技术研报
10301 点击    2024-07-19 12:31
「数据墙」迫近?苹果OpenAI等巨头走投无路,被迫「偷师」YouTube视频!

「数据墙」迫近?苹果OpenAI等巨头走投无路,被迫「偷师」YouTube视频!

「数据墙」迫近?苹果OpenAI等巨头走投无路,被迫「偷师」YouTube视频!

近日,《连线》杂志联合ProofNews联合发表一篇调查文章,指责苹果、Anthropic等科技巨头未经许可使用YouTube视频训练AI模型。但训练数据的使用边界究竟在哪里?创作者、大公司和开发者正在陷入知识产权的罗生门……

来自主题: AI资讯
9838 点击    2024-07-19 12:21
如何将 LLM 的上下文扩展至百万级?

如何将 LLM 的上下文扩展至百万级?

如何将 LLM 的上下文扩展至百万级?

在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k。然而,时至今日,1M的上下文长度已经成为衡量模型技术先进性的重要标志之一。

来自主题: AI技术研报
5087 点击    2024-07-19 10:14
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。

来自主题: AI资讯
7436 点击    2024-07-18 16:57
独家对话李岩:宿华、经纬、红点资金支持,第一个「生成式推荐」创业公司|AI Pioneers

独家对话李岩:宿华、经纬、红点资金支持,第一个「生成式推荐」创业公司|AI Pioneers

独家对话李岩:宿华、经纬、红点资金支持,第一个「生成式推荐」创业公司|AI Pioneers

离开快手创业后,「李岩」悄悄拿到了快手联合创始人宿华、红点创投以及经纬创投的3200万美金种子轮融资。

来自主题: AI资讯
8970 点击    2024-07-18 16:47