AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
从2019年到现在,是时候重新审视Tokenization了

从2019年到现在,是时候重新审视Tokenization了

从2019年到现在,是时候重新审视Tokenization了

2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。

来自主题: AI技术研报
8253 点击    2025-01-04 14:20
Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。

来自主题: AI技术研报
7149 点击    2025-01-04 14:14
轻松进行动态图异常检测,南洋理工提出GeneralDyG

轻松进行动态图异常检测,南洋理工提出GeneralDyG

轻松进行动态图异常检测,南洋理工提出GeneralDyG

此项研究成果已被 AAAI 2025 录用。该论文的第一作者是南洋理工大学计算与数据科学学院 (CCDS) 的硕士生杨潇,师从苗春燕教授,主要研究方向是图神经网络。

来自主题: AI技术研报
7106 点击    2025-01-04 14:07
北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer

北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer

北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer

时间序列数据,作为连续时间点的数据集合,广泛存在于医疗、金融、气象、交通、能源(电力、光伏等)等多个领域。有效的时间序列预测模型能够帮助我们理解数据的动态变化,预测未来趋势,从而做出更加精准的决策。

来自主题: AI技术研报
5087 点击    2025-01-03 15:53
数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆

最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。其中,一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据,比如有一项研究就预计,如果 LLM 保持现在的发展势头,到 2028 年左右,已有的数据储量将被全部利用完。

来自主题: AI技术研报
8480 点击    2025-01-03 15:46
o3来了,通用人工智能真的触手可及吗?

o3来了,通用人工智能真的触手可及吗?

o3来了,通用人工智能真的触手可及吗?

"机器究竟还需要多长时间,才能真正具备人类大脑的认知能力?"这个困扰人工智能领域数十年的根本性问题,在2024年末再次成为全球科技界的焦点。

来自主题: AI资讯
7344 点击    2025-01-03 14:30
DeepSeek-V3:美国芯片封锁的“意外”产物?

DeepSeek-V3:美国芯片封锁的“意外”产物?

DeepSeek-V3:美国芯片封锁的“意外”产物?

继电动车、消费品之后,中国团队又在AI领域上演了一出“成本屠夫”的好戏。

来自主题: AI资讯
7394 点击    2025-01-03 13:40