AI资讯新闻榜单内容搜索-模型训练

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。

来自主题: AI资讯

6959 点击 2024-05-22 18:29

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

8883 点击 2024-05-22 13:33

没有指数级数据就没有Zero-shot！生成式AI或已到达顶峰

近日，又一惊人结论登上Hacker News热榜：没有指数级数据，就没有Zero-shot！多模态模型被扒实际上没有什么泛化能力，生成式AI的未来面临严峻挑战。

来自主题: AI技术研报

9796 点击 2024-05-21 15:27

250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

Llama 3发布一个月后，一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目，引起了开源社区的广泛关注。代码非常详细地展现了Llama所使用的Transformer架构，甚至让Andrej Karpathy亲自下场「背书」。

来自主题: AI技术研报

9903 点击 2024-05-21 15:20

LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

大数据巨头Databricks与哥伦比亚大学最新研究发现，在数学和编程任务上，LoRA干不过全量微调。

来自主题: AI技术研报

2586 点击 2024-05-20 21:03

数据更多更好还是质量更高更好？这项研究能帮你做出选择

当计算预算低时，重复使用高质量数据更好；当不差钱时，使用大量数据更有利。

来自主题: AI技术研报

7117 点击 2024-05-20 18:52

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

前几天，普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型，论文提出构建完全可微的MoE模型，是一种预训练自回归语言模型的新方法。

来自主题: AI技术研报

9826 点击 2024-05-20 16:10

哈佛大学朱科航：自动化社会科学Agent与人类行为建模 | Agent Insights

大语言模型可谓是迄今为止对人类行为最大的建模，如何借助大语言模型工具，让科技发展更好地应用到真实人类社会中去？从哈佛物理系到大语言模型结合社会学和经济学的研究，朱科航的思考路径，聚焦在对人类行为的深度学习和理解。在开始今天阅读之前，大家不妨先猜一猜，大语言模型之前人类应用最广的 TOP2 机器学习是什么？Enjoy

来自主题: AI资讯

9932 点击 2024-05-20 15:43

替代MLP的KAN，被开源项目扩展到卷积了

本月初，来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。

来自主题: AI资讯

9919 点击 2024-05-19 16:25

在对齐 AI 时，为什么在线方法总是优于离线方法？

在线和离线对齐算法的性能差距根源何在？DeepMind实证剖析出炉

来自主题: AI资讯

9684 点击 2024-05-19 16:20