AI TNT— 让一部分先用AI实现商业化

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生，师从黄高副教授，主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

来自主题: AI技术研报

5482 点击 2024-09-19 11:14

OpenAI用o1开启推理算力Scaling Law，能走多远？

来自主题: AI资讯

6532 点击 2024-09-17 21:41

高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。

来自主题: AI技术研报

5664 点击 2024-09-13 21:27

从大模型爆发到现在，我就一直好奇为什么output token比input token要贵，而且有的会贵好几倍！今天就这个话题和大家聊一聊。

来自主题: AI资讯

1709 点击 2024-09-11 10:21

Llama 3.1 刚刚发布，你是否已经尝试了呢？就算你的个人计算机是最近的顶尖配置，运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率，研究者想出了多种多样的方法，但其中很多都会让模型牺牲一些准确度。

来自主题: AI技术研报

7559 点击 2024-08-02 16:07

近日，MIT CSAIL 的一个研究团队（一作为 MIT 在读博士陈博远）成功地将全序列扩散模型与下一 token 模型的强大能力统合到了一起，提出了一种训练和采样范式：Diffusion Forcing（DF）。

来自主题: AI技术研报

3880 点击 2024-07-23 16:40

当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。

来自主题: AI资讯

4072 点击 2024-07-23 16:10

来自主题: AI资讯

4338 点击 2024-07-19 10:40

13.8和13.11哪个大？这个问题不光难倒了部分人类，还让一票大模型折戟。AI如今都能做AI奥数题了，但简单的常识问题对它们依然难如登天。其实，无论是比大小，还是卷心菜难题，都揭示了LLM在token预测上的一个重大缺陷。

来自主题: AI资讯

9102 点击 2024-07-17 19:46

为什么说理解长视频难如 “大海捞针”？

来自主题: AI技术研报

9092 点击 2024-07-14 13:38