AI资讯新闻榜单内容搜索-TIM

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

9330 点击 2025-01-15 14:23

OpenAI工程师亲自修订：用ChatGPT实时语音API构建应用

OpenAI Realtime API 的「说明书」。

来自主题: AI技术研报

3896 点击 2025-01-11 14:29

RAG作为AI大模型应用落地的必需品，Html RAG、Multimodal RAG 和 Agentic RAG的区别是啥？

检索-增强生成 (RAG) 是一个永不过时的话题，并在不断扩展以增强LLMs 的功能。对于那些不太熟悉RAG 的人来说：这种方法利用外部知识来增强模型的能力，从外部资源中检索您实际需要的信息。

来自主题: AI技术研报

7717 点击 2025-01-10 11:01

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。

来自主题: AI资讯

9407 点击 2024-12-24 15:44

The Bitter Lesson（苦涩的教训）

Ilya Sutskever（前 OpenAI 联合创始人兼首席科学家）在前几天召开的 NeurIPS 会议上表示，大模型的预训练已经走到了尽头。而 Noam Brown（OpenAI 研究员，曾带领团队开发出在德州扑克中战胜职业选手的 AI 系统 Pluribus）在近期关于 OpenAI O1 发布的采访中提到，提升 Test-Time Compute 是提升大模型答案质量的关键。

来自主题: AI资讯

11114 点击 2024-12-17 10:20