字节整新活!照片+音频让蒙娜丽莎秒变播客主理人
字节整新活!照片+音频让蒙娜丽莎秒变播客主理人在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。
搜索
在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。
对 AI 研究者来说,数学既是一类难题,也是一个标杆,能够成为衡量 AI 技术的发展重要尺度。近段时间,随着 AI 推理能力的提升,使用 AI 来证明数学问题已经成为一个重要的研究探索方向。
研究人员对基于Transformer的Re-ID研究进行了全面回顾和深入分析,将现有工作分类为图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景,提出了Transformer基线UntransReID,设计动物Re-ID的标准化基准测试,为未来Re-ID研究提供新手册。
从开源与闭源的竞争,到多模态AI与自监督学习,再到能效优化和AI伦理的深入探讨,AI技术的演进将继续带来前所未有的创新机会。
目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏,尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被系统性探索。 针对这一问题,来自清华大学与智谱的研究团队对 RLHF 在 LLM 中的 scaling 性能进行了全面研究,并提出了优化策略。
最新消息,AI 大模型独角兽阶跃星辰已于近日完成 B 轮融资,总融资金额达数亿美元。投资方包括上海国有资本、腾讯投资、五源资本、启明创投等。
2024年,大模型进展不断。从年初的Sora到最新的o3,更新更好的模型不断被推出,“内卷”到底有没有发生?
老iPhone又能再战一年。
OpenAI 代号为 Orion 的新 AI 项目遇到了一个又一个问题。
在大语言模型(LLM)的发展历程中,思维链(Chain of Thought,CoT)推理无疑是一个重要的里程碑。