
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。
以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。
在闭着眼睛听一首歌的时候,你有没有在脑海里想象过,应该搭配什么画面? Kimi 内测的最新功能「创作音乐视频」,就是奔着当 MV 导演去的。长文本领先的 Kimi,默不作声地「跨界」了。APPSO 也受邀首批体验了这一新功能。
MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件,为全面评估AI模型提供了高效工具。研究人员发现,尽管顶级AI模型在多个任务中表现出色,但在复杂推理和跨模态理解方面仍有提升空间。
「多模态」这个词,相信各位开发者已经比较熟悉了,多模态的含义是让 AI 同时理解包含如图像和文本在内的多种类型的数据。
全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。
连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。
11月11日,谷歌推出了一款名为“Learn About” 的实验性的新 AI 工具,它不同于此前的聊天机器人,如 Gemini 和 ChatGPT。
第8届CoRL于2024年11月6日至9日在德国慕尼黑举行,展示了机器人学习领域的前沿研究和发展,尤其是在自主系统、机器人控制和多模态人工智能领域。
要说最近大模型应用里哪个赛道最火爆,AI搜索当属其一。 大厂初创纷纷下场不说,功能也越卷越深度:集成论文库、引入多模态实现图片分析……大有把知识获取成本再打骨折的趋势。 就在量子位近期收到的读者反馈中,我们也实实在在感受到了大家伙儿对AI搜索的期待,还观察到了一个呼声很高的需求——AI搜索+知识库。
在全球科技市场的前沿浪潮中,AI 与硬件的融合正成为企业创新的关键路径。从苹果的 Vision Pro 到 Meta 的智能拍摄眼镜,众多科技巨头纷纷投身于将大模型、多模态 AI 等顶尖技术与消费级硬件相结合的探索之旅。