自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
字节曲折的硬件之路。
据相关数据显示,早在 2020 年,国内选择语音输入的用户数量已经达到 2.5 亿,使用率接近 40%,更为便捷的语音交流,已经越来越成为主流。
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。
2024 年的 AI 图像生成技术,又提升到了一个新高度。
当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。
不创新,死路一条 字节跳动,已无法再低调。 • 外媒报道,字节跳动2023年营收1100亿美元,可能超过腾讯、逼近Meta; • TikTok在美国渡劫,作为增长引擎的海外业务遭遇不确定性; • 字节跳动在AI竞赛上显得“迟钝”,公司内部“到2023年才开始讨论GPT”;
近期,火山引擎官网更新了豆包大模型的定价详情,全面展示豆包通用模型不同版本、不同规格的价格信息。
整个 2023 年,字节并没有对外官宣其内部自研的大模型。外界一度认为,大模型这一技术变革,字节入场晚了。梁汝波在去年底的年会上也提到了这一点,他表示「字节对技术的敏感度不如创业公司,直到 2023 年才开始讨论 GPT。」
5月15日,在2024春季火山引擎Force原动力大会上,字节跳动自研豆包大模型正式亮相。