我做了一个 AI 时代的效率神器,已开源
我做了一个 AI 时代的效率神器,已开源上面就是我最近日常的打字方式,在家、在公司、在咖啡厅都可以。
上面就是我最近日常的打字方式,在家、在公司、在咖啡厅都可以。
国内首个聚焦家庭通用机器人的公司——未来不远,再次宣布完成新一轮数亿元融资。除了持续进入更多真实家庭实现 C 端商业化,团队还会持续在基础研究和前沿探索加大人才和资金投入。
春节期间, Seedance 2.0 爆火,堪称现象级,这也再次把视频生成推上风口。前两天,字节跳动又携手北大、安努智能和 Canva 共同开源了具备实时生成能力的视频模型 Helios 家族。该系列包含了 Helios-Base、Helios-Mid 与 Helios-Distilled 三个版本,全面覆盖了 T2V、I2V、V2V 以及交互式生成任务。
“Have fun”
最近,个人 AI Agent 助手 OpenClaw(龙虾)爆火。
视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型,VideoWorld 系列工作在业界首次实现无需依赖语言模型,即可认知世界。
港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。
人形机器人学会数十种极限动作。
多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。
多数大模型能生成 “看起来像” 研究的文本,但极少数能真正做研究 —— 提出假设、收集证据、执行可复现的推导、迭代验证直至结论成立。