
Nano Banana新增2大功能,还开放API了,一张图不到3毛钱
Nano Banana新增2大功能,还开放API了,一张图不到3毛钱终于,Nano Banana正式开放API了! 现在大家不仅可以直接在Google AI Studio里基于Nano Banana,手动搓出属于自己的App,还可以通过Gemini API接入任意发挥了。
终于,Nano Banana正式开放API了! 现在大家不仅可以直接在Google AI Studio里基于Nano Banana,手动搓出属于自己的App,还可以通过Gemini API接入任意发挥了。
大模型最让人头疼的毛病,就是一本正经地「瞎编」。过去,只能靠检索补丁或额外训练来修。可在NeurIPS 2024 上,谷歌抛出的新方法SLED却告诉我们:模型其实知道,只是最后一步忘了。如果把每一层的「声音」都纳入考量,它就能从幻觉中被拉回到事实。
我惊! 图灵奖得主、AI三巨头之一的LeCun在Meta待得是如坐针毡。 Yann LeCun已经直接跟同事表示,自己可能会辞去FAIR首席科学家的职务。
想象一下,AI取代了你的工作,甚至连OpenAI的CEO也如此——奥特曼的答案竟是去当农场主!他分享了十年高压下的农场梦想,强调人类渴望创造价值永不止息。短期岗位流失不可避免,但长期来看,AI将催生更以人为本的新职业。
最近读到a16z合伙人Olivia Moore的一篇分析文章《 The Great Expansion: A New Era of Consumer Software》,她把这种现象称为"Great Expansion"(大扩张),我觉得她抓住了一个非常关键的趋势。
深夜十一点,手机屏幕的微光洒在林悦的脸上。 这一天,她已经陪伴了五个不同的求助者,从一段破碎的婚姻到一位年轻人面对失业的焦虑。作为一名心灵疗愈师,她习惯用温柔的语气安抚对方,用细致的分析梳理对方的情绪。可当最后一通咨询结束时,她却常常陷入一种无形的空洞:那些负面情绪全部向她涌来时,她也略显疲惫。
“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。
多模态大模型需要干的活,已经从最初的文生图,扩展到了像素级任务(图像分割)。
来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者,共同撰写并发布了长达百页的综述:《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。
只让机器人或虚拟智能体「想象」,不让它们和物理世界交互,它们也能学到和世界交互的技能?谷歌的世界模型 Dreamer 4 为这一想法提供了新的支撑。为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。世界模型通过学习从智能体(如机器人或电子游戏玩家)的视角预测潜在行动的未来结果,为实现这一目标提供了一种有前景的方法。
见证历史!OpenAI估值已飙升至5000亿美元,一举超越SpaceX,跃升为全球最贵独角兽企业。无独有偶,马斯克个人财富也同步突破5000亿美元大关,其个人身价已堪比一家OpenAI。
Thinking Machines Lab发布首个产品:Thinker,让模型微调变得像改Python代码一样简单。也算是终于摘掉了“0产品0收入估值840亿”的帽子。Tinker受到了业界的密切关注。AI基础设施公司Anyscale的CEO Robert Nishihara等beta测试者表示,尽管市面上有其他微调工具,但Tinker在“抽象化和可调性之间取得了卓越的平衡”
Anthropic宣布任命前Stripe CTO Rahul Patil为新任首席技术官,此次换帅旨在强化Anthropic的AI基础设施,以应对Claude产品快速增长带来的算力和能耗压力。同时,也是为了面对OpenAI和Meta数千亿美元级的基础设施投入而进行的一次战略调整。
Sora2太卷了。居然能预测ChatGPT的输出、渲染HTML?!让它模拟“给ChatGPT发信息”,它不仅生成了画面,还来了一段有问有答的“交互”。先是编了一个问题:Write a playful haiku about a cat staring out the window.(写一首关于猫凝视窗外的俏皮俳句。)
这次英伟达可谓是“全家桶”式发布:不仅有让机器人拥有”物理直觉”的Newton引擎,还有赋予机器人人类推理能力的Isaac GR00T N1.6基础模型,以及能够生成海量训练数据的Cosmos世界基础模型,直接瞄准了机器人研发中最头疼的几个问题。
来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡耐基梅隆大学、英伟达提出了一种数据采集与策略学习框架DexUMI——利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手。该框架通过硬件与软件的双重适配,最大限度缩小人手与各类灵巧手之间的具身差异。
Sora 2火爆全球!上线不到24小时便冲上苹果商店榜单前三,凭借「1换4」邀请码机制和「Cameo自我上传」玩法,引爆社交传播。奥特曼亲自下场,让邀请码成为稀缺资源,被黄牛炒至175美元。Sora既带来全民狂欢,也引发OpenAI内部争议。
小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互更加自然,首发级联与半级联两套实现,端到端时延逼近工业级应用。
一名60岁老人,照着ChatGPT的建议戒盐养生,三个月后却被送进精神病院?更离奇的是,他不是唯一因为AI入院。「AI精神病」正在悄悄蔓延。医生、研究者、AI公司都开始警觉。我们,是否也正在其中? 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
奥特曼亲自飞赴首尔,与韩国总统、两大财阀巨头会晤并达成合作。三星电子与SK海力士将加速生产先进存储芯片,目标月产能达90万片DRAM晶圆,以满足OpenAI模型的需求。随着奥特曼逐渐握紧硬件的咽喉,留给竞争对手的时间,不多了。
Tilly Norwood 有一张干净的脸孔,能演超英大片里的配角,也能出现在 BBC2 的喜剧小品里。但唯一的问题是:她不存在。她是英国公司 Particle6 Productions 用 AI 生成的「女演员」。从脸到声线、从履历到社交账号,全部都是虚拟构建。
AI 能成为合格的旅行搭子了吗?虽然笔者不建议任何人这么做,但这阵子笔者进行了一次极限尝试————什么攻略都不提前查,就靠 AI,看看一趟出国旅行能走到哪里。笔者选择了一款叫 AI 旅行助手的 app 来进行了我的主尝试,它号称不仅能替用户生成旅行攻略,还能在行程中帮忙预订餐厅、酒店。
Obot MCP Gateway是他们解决方案的核心,这是一个开源控制平面,为IT团队提供了对MCP部署前所未有的可见性和控制能力。从架构上看,这个网关采用了代理模式,所有与MCP服务器的通信都会通过网关进行代理,这为审计、日志记录和应用安全策略提供了单一控制点。这种设计消除了影子AI的可能性,确保了合规性。
一次咖啡馆中的谈话,诞生了一家估值3亿美元的创业公司!2024年,仍为斯坦福大学博士生的Carina Hong与前Meta的AI研究员Shubho Sengupta有过一次数小时的交谈。在那次交谈中二人探讨了如何用AI来解决数学领域的难题。
家人们,就在国庆放假前的今天凌晨,那个总在节前“搞事”的 DeepSeek,又双叒叕深夜悄然上线了!讲真,DeepSeek 是真的不考虑我们媒体人的死活啊哈哈!每次都卡着放假前更新,之前大家都转发的吐槽截图,本人又翻出来了:
OpenAI的后训练负责人和DeepMind的另一位AI4S大佬,双双离职并成立了一家AI4S公司Periodic Labs,专注于用AI Agent改造传统科研,助力攻克室温超导等世纪难题。目前该公司已获3亿美元融资。
Sora 2在国庆节凌晨突袭上线,生成的视频真实到几乎难以分辨虚拟与现实。更震撼的是,Sora 2展现出对物理规律与现实世界推理的理解。全球网友正在疯狂实测Sora 2,文末有邀请码。
英特尔正通过其 XPU 混合架构、AI 算力以及开放的软件生态来引领这一趋势。 作者丨马晓宁 编辑丨陈彩娴 AI PC 市场的竞争正在升温,格局也在重塑。 无论是对于终端 AI 的讨论,还是智能硬件的
核心速递: GLM-4.6 发布,榜单排名提升,价格不变 实测效果对齐 Claude 4,超越其他国产模型 GLM 开发者包月套餐升级,1/7 价格取得 Claude 4 9/10 的效果,值得使用
蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成。实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。