完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原
完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。
在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:
没想到一个低调霸榜了全球最权威SQL榜单超过两个月的国产AI,这一次选择了高调开源。如此反差剧情的主角正是蚂蚁数科,在第二届CCF中国数据大会上,它正式宣布:开源旗下数据智能体关键技术——Agentar-SQL系列。
Google 周五宣布,正式向 Google 翻译引入其 Gemini 模型的各项能力。此次更新不仅带来了能够通过耳机进行的实时语音翻译 Beta 版体验,还大幅提升了文本翻译的语境理解能力,并扩展了应用内的语言学习工具。
世界模型赛道,又有老面孔新鲜入局! 就在刚刚,Runway发布旗下首个通用世界模型GWM-1。 不止于此,还打包发布了一系列世界模型变体:模拟真实环境的GWM Worlds;
GPT-5.2打赢Gemini 3.0 Pro,竟是靠高推理与海量Token「作弊」?网友的这个发现,在AI社区一石激起千层浪。更多网友七嘴八舌表示:GPT-5.2,并没有那么好用!
David Sacks 最近带着他的新产品 Glue 正式走向市场,并刚刚完成了 2000 万美元的 A 轮融资。这个名字你可能很熟悉,他是 PayPal 黑帮成员之一,也是 Yammer 的创始人,更是 All-In 播客的联合主持人
尽管最近 AI Agent 很火,真正落地到垂直行业里的例子依旧不太多。尤其是我们今天要讨论的行业:非标、分散、高度依赖沟通:达人营销。对于科技公司来说,达人营销非常重要。但是直到今天,很多团队依然在依赖 Excel 表格管理达人,靠人工手动发送成百上千封「碰碰运气」的邮件。
想象一下,只需要一句话描述,AI 就能为你拍出一部完整的短剧?为了让这个想法变成现实,香港大学黄超教授团队开源了 ViMax 框架,并在 GitHub 获得 1.4k + 星标,专注于 Agentic Video Generation 的前沿探索。通过多智能体协作,ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化,把传统影视制作的每个环节都搬进了 AI 世界。