
专治AI生图「人脸崩坏」,8倍速碾压GPT!新版FLUX.1多方位刷新SOTA
专治AI生图「人脸崩坏」,8倍速碾压GPT!新版FLUX.1多方位刷新SOTAFLUX.1 Kontext是一款融合即时文本图像编辑与文本到图像生成的新一代模型,支持文本与图像提示,角色一致性强,速度快达GPT-Image-1的8倍。
FLUX.1 Kontext是一款融合即时文本图像编辑与文本到图像生成的新一代模型,支持文本与图像提示,角色一致性强,速度快达GPT-Image-1的8倍。
现在,请大家一起数一下“1”、“2”。OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了!而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。
字节跳动开源了一个口碑还不错的模型——BAGEL (ByteDance Agnostic Generation and Empathetic Language model), 一个统一多模态基础模型。啥叫“统一”?一个模型就能同时理解和生成文本、图像、视频!
就在刚刚,中兴通讯星云大模型获推理榜总分第一,总榜并列第二!而在数学推理、科学推理、代码生成的细分赛道上,它同样表现抢眼。更难得的是,它是业内少数通过国家级权威安全认证的大模型。
最近,Yoodli宣布完成了1370万美元的A轮融资,由Neotribe Ventures领投,Madrona和Cercano等现有投资者跟投。这使得他们的累计融资超过2000万美元。但让我感兴趣的不仅仅是融资数字,而是这家公司正在创建的全新品类:AI角色扮演。
在 「What's Next|科技早知道」 的播客节目中,峰瑞资本执行董事 刘鹏琦 和「声动活泼」联合创始人&「科技早知道」主播 丁教Diane ,以及「科技早知道」节目监制 雅娴 ,围绕具身智能赛道所处的新阶段与核心挑战,探讨了以下问题,包括但不限于:
文章以第一人称视角,讲述一名AI自媒体博主因行业竞争与技术迭代陷入深度焦虑的过程,最终通过反思意识到焦虑源于攀比与生存恐惧,而非技术本身。核心观点是接纳自身局限、明确独特价值、转向合作与好奇驱动,并提出三条实用建议,强调应对AI焦虑需聚焦个人定位而非盲目追赶。
AI尚未大规模替代人类工作,就业市场未现显著冲击,企业投资回报低于预期,进入技术幻灭期。研究指出AI对生产力的影响存在滞后效应,关键问题在于能否提升社会整体生产力而非单纯替代人力。未来需构建制度框架,平衡技术发展与社会利益。
AI正被妈妈们用于辅导孩子作业,尤其是代写作文,以应对学校刻板命题和格式要求。家长认为作文缺乏意义,AI能高效生成应试模板,甚至老师也使用AI批改,形成“AI写-AI批”闭环。这虽减轻了家长负担,却让孩子过早学会应付规则,真实表达空间被压缩,引发对教育意义和童年消逝的反思。
豆包、文心一言、DeepSeek、元宝……这些国产AI工具,正在大规模进入职场内容流里。我们以为它们是工具,其实它们更像是一种“说得太像真的语气”,让每个使用者都可能在不经意间交出判断力。
文章探讨AI时代深度思考的困境:大语言模型使人类思维系统萎缩,即时生成内容取代有机思考过程,削弱直觉与思辨力。作者以自身创作瓶颈为例,指出依赖AI导致认知基础流失,廉价知识无法替代深层理解,强调原始思考过程的价值,认为未经修饰的人类思考仍有独特意义。
在建筑行业中,管理人员很容易与现场实际情况脱节。他们需要同时处理多项任务,包括掌握成本动态、与所有利益相关方沟通,以及评估与承包商账单和绩效等方面相关的风险。
AI生图新突破!一个模型同时接受文本和图像输入。
“要是这些历史能在地图上‘动’起来就好了!” 这个念头一直在我脑子里盘旋。我渴望能有一张直观的地图,让我轻松洞悉历史发展的脉络。目前人工智能浪潮奔涌而至,其在文本、图像乃至动画领域的创造力令人瞩目。我便想着,能否借助AI之力,将《枪炮、病菌与钢铁》所描绘的世界,真实地投射到一张交互式的地图之上?
提质不加价,可灵新版视频生成模型正式登场!新版本依然是一石激起千层浪,不到24小时就有超过72万次阅读。我们也带来了新鲜实测!
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
每天宣扬「AI变革」的外媒Business Insider,终于看到这把屠龙刀落在了自己头上。刚刚,CEO宣布:裁员21%,全面拥抱AI!讽刺吗?那些亲手写下「AI将颠覆媒体」的记者们,正被AI亲手送下了楼。工会怒斥:这是对新闻的背叛,是对人类记者尊严的公然践踏!更可怕的是,今天是他们,明天会不会轮到你?
来和机器狗一起运动不?你的羽毛球搭子来了!无需人工协助,仅靠强化学习,机器狗子就学会了羽毛球哐哐对打。基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部(18个自由度)移动,和手臂挥拍动作。
多AI智能体系统的复杂构建与优化,长期以来是用智能体解决科研问题和场景落地的瓶颈。来自英国格拉斯哥大学的研究团队发布了全球首个AI智能体自进化开源框架EvoAgentX,通过引入自我进化机制,打破了传统多智能体系统在构建和优化中的限制!
就是这两个黄毛小伙子,他们试图建立新的教育体系。 他们为学生创建了一种制作自定义视频教程的方法,一键生成所有科目的讲解视频,比真人老师讲的更好更仔细,就像可汗学院一样,并允许他们像与真正的导师/老师交谈一样进行互动,让每位学生都有私教老师。
我在《晚点》公众号读到一篇质量非常高的访谈,嘉宾是 AI 应用创业公司 YouWare 的创始人明超平。YouWare 做的事情正是 Vibe Coding。这篇是我近期读到最为深刻的创始人访谈文章。明超平居然是 95 年的,但认知很深刻,他提到一个有意思的视角:
工程的精度,依旧会是这一波技术浪潮里有意义的竞争力。
4 月 27 日,万兴科技发布 2024 年全年以及 2025 年第一季度财报。
人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。
“下一家估值十亿美元的公司,也许只有一个人。”这是 2025 年红杉 AI 峰会(AI Ascent)下午场的开场白。台下本来窃窃私语的投资人一下安静了:如果这句话成真,硅谷几十年建立的“团队规模=护城河”逻辑,将被彻底改写。
Cursor放出了一个接近1小时的内部团队讨论视频,深度分析了他们用到的技术和思考,使得我们有机会深入了解了 Cursor 团队内部关于训练超人级编程模型的讨论,他们的观点让我重新思考了 AI 辅助编程的未来。这些来自一线研究者和工程师的见解,揭示了当前 AI 编程领域最前沿的挑战和突破方向。
上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的「信息收益」与其「使用成本」之间的比值:
Manus的开放注册标志着其商业化进程的正式启动。但是,Manus到底擅长什么?如果检视Manus的精选用例库,我们会发现约一半的用例是咨询报告(图1),诸如,《B2B供应商寻源报告》、《成衣行业AI产品分析》、《制定门店销售提升策略》等等:
2025年,AMD将推出全新的GPU路线图,瞄准两个竞争激烈的领域:游戏和AI。该公司正在推出一系列重大进展,从简化的产品命名和激进的定价,到尖端的架构和深度AI集成,这表明它决心在多个市场上缩小与英伟达的差距。
上周,有媒体曝出了美团的 AI 零代码工具 NoCode,这是一款无需编程背景和经验,仅通过自然语言和对话形式即可快速生成应用的工具。 顾名思义,NoCode 可帮助很多人以「零代码」的方式创建个人提效工具、产品原型、可交互页面等。它不仅能生成代码,还可以进行实时预览,局部修改并一键部署,大幅降低了开发的门槛,可以帮助更多人释放创意。