a16z投了两个华人560万美金,让AI成为每个人的专属摄影师

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
a16z投了两个华人560万美金,让AI成为每个人的专属摄影师
5800点击    2025-09-18 14:30

a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


你有没有想过,摄影这件事情可能彻底变了?我们不再只是按下快门记录瞬间,而是能够重新拍摄已经过去的时刻。想象一下,你可以修正闭着的眼睛、调整尴尬的表情、改善糟糕的光线,甚至改变拍摄角度——这些都可以在多年后完成。这听起来像科幻电影,但Phota Labs正在让这一切成为现实。这家由前Adobe AI研究员创立的公司刚刚获得了由Andreessen Horowitz领投的560万美元种子轮融资,他们正在用个性化的视觉AI技术彻底重新定义摄影的边界。


我被这家公司吸引的原因很简单:他们解决了AI生成图像领域最核心的问题——身份真实性。现在的AI模型可以生成令人惊叹的图像,但当涉及到你认识的人时,特别是你自己时,这些模型往往会失败。你能立刻看出"这不是我"。而Phota Labs的方法完全不同,他们构建的个性化模型能够学习你的外貌、你的生活场景,甚至你的记忆中那些重要时刻的背景。他们的目标不是创造完美的幻觉,而是让AI能够理解并忠实再现你的真实生活体验。


摄影的本质正在发生根本性转变


在深入了解Phota Labs的技术之前,我想先分享一下我对摄影演进的思考。传统摄影一直围绕着一个核心理念:忠实记录某个特定时刻发生的事情。按下快门的那一瞬间,光线、人物、背景、表情都被永久固定下来。这种"一次性捕捉"的模式从摄影术诞生以来基本没有改变过。


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


但现在这个前提正在被彻底颠覆。Phota Labs的联合创始人Cecilia Zhang在一次访谈中提到了一个深刻的观点:"关键时刻、摄影中的决定性瞬间,那个我们作为摄影师努力捕捉的时刻,在空间和时间中是如此短暂。当按下快门时,时刻不再是固定的。这是摄影的一个非常有趣的新维度。"这句话的含义非常深远:我们正在从"记录瞬间"转向"重新创造瞬间"。


我认为这种转变的意义不亚于从胶片到数码的跨越。数码摄影让我们摆脱了胶片的限制,可以拍摄无数张照片而不用担心成本。而AI驱动的生成式摄影则让我们摆脱了时间和空间的限制,可以在事后重新构建那些我们错过的完美瞬间。想象一下,那些因为光线不好、角度不对、表情不自然而被删掉的照片,现在都有了第二次机会。


更重要的是,这种技术让我们能够将注意力从"如何拍摄"转向"如何体验"。以前拍照时,我们总是需要考虑光线、构图、焦距等技术细节,这往往让我们无法完全沉浸在当下的体验中。而现在,我们可以专注于享受当下,然后在事后用AI技术创造出我们想要的视觉记录。这不是造假,而是对记忆的忠实再现——用我们希望记住的方式来记录那些真实经历过的时刻。


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


Phota Labs的技术突破在于他们找到了平衡真实性和创造性的方法。他们的模型不会凭空创造你从未经历过的场景,而是基于你真实的生活经历,用更好的方式重新呈现那些时刻。这就像是给每个人配备了一个专业摄影师,这个摄影师完全了解你的外貌、你的生活场景,以及你希望如何被记录下来。


个性化AI的技术突破与挑战


我花了大量时间研究Phota Labs的技术方法,发现他们解决的核心问题比表面看起来复杂得多。现有的大型AI模型虽然能生成视觉上令人惊叹的图像,但它们有一个致命缺陷:它们是为通用性而训练的,因此缺乏对个人身份和个人背景的深度理解。


当你使用像Midjourney或DALL-E这样的通用模型生成包含自己的图像时,结果往往是一个"看起来像你"的人,但绝对不是你。这种差异对于不熟悉你的人来说可能不明显,但对于你自己和你的亲人来说,这种不一致性立刻就能被察觉。这就是为什么即使AI技术如此先进,我们仍然很难用它来创造真正有意义的个人照片。


Phota Labs的解决方案基于两个核心支柱:身份识别和背景理解。身份识别不仅仅是面部特征,还包括你的肢体语言、表情习惯、甚至你在不同情况下的自然姿态。背景理解则涉及你生活中的人、地点、物体,以及这些元素如何相互作用形成有意义的场景。


他们的技术方法是让AI模型从你自己的照片和视频中学习。这不是简单的面部替换,而是深度理解你在不同设置下的外观,以及你生活中重要的人、地点和物体。模型学会了推理这些元素之间的关系,从而能够生成既忠实于你的身份又符合特定背景的图像。


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


我特别欣赏他们对"忠实性"概念的理解。在一次深度访谈中,Zach Xia分享了一个个人故事:他和妻子的海滩婚礼照片由于逆光和角度问题效果不佳,使用传统编辑工具也无法修复。但通过Phota Labs的技术,他们能够重新创造那一天的照片,改善光线和角度,同时保持那个特殊时刻的真实性。关键是,生成的照片仍然是他们两个人,仍然是那个海滩,仍然是那一天——只是以一种更好的方式呈现出来。


这种技术的复杂性在于它需要解决两个看似矛盾的要求:创造性和真实性。AI需要足够创造性来改善照片的质量,但又要足够约束来确保不偏离现实。这就像是在钢丝上行走,稍微偏向任何一边都会失去平衡。偏向创造性太多,照片就会变得不真实;偏向真实性太多,又失去了改善的空间。


从技术实现角度看,Phota Labs开发了一套复杂的模型训练流程。他们不是从零开始训练模型,而是在现有的强大基础模型之上进行个性化微调。这种方法让他们能够利用大型模型的生成能力,同时注入个人特定的身份和背景信息。用户需要上传一组自己在不同场景下的照片,模型会从这些照片中学习用户的外貌特征、常见的背景环境、以及他们生活中的重要元素。


重新定义摄影的创作流程


我认为Phota Labs真正革命性的地方在于它重新定义了摄影的创作流程。传统摄影是一个线性过程:构思、拍摄、后期处理、分享。而Phota Labs提出的是一个循环式的创作流程:体验、记录、重新创造、完善。


在传统摄影中,"决定性瞬间"的概念至关重要。摄影师需要在正确的时间出现在正确的地点,使用正确的设备,捕捉到完美的瞬间。这种模式下,摄影师需要预见即将发生的事情,提前做好准备,然后在关键时刻按下快门。错过了就错过了,没有第二次机会。


但Phota Labs的方法彻底改变了这个逻辑。你不再需要在当下就拍出完美的照片,而是可以先记录下基本的场景和情境,然后在事后用AI技术重新构建那个时刻的最佳版本。这就像是给每个重要时刻都配备了一个时光机,让你可以回到过去,用更好的设备、更好的角度、更好的光线重新拍摄。


我特别被Ren Ng(Lytro相机的创始人)在访谈中的一个观点所震撼。他说,在未来,我们可能不再需要在当下拍摄那么多照片,而是可以"派遣摄影师回到过去"。想象一下,你可以请你最喜欢的摄影师,或者是拥有你现在技能的"过去的自己",回到你生命中的任何一个重要时刻,用专业的眼光和技术重新记录那些场景。


这种创作流程的转变还解决了一个长期困扰人们的问题:如何在享受当下的同时还能记录当下。我经常遇到这样的两难选择:是专注于体验当下的快乐,还是忙于拍照记录?现在这个问题有了新的解决方案。你可以用简单的方式记录基本信息(甚至可能是多模态传感器收集的丰富背景信息),然后在事后用AI技术创造出专业级的视觉记录。


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


Phota Labs已经开始在产品中实现这些概念。他们的移动应用允许用户"重新拍摄"照片,修正闭眼、尴尬表情或糟糕光线等问题,同时保持身份和背景的完整性。更重要的是,这个过程不需要复杂的提示词或技术知识。模型深度理解摄影本身,从光线到构图到表情,因此能够自动重新拍摄图像,同时保留让时刻真实的元素。


我试用了他们的beta版本,发现这种体验确实不同于传统的AI图像生成工具。当我看到生成的图像时,我的第一反应不是"这看起来像我",而是"这就是我"。这种差异可能听起来很微妙,但实际体验起来完全不同。传统的AI生成图像总是带有一种"AI味",让人能立刻识别出这是人工生成的。而Phota Labs的输出更像是一张真实的照片,只是恰好每个细节都很完美。


商业模式与市场机遇


从商业角度看,Phota Labs选择了一个非常聪明的市场定位。他们同时推出了两个产品:面向消费者的移动应用和面向开发者的API。这种双轨道策略让他们能够既直接服务终端用户,又为其他应用和服务提供底层技术支撑。


消费者应用的使用场景非常直观:家庭照片修复、社交媒体内容创作、专业头像生成等。我特别看好他们在专业场景中的应用潜力,比如LinkedIn头像、房地产列表照片、餐厅宣传图片等。这些场景对图像质量有很高要求,但往往缺乏专业摄影师的预算。Phota Labs的技术能够让普通人用手机拍摄的照片达到接近专业摄影的效果。


API产品的潜力可能更大。随着越来越多的应用需要处理用户生成的视觉内容,对身份一致性和背景真实性的需求也在增长。从社交媒体平台到电商网站,从虚拟试衣到个性化营销,各种应用都可能受益于这种技术。特别是在需要生成包含特定个人的视觉内容的场景中,Phota Labs的API可能成为不可或缺的基础设施。


我注意到投资者对这个项目的热情。Andreessen Horowitz领投560万美元种子轮,其他参与者包括Figma Ventures、AGI House等知名机构。投资方Yoko Li在一篇投资说明中写道:"Phota Labs首次实现了创建能够忠实保留身份同时释放新创造形式的照片和视频。"这种表述准确抓住了技术的核心价值:在保持真实性的同时释放创造力。


从市场规模角度看,这个领域的潜力是巨大的。随着生成式AI降低了内容创作的边际成本,那些以前不成立的市场现在开始爆发式增长。以前制作一张专业级的个人照片可能需要数百美元的摄影师费用,现在通过AI技术可能只需要几分钱的计算成本。这种成本差异创造了全新的用户行为和商业机会。


我预测这种技术将首先在对视觉质量要求较高但预算有限的场景中普及,然后逐渐扩展到更广泛的日常使用。就像Instagram滤镜改变了人们分享照片的方式一样,个性化AI摄影技术可能会改变我们记录和分享生活的方式。不同的是,这次的改变不仅仅是美学上的,而是从根本上重新定义了什么是"真实"的照片。


技术发展的历史脉络


要理解Phota Labs的意义,我们需要把它放在计算摄影发展的历史脉络中来看。从最早的数码相机到智能手机摄影,再到现在的AI生成摄影,每一次技术跃迁都重新定义了摄影的可能性。


计算摄影的历史可以追溯到数码摄影的早期阶段。即使是最基本的数码照片处理,比如色彩校正和降噪,都涉及复杂的算法。但真正的突破来自于像Lytro这样的公司,他们开创了"先拍照后对焦"的概念。Ren Ng回忆道:"我们可以用光线追踪技术在事后合成不同焦点的照片。一旦你有了这种高维数据集,你就可以做更丰富的计算摄影,将镜头和相机的大部分物理工作转化为纯软件。"


智能手机时代进一步推动了计算摄影的普及。HDR、人像模式、夜间模式等功能都是计算摄影的成果。我们已经习惯了这样一个事实:现代手机拍摄的"照片"实际上是多张图像经过复杂算法处理后的合成结果。从某种意义上说,我们早就不再拍摄"纯粹"的照片了。


生成式AI代表了这个演进过程的下一个阶段。如果说计算摄影是在现有图像基础上的增强处理,那么生成式摄影就是从根本上重新创造图像。但Phota Labs的方法与纯粹的生成式AI有所不同,他们试图在生成能力和真实性之间找到平衡点。


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


Cecilia Zhang在访谈中解释了她们的技术哲学:"我们认为这是从硬件到软件再到生成式AI的演进。我们只是使用不同的工具来回答同一个问题:如何以最好的方式捕捉这个时刻。"这种连续性的观点很重要,它表明AI摄影不是对传统摄影的否定,而是它的自然延续。


我特别感兴趣的是他们对"真实性"概念的重新定义。在传统摄影中,真实性通常与技术真实性等同:这张照片确实是在这个时间、这个地点、使用这个设备拍摄的。但在AI时代,技术真实性和体验真实性开始分离。一张AI生成的照片可能在技术上不是"真实"的(因为它是算法生成的),但在体验上可能比原始照片更"真实"(因为它更好地反映了当时的感受和记忆)。


这种观念转变在摄影界并非没有争议。一些传统摄影师认为AI生成的图像根本不应该被称为"照片"。但我认为这种辩论在某种程度上错失了重点。真正重要的不是制作方法,而是图像的意义和情感价值。正如Cecilia所说:"归根结底,重要的是照片对我们的意义。"


伦理考量与未来挑战


当然,Phota Labs的技术也带来了一些重要的伦理问题,我认为这些问题值得认真讨论。首先是真实性的问题。当我们可以轻松地修改照片中的几乎任何元素时,照片作为"证据"的价值会受到什么影响?


我与团队讨论了这个问题,他们的观点很有趣。Zach表示,他不希望Instagram将他们软件处理的图像标记为"AI生成",因为这些图像本质上是对真实时刻的重新诠释,而不是完全虚构的内容。这个观点触及了一个更深层的问题:我们应该如何定义和标识AI生成或AI增强的内容?


我认为解决方案可能在于建立更细致的分类系统,而不是简单的"真实"vs"虚假"二分法。比如,我们可以区分:原始未修改照片、传统编辑照片、AI增强照片(基于真实场景)、AI合成照片(部分虚构元素)、完全AI生成图像等不同类别。这样的分类系统可以帮助人们更好地理解不同图像的性质和可信度。


另一个重要的伦理问题是同意权和隐私保护。Phota Labs的技术需要大量个人照片来训练个性化模型,这些数据的安全性和使用边界如何保证?虽然他们声称模型是个人拥有和使用的,但技术细节和数据处理流程仍需要更多透明度。


我也担心这种技术可能被滥用于创建非同意的deepfake内容。虽然Phota Labs强调他们的技术专注于真实经历的增强而非虚构场景的创造,但任何强大的AI图像生成技术都有被恶意使用的风险。这需要行业层面的自律和监管框架的建立。


从社会影响角度看,我想到了一个更微妙但可能更深远的问题:当我们可以轻松地创造"完美"的照片时,这会如何影响我们对自己和他人的期望?会不会像美图软件一样,创造出新的美学标准和社会压力?


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


Phota Labs团队似乎意识到了这些问题。他们强调个性化和多样性,而不是推向单一的美学标准。Cecilia提到:"好看的东西对不同的人意味着完全不同的事情。我们启用的是个性化方面,所以你实际上可以选择什么对你来说是好看的。这不是由他人或平台决定的预设滤镜,而是由你决定的。"


我认为这种方法是正确的方向,但实际执行中仍然面临挑战。如何确保技术真正促进多样性而不是同质化?如何帮助用户建立健康的自我形象而不是依赖AI美化?这些问题没有简单的答案,需要技术开发者、伦理学家、心理学家和社会学家的共同努力。


对摄影行业的深远影响


我认为Phota Labs代表的技术趋势将对整个摄影行业产生深远影响,这种影响可能比我们现在能想象的还要大。首先,专业摄影师的角色将发生根本性转变。


传统上,专业摄影师的价值在于他们的技术技能、设备和经验。他们知道如何在不同光线条件下设置相机,如何构图,如何引导被摄者。但当AI可以在事后修正大部分技术问题时,摄影师的价值点将更多转向创意指导、情感捕捉和故事叙述。


我预测会出现一种新的摄影服务模式:AI增强摄影师。这些摄影师可能不需要携带昂贵的设备或在现场花费大量时间调整技术参数,而是专注于捕捉情感和故事,然后用AI技术在后期创造出视觉上令人惊艳的结果。这可能会降低专业摄影的门槛,让更多有创意眼光但技术技能有限的人进入这个行业。


Ren Ng在访谈中提到了一个有趣的概念:"在未来,你可以从任何数量的真实摄影师中选择,他们的作品你真正钦佩,因为他们作为人类的方式既是社交技能也是技术技能,也许能够雇用他们并将他们送回我过去的时光。"这意味着顶级摄影师的风格和技能可能会被数字化,让普通人也能享受到大师级的摄影服务。


对于摄影教育,这种技术也将带来重大变化。传统摄影教育重点关注技术技能:如何使用相机、如何控制光线、如何掌握构图规则等。但在AI辅助摄影时代,教育重点可能转向美学判断、故事叙述、情感表达等更难自动化的技能。


我也看到了新的商业机会。比如,可能会出现专门的AI摄影风格设计师,他们的工作是创造独特的视觉风格供AI模型学习和应用。或者是AI摄影顾问,帮助个人和企业定制符合其品牌或个性的视觉风格。


从更广的角度看,这种技术可能会推动整个视觉文化的民主化。当创造高质量视觉内容的门槛大大降低时,我们可能会看到更多样化、更个性化的视觉表达。这可能会挑战当前由专业摄影师和大型媒体公司主导的视觉文化格局。


我特别兴奋的是这种技术在记录个人和家庭历史方面的潜力。想象一下,你可以用AI技术"重新拍摄"你祖父母年轻时的照片,或者为你的孩子创造他们童年时光的专业级视觉记录。这种能力可能会让每个家庭都拥有类似皇室档案的视觉记录质量。


技术发展的下一步


基于我对Phota Labs技术的了解和行业趋势的观察,我对这个领域的发展方向有一些预测。首先,我认为个性化将成为所有AI视觉技术的核心特征。通用的"一刀切"模型将逐渐被个性化、可定制的模型所取代。


在技术层面,我预期会看到更多的多模态整合。现在Phota Labs主要处理静态图像,但未来可能会扩展到视频、3D场景,甚至VR/AR内容。Ren Ng在访谈末尾提到了这个可能性:"3D VR,我想回到我小时候的卧室拍照,重建这个场景。"这种能力一旦实现,将彻底改变我们回忆和分享记忆的方式。


我也期待看到更智能的背景捕捉技术。现在的系统主要依赖用户主动拍摄和上传照片,但未来可能会有更自动化的方式收集背景信息。比如可穿戴相机、多模态传感器,甚至通过分析你的数字足迹来理解你的生活背景。


a16z投了两个华人560万美金,让AI成为每个人的专属摄影师


从产品角度看,我认为会出现更多专门化的应用。不同的使用场景(专业头像、家庭照片、社交媒体、商业用途等)可能需要不同的AI模型和用户界面。Phota Labs现在提供的是一个通用平台,但我预期市场会朝着更细分、更专业化的方向发展。


我特别看好这种技术在企业级应用中的潜力。比如,零售公司可以用这种技术为客户生成个性化的产品展示图片;房地产公司可以创造更有吸引力的房屋列表照片;HR部门可以帮助员工创建专业的公司照片。这些应用场景的商业价值可能远超消费者市场。


从技术发展路径看,我预测下一个重大突破可能在实时处理能力上。现在的AI图像生成通常需要几秒到几分钟的处理时间,但如果能实现实时或近实时的处理,就可以支持更多的交互式应用场景。想象一下一个智能相机,能够在你拍照的同时实时优化图像质量和构图。


我也关注这种技术与其他AI能力的融合。比如,结合语言模型的理解能力,可能可以通过简单的文字描述来指导图像生成和修改。或者结合情感识别技术,AI可以根据照片中人物的情感状态自动调整视觉风格和氛围。




文章来自于微信公众号 “深思圈”,作者 “深思圈”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0