深度对话 Benchmark 合伙人:AI 打破了 SaaS 的 3322 规则改变创造本质
深度对话 Benchmark 合伙人:AI 打破了 SaaS 的 3322 规则改变创造本质Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。
Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。
要说AI商业化最成功的领域,广告绝对算一个。
AI的未来,不只是属于他们,而是由他们创造 在这场由AI引爆的全球创业浪潮中,一批出生于2000年后的年轻人正以惊人的速度冲上前台。
最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。
现在市面上有46种Prompt工程技术,但真正能在软件工程任务中发挥作用的,可能只有那么几种。来自巴西联邦大学、加州大学尔湾分校等顶级院校的研究者们,花了大量时间和计算资源,调研了58种,整理了46种,最终筛选测试了14种主流提示技术在10个软件工程任务上的表现,用了4个不同的大模型(包括咱们的Deepseek-V3),总共跑了2000多次实验。
奥特曼亲笔长文「温和的奇点」,在AI圈内掀起巨震。他预示了人类正迈向超级智能时代,奇点不会一夜袭来,而是悄然渗透。
OpenAI深夜放大招,正式推出“最新最强版”推理模型o3-pro! 而且同一时间,o3模型降价80%不降智。官方测评结果显示,在专家评估中,所有人一致更偏爱o3-pro而非o3的回答。
IT桔子在2024年做过一次统计:AI创业者曾在非常优秀的大厂/名企工作过的,在已透露职业背景的AI创业者中占比达到90%。其中,培养中国AI创业者较多的25家名企,包括百度、阿里、腾讯、华为、网易、360等13家中国企业;还有12家外企和跨国公司。
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
1.93bit量化之后的 DeepSeek-R1(0528),编程能力依然能超过Claude 4 Sonnet?