深度｜生成式AI面临数据过载，应专注于更小、更具体的目标

4758点击 2024-11-04 17:15

图片来源：Unsplash

“没有数据就没有人工智能，没有非结构化数据就没有人工智能，而没有大规模的非结构化数据就没有人工智能，”数据管理公司 DataStax 的董事长兼首席执行官 Chet Kapoor 说。

Kapoor 在 2024 年 TechCrunch Disrupt 大会上启动了一场关于“新数据管道”的对话，讨论现代 AI 应用的背景，他的对话伙伴包括风险投资公司NEA的合伙人Vanessa Larco，以及数据集成平台Fivetran的首席执行官George Fraser。虽然讨论涵盖了多个方面，例如数据质量的重要性和实时数据在生成性 AI 中的作用，但一个重要的结论是，在 AI 的早期阶段，优先考虑产品市场契合度而非规模的重要性。对于希望进入令人眼花缭乱的生成性 AI 世界的公司，建议是简单明了的——一开始不要过于雄心勃勃，专注于实际的、渐进的进展。原因是？我们实际上仍在摸索这一切。

“生成式人工智能最重要的是一切归结于人，”卡普尔说。“真正去构建前几个项目的特种部队——他们不是在阅读手册；他们是在编写如何开发生成性人工智能应用的手册。”

虽然数据和人工智能密切相关，但公司可能拥有的数据量庞大，可能会让人感到不知所措，其中一些数据可能是敏感的，受到严格保护，甚至可能存储在无数个位置。Larco 与许多 B2C 和 B2B 领域的初创公司合作并担任董事会成员，他建议了一种简单但务实的方法，以在这些早期阶段释放真正的价值。

“倒推你想要实现的目标——你想解决什么问题，所需的数据是什么？”Larco 说。“找到那些数据，无论它们在哪里，然后将其用于这个目的。”

这与从一开始就试图在整个公司推广生成性人工智能，向大型语言模型（LLM）抛出所有数据并希望最终得到正确结果的做法形成对比。根据 Larco 的说法，这很可能会造成不准确且昂贵的混乱。“从小开始，”她说。“我们看到的是公司从小规模开始，使用内部应用程序，设定非常具体的目标，然后找到与他们试图实现的目标相匹配的数据。”

弗雷泽自 12 年前创立“数据移动”平台 Fivetran 以来一直领导该公司，期间吸引了 OpenAI 和 Salesforce 等知名客户，他建议公司应专注于当前面临的实际问题。

“只解决你今天面临的问题；这就是座右铭，”弗雷泽说。“创新的成本总是 99%来自于你建造的那些没有成功的东西，而不是那些成功了但你希望提前规划规模的东西。尽管这些是我们总是在事后考虑的问题，但它们并不是你承担的 99%的成本。”

就像早期的网络和最近的智能手机革命一样，生成式人工智能的早期应用和用例展示了一个强大的新人工智能驱动的未来的曙光。但到目前为止，它们并不一定是颠覆性的。

“我称之为生成式人工智能的愤怒小鸟时代，”卡普尔说。“这并没有完全改变我的生活，没人帮我洗衣服。今年，我合作的每个企业都在投入一些东西到生产中——虽然是小规模的内部项目，但他们正在投入生产，因为他们实际上在解决问题，如何组建团队去实现这一目标。明年是我所称的转型之年，人们将开始开发真正改变他们所工作的公司的轨迹的应用程序。”

原文：TechCrunch, https://techcrunch.com/2024/11/03/genai-suffers-from-data-overload-so-companies-should-focus-on-smaller-specific-goals/

编译：Shizheng Cao

文章来自于微信公众号“Z Potentials”，作者“TechCrunch”

深度｜生成式AI面临数据过载，应专注于更小、更具体的目标

关键词: AI , 模型训练 , 人工智能 , 数据集