最近,宾夕法尼亚大学沃顿商学院的Ethan Mollick教授在常春藤名校哈佛大学发表了一场引人深思的讲座。
讲台上,Ethan教授分享了他将AI引入课堂的经验,展示了AI辅助教学的创新实践。这种将理论与实践相结合的方法,正是哈佛大学一直倡导的教育理念。过去几个月里,AI领域的发展速度令人惊叹。正如Ethan教授在哈佛演讲中指出的,许多AI实验室的研究人员已经从最初的犹豫不决转变为现在的满怀信心。他们普遍认为,在未来四五年内,我们将见证AI能力的指数级提升。一些研究者甚至相信,他们能在短短五六年内创造出在所有智力任务上都超越人类的机器,即所谓的通用人工智能(AGI)。
然而,Ethan教授也提醒我们面对AI时的挑战。他在讲座中指出:"没有现成的AI使用手册。"无论是企业的学习发展部门,还是像OpenAI这样的前沿科技公司,都无法为我们提供标准的最佳实践。在这个全新的领域,我们都在摸索前进。Ethan教授在哈佛大学的演讲中提出了一个关键观点:使用AI就像教学一样。这一观点与哈佛大学长期以来倡导的教育理念不谋而合。
正如一位MBA学生在讲座后评论的那样:"AI并不差,你只是个糟糕的管理者而已。"这句话道出了使用AI的精髓——我们需要像优秀的教育者一样,给予AI清晰的指示和丰富的学习资源,才能充分发挥它的潜力
大家好,非常兴奋。不过我今天想讲的重点其实和介绍没什么关系。关于 AI,它们真的会改变教育。
首先,AI生成内容是检测不出的。 这当然意味着所有人都在作弊,100% 没有例外。所以这很奇怪,教育现在处于 AI 采用曲线的尖端。70% 的本科生和 K-12 学生在使用 AI,即使他们没告诉你,他们仍然在使用。我们无法检测到 AI 写作,将来也永远无法完全检测到,这将是一场无止境的军备竞赛,所以我们必须面对这个问题。
第二,AI 是无处不在的。 让我感到兴奋的是,我一直在尝试通过模拟和体验来大规模教育人们,而且顺便说一句,我这次演讲中的每一张图片都是由 AI 生成的,这点可能没有那么显眼。但有趣的是,这是第一个普遍可用的工具。以前,如果我去哈佛大学,他们有比其他地方更酷的工具,因为那里有很多资金。如果我去一个农村学校或者不同国家的学校,可能就没有那么好的资源这是一个非常独特的时代,AI 的使用已经无处不在。
最后,AI 是具有变革性的。 我觉得你们之前提到了一个很重要的观点,就是 AI 实验室在向我求助寻找答案,这其实挺可怕的。没有人真正知道这些模型能做什么,我可以保证,开发这些模型的人对医学或者医学教育几乎一无所知,他们只是程序员,把这些东西当作编程问题来解决。他们完全没有预料到 AI 会颠覆所有作业系统。每个行业都在发现它的用例,没有人能帮你,我们只能互相帮助,因为根本没有现成的答案。那些开发人员根本没有考虑过这些问题。AI 模型在医学领域表现得这么好,完全是个意外,这绝对是他们始料未及的。所以每次有新模型发布时,我总觉得挺有趣的。我曾开玩笑问 Google 团队, 你们发布了新模型,那么发布说明在哪儿呢?他们私下回复我,‘其实我们也不知道这个模型能干什么,所以希望有人能告诉我们发布说明是什么。’ 这就是我们现在的现状。不过,简单来说,去年开始,一切都变得很奇怪了。这是 GPT-3.5,也就是 Chat 的免费版本的测试分数。”
当我说在 GRE 定量测试中,GPT 达到了 65% 这个分数时,举个例子,这是用于申请宾夕法尼亚大学研究生的考试分数。这个 65% 不是答对 65% 的题目,而是 AI 击败了 65% 的人类考生。然后情况变得更加奇怪了,GPT-4 在其他测试中几乎都拿到了满分。现在,我们基本上有了五种不同的 AI,它们在任何测试中都能进入前 90 个百分位。有一次我展示了 Llama 3.1 统计数据的截图,问 Claude 能否把这些数据转化成图表,结果它做到了。所以如果你想要的话,任何人都可以这么做,只需要问它就行。这也是历史上采用速度最快的技术,我们绝对不可能回到过去。我跟一些人聊过,他们觉得或许可以让时光倒流,但这绝对不会发生。我们从未见过这种采用曲线。显然,人们已经发现它非常有用。我认为现在的 AI 批评有点像倒退,尽管我们会讨论 AI 的一些合理批评点,但目前至少有一半的老师、学生和家长每周至少使用 AI 一次, 而且没有人会停止使用 AI 来做事。所以我们可以假装想要放弃它,想要改变使用方式,但这是不可能的。我从 AI 刚出现时就一直在警告,家庭作业的“末日”已经发生了。AI 能完成所有级别的家庭作业,不仅仅是 K-12 和大学,它在哈佛的 GPA 达到了 3.34,即使有分数通胀,这也算不错的了,甚至在研究生阶段也是如此。你们或许已经看过斯坦福医学院的论文,表明 GPT-4 比一、二年级的学生表现得更好。我特别喜欢右边的这张关于法学院学生分布的图。蓝色曲线代表没有使用 GPT-4 的学生,
分布相对正常,贴近标准分布的一侧。而橙色曲线代表使用了 GPT-4 的学生。现在没有“差”律师了,AI 替代了那些表现不佳的律师工作。这种拉平效应是我们已经看到的一个现象。显然,教育是个大问题,我们接下来会重点讨论这个,但我也在思考它在现实世界中的影响。
我和哈佛、商学院、MIT 和华威大学的同事们一起做了很多研究。例如,我们和波士顿咨询公司(BCG)合作进行了一个实验,我们创造了 18 个现实中的商业任务,涉及分析任务、创造力任务,一些咨询师可以使用 GPT-4,而另一些则不能使用。
这是实验结果:任务的质量提高了 40%,速度提高了 26%。为了让大家有个比较,蒸汽动力在 19 世纪早期被引入工厂时,工厂的效率只提升了 18% 到 22%。这些数据非常大。另一篇关于使用 GitHub Copilot 编码的论文刚刚发表,它是早期的编码工具,基于 GPT-3.5。研究发现,使用这些工具的程序员速度提高了 25%。所以,最低的改善线是 25% 到 60% 的表现提升是很常见的。对于我们教育者来说,另一件重要的事是,表现较差的人受益最大。在 BCG 的实验中,技能分布底部 50% 的人提高了 43%,而技能分布顶部 50% 的人只提高了 17%。情况比这还要奇怪一些,因为我们还测量了一项叫做“保持率”的指标,即咨询师最终将多少 AI 的回答当作自己的回答。唯一能让 80% 的咨询师出错的方式是,他们对 AI 的回答进行了任何修改。只要他们不修改 GPT-4 的答案,他们就表现得非常好。这种现象很常见,随着技能水平的提高,问题不再是 AI 能否完成任务,而是 AI 能完成谁的任务。我们在医学领域也发现了类似的效果。你们应该都看过这篇经典论文,它讨论了 AI 如何回答 Reddit 上的常见医学问题。
还有一篇 Google 的论文显示了相同的结果。医生认为 AI 聊天机器人的回答比普通医生更准确,而且在我们所有的研究中,AI 被认为比医生更有同理心。我相信你们一定讨论过这个问题,我们需要弄清楚这对我们的行业意味着什么。我们不应该忽视那些真正有用的工具。现在,我不认为这些工具已经足够成熟,可以用于一线医疗工作,但我的标准一直是:它比人类中最优秀的人更好还是更差?我认为这在医学领域是一个相关的问题。然后我们看到了一些其他奇怪的现象,比如 AI 在创造力方面比人类更优秀。我在沃顿的同事进行了一项研究,他们让创新课的学生产生了 200 个商业创意,同时让 AI 生成了 200 个商业创意。”他们让外部评委根据人们愿意支付的金额来判断这些想法的质量。结果,在前 40 个最佳创意中,AI 贡献了 35 个,而房间里的真实人类只贡献了 5 个。在所有的创造力研究中,AI 击败了普通人类。虽然它还不如最优秀的人类,但比普通人要强得多。
然后在说服力方面,AI 比人类更具说服力,这和我们做的事情非常相关。如果你和普通人类与 AI 进行辩论,你更有可能改变观点并接受 AI 的看法,成功率为 81.7%。(虽然我可能记错了具体数字)但就是这么高。而我们唯一找到的一个能够显著减少长期阴谋论信念的方法,就是让人们和 AI 进行三轮辩论。那些经历了这种辩论的人,对任何阴谋论的信念在三个月后都会有所下降。几乎没有其他方法能改变这种顽固的信念。不过另一方面,如果通过 AI 说服可以改变深层次的信念,那么我们不仅仅需要担心阴谋论信念,这也是我们需要探索的新领域。如果你还没看到这些研究,很多都发现了相同的结论,即受 AI 影响最大的工作是那些受过高等教育、薪水高、创造力强的职业。
在这项研究中,共有 1,016 种工作——顺便说一下,商学院教授排名第 22,所以我对这个问题思考了很多。有四种受 AI 影响最小的职业,万一你们想知道的话,分别是:职业舞蹈家、职业运动员、屋顶工人和挖沟工人。不过我实际上和一个阿米什社区的屋顶工人聊过,他正在使用 AI 发送报价。所以,如果阿米什人都开始用 AI 了,那么对于我们所有人来说,AI 的普及已经是不可避免了。但这并不意味着完全替代,而是意味着 AI 和我们所做的工作存在重叠。这是变革的体现。
到这里,我主要的论点是,在 AI 无处不在的世界里,基础知识比以往任何时候都更重要。你无法验证这些工具做出的结果,除非你具备足够的知识。专业知识比以往更加重要。我的意思是我们真正需要培养的那种专业知识,即通过内部启发和高水平反复练习来判断事物的自主能力。培训比以往更加重要。我们需要真正能够做事情,而不仅仅是谈论它。这意味着在 AI 时代,教育比以往更加重要。所以我认为,真正的挑战是教育者如何思考这些问题。
我们给课堂的建议是回到学生应该学什么的问题上,然后再根据这些内容决定如何使用 AI。你实际上有两种选择。第一种选择是回归基础知识,我有一些 1970 年代经典计算器的图片。计算器的出现绝对使得大量数学课程失效,在 70 年代中期引起了混乱。后来我们意识到,我们仍然希望人们掌握基础数学能力, 所以我们逐渐转变方式,不再使用电子工具,而是要求学生通过手写测试来确保他们掌握了这些知识。回归到扎实的教育学基础,低风险测试是完全合理的。所有关于低风险测试教育学的研究都表明,它不仅对测试有好处,而且学生在被测试后会更好地记住知识,他们在未来回忆相关知识的能力也会更强。有很多理由支持进行低风险测试,比如课堂上的测验、蓝皮书和活跃的课堂讨论。
但即便在这种情况下,你不让学生使用 AI,而我们还会讨论学生使用 AI 的问题,教育者使用 AI 仍然有巨大的价值。在现实世界中,我们看到教师使用 AI 生成课程计划、创建工作表和其他材料。而且很明显,大家都是在边做边学。就像我告诉你的,没有操作手册。所以 AI 的第四或第五常见用途是检查是否存在抄袭。如果你还不知道这个问题,你不能问 AI 某个内容是否由 AI 写的。GPT-4 在 95% 的情况下告诉你是它写的,因为它想让你高兴,所以会帮你“解决”这个问题,但其实是假的。没有任何 AI 检测工具真正有效,尤其是这种方法特别差。现在有一些研究显示,教师们通过与 AI 进行合作来受益。这意味着他们不仅仅是向 AI 请求输出结果,还会和 AI 讨论他们想要研究的主题或感兴趣的信息。这些教师似乎从 AI 的表现中受益最大。所以我认为这是我们需要思考的一个角度。这是美国公立学校教师的长期研究。所以把 AI 看作一个创造性的合作伙伴似乎是有效的。它不仅作为工具很好用,你可以给它一份文件,生成低风险测试。不过你不能仅仅要求它做这些事情。”
事实上,AI 直接用来做测试的效果非常差。但是如果给它正确的提示——我会给你们一些相关的链接——它在低风险测试方面表现得非常好,而且我们发现老师对此非常满意。AI 在实际使用中的受欢迎程度极高。你可能会看到一些调查显示人们不喜欢 AI,但在所有使用 AI 的调查中,每个使用 AI 的人都非常热情,而那些不喜欢 AI 的人,其实是没有在使用它。一旦他们发现 AI 很有用时,他们也开始喜欢 AI,并且会偷偷使用,不会告诉你。所有这些,我觉得还不如更大的问题有趣,那就是关于变革和思考这些系统带来的变革。
我现在的课程是 100% 由 AI 驱动的。每一个作业都是基于 AI 的。我教的是创业课,这是一个实践性的课程,因此很容易将 AI 纳入其中。但我想谈谈一些方法。问题在于学生使用 AI 的起点,因为他们现在在各个地方都在使用 AI。我不知道你们是否看过,有多少人教大班课程,但过去一年的一个大影响是,学生不再像以前那样举手了。当你问他们为什么时,他们说,“为什么我要暴露自己的无知呢?AI 可以直接给我解释清楚。”在课堂上,我们有一个社会。契约,如果你不知道某个问题的答案,你会举手,暴露自己的无知。通常这意味着我要为 50 个人解释这个问题,而不仅仅是一个人。但现在这种现象消失了。问题在于,学生向 AI 提问以获得答案,但这并不能提供真正的学习。他们只是以最舒适的方式获取信息,而不是推动自己深入思考。这是非常糟糕的,因为这会增加幻觉的风险。我们有一项新的研究表明,这会导致大多数学生产生“掌握错觉”。一旦他们开始使用 AI 来解答问题,或帮助他们做作业,他们会觉得自己已经学会了,但实际上并没有。所以我们看到,作业得分暂时提高了,考试成绩却下降了。这是可以解决的,但你不能只是说,“用 AI 吧,一切都会好起来的。”这根本不是真的,事情不是那样运作的。我们可以做得更好。
另一个例子是——我们再看看这个。我们来看看模拟的例子。我已经开发了很长时间的模拟工具用于教学。这是一个谈判模拟器。我们可以为其他目的构建这些工具。我一直在和医学院的人交流,他们也在构建这些模拟工具。我可以这样说,“我是一个高中艺术学生。”(当然,我把“学生”拼错了,这让我看起来更像个艺术生。)然后它会生成一个关于谈判的场景,但首先它会问我了解多少。我回答“非常少”。现在它应该会开始生成这个场景。接下来,它会给我们三个选项。我们从与 AI 系统合作中学到的一件事是, 与其直接告诉人们答案,不如给他们选择的机会。人们更喜欢多项选择的解决方案。那么我们选哪个?选个数字?选 3 吧。
对老师来说,这是最让人抓狂的场景:和学生谈判加分。我上周收到了六封这样的邮件。”现在它给出了目标,并从老师的角度提供了提示。你看,它即将进行整个角色扮演,最后我会说,“给我 A+,否则我会尖叫。”这并不是最好的表达方式(笑)。好的,挑挑眉毛,我觉得你这么做有点不妥。注意,这个系统给了我们解决问题的提示。使用 AI 进行谈判时有一个有趣的现象,它不希望你犯错,它想帮助你。所以需要一点努力来抑制它的“助人”本能,因为它不想让你搞砸得太厉害。但这里你可以看到一个不错的例子。最棒的是,我们可以反复互动。而要让这工作起来,只需要用简单的英文写作。让我看看,抱歉,系统有点延迟。这是 GPT 实际生成的文本。让我们看一下,这里是文本内容。它实际上就是我们作为教学设计师和老师平常会写的东西,按步骤写出来,例如,先做这件事,然后设定角色扮演
接着,事情会变得更有趣,因为我们可以从这里出发,甚至开发我们自己的技术。我正在尝试点击一些非常小的按钮,想给你们展示几个不同的演示。我相信你们已经看过其中一些东西。你们中的许多人可能都使用过 Claude,对吧?Claude 之所以有趣,是因为你可以对它说,“创建一个解释克雷布斯循环的互动演示,做得好一点。”随着这些系统开始为你构建和创造,它们让你的能力从仅仅使用文字和写作扩展到其他领域。顺便说一下,大约半小时之前,OpenAI 宣布他们的高级语音模式已经可以通过 API 使用了,所以任何人都可以立即创建一个可以对话的互动代理。好了,它刚刚为我们编写了这个程序。我可以这样做,比如说,“让它更互动一点,这太无聊了。”
我们正在构建一个开源工具,你可以告诉它创建明天课堂的模拟,它会查找所有相关内容,并自动为你创建。它会和你进行对话,然后利用多个 AI 代理创建模拟。接着,它会通过让虚拟学生进行测试来验证和改进模拟,最后它会将模拟部署给真实的学生,并提供反馈和评分。重点是,一旦有了这些工具,任何人都可以轻松分享他们的专业知识和知识,而且越来越容易。
第一, 没有现成的AI使用手册。没有人能告诉你如何让这些东西运作起来。你的学习和发展部门不知道,OpenAI 也不知道,因为没有任何最佳实践可以借鉴。我们什么都不知道。但我要告诉你们的关键发现是,使用 AI 就像教学一样。有个有趣的作弊例子,我问我在执行 MBA 课程的学生,“有多少人使用了 AI 的帮助?”因为我教的是 AI,所有人都举起了手。有人说,“但 AI 在评价作业方面表现得很差。”然后另一个学生转头对他说,“AI 并不差,你只是个糟糕的老师和管理者。AI 在定价作业方面非常出色,你只需要给它提供一本更好的教材让它学习,并给它一些清晰的指示,它就可以在定价作业上拿到满分。”使用这些系统的过程就像和老师合作一样。老师是这些系统的最佳用户。程序员往往在使用这些系统时遇到很多困难,但老师、教育者,你们会懂得如何使用它们。
作为一名关注教学法的教育工作者,我注意到AI系统在处理某些教育理论时存在误区。比如学习风格理论,虽然学术界已经质疑其有效性,但由于在教师群体中仍广泛流传,AI也倾向于接受这一概念。这提醒我们需要明确指导AI,避免在讨论中使用某些有争议的理论。AI在处理偏见方面已取得进展,但在特定领域仍存在明显问题。例如,当要求AI扮演儿童角色时,往往会出现令人不安的刻板印象。这凸显了我们作为教育者需要深入了解AI的局限性,并学会在教学中谨慎使用这些工具。
第二, 每个人需要具备程序员思维。我们不应被动等待他人开发工具,而应主动构建和分享教学提示。这种方法可能会打破传统教育系统的限制,为教育创新开辟新的可能性。AI的出现可能会加剧某些传统教学方法的弊端,如过度依赖讲座式教学。然而,它同时为主动学习等更有效的教学方法提供了更多机会。我们应该利用AI来设计更多互动性、参与度高的学习活动,从而提升教学效果。然而,我更为关切的是AI对职场专业知识培养路径的冲击。传统上,毕业生通过实践逐步积累专业技能和经验。但在AI广泛应用的今天,这种培养路径正在逐渐消失。许多企业可能更倾向于使用AI完成工作,而不是投入时间培养新人。这种趋势可能导致年轻人失去宝贵的学习机会。
因此,我们需要重新思考在AI时代如何培养真正的专业能力。这不仅涉及技术层面的适应,更需要我们重新定义什么是核心的人类专业技能。我们可能需要设计新的学习方法和实践模式,确保下一代专业人士能在与AI协作的同时,保持并提升自身的专业判断力和创新能力。这是一个复杂而紧迫的挑战,需要教育界、业界和政策制定者共同努力,为未来的人才培养创造一个平衡技术进步和人类发展的新模式。
第三, 我们应当全面探索AI在教育中的应用。我建议大家投入时间深入使用这些工具,亲身体验它们的潜力和局限。通过反复测试和实践,我们能够更好地理解AI如何融入教学过程,并不断调整我们的方法。然而,仅仅个人探索是不够的。我们必须建立一个更广泛、更开放的交流平台,让教育者能够分享各自的发现和经验。遗憾的是,目前学术界往往更重视研究成果而非教学创新的分享。我们需要改变这种状况,鼓励一线教育工作者积极交流他们的教学实践和创新。值得注意的是,AI领域的发展正在加速。根据我最近与AI实验室专家的交流,他们对未来发展充满信心。许多专家预测,在未来四到五年内,我们将看到AI能力的指数级增长。有些人甚至相信,我们将在不久的将来实现通用人工智能(AGI),即在所有智力任务上都能超越人类的AI系统。再次强调,我不知道这是否真实,但我们应该从长远的角度思考问题。我认为有很多变化正在到来,我们需要开始适应这些变化。我们必须亲自参与,因为如果我们不这样做,实验室就会继续发布平庸的教育项目,因为他们不懂教育。他们会通过初创公司发布平庸的医疗产品,因为他们不懂医学。他们不像我们一样关心伦理和公平。我们必须主动参与,否则别人会为我们做出决定。袖手旁观已不再可行。
我知道你们听到过很多好东西。没有简单的答案,但我认为现在是时候开始行动了。我希望你们能加入到这个实验中,并互相分享经验。
非常感谢大家。
原视频来源:https://www.youtube.com/watch?v=xvxPFH16Bvg&t=338s&ab_channel=HarvardDBMI
文章来源“AI工作坊” 作者“AI深度研究员”