ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
小滑块上个斜面,难倒多少高中生?现在,AI让它动起来了
6924点击    2024-10-15 15:08

原来物理还能这么学。


学习物理,不同的人自然有不同的经历。一些人觉得物理课简单直观,但另一些人却认为它抽象又反直觉,根本就无法理解。为此,许多教师和教学研究者探索了各种方法(像是课堂演示、动画演示等),力图让物理课变得生动有趣,便于学生理解。


随着人工智能的发展,我们已经看到各种知识学习新方法层出不穷,比如 AI 口语陪练就已成为一个颇受欢迎的应用。现在,卡尔加里大学和 Adobe 研究院的一项研究又展示了一个新可能:用 AI 将物理课本上的图表变成动画,直接演示物理机制的过程。如此一来,原本抽象的物理课程或许一下就会变得直观起来!






可以看到,只需在物理图表上绘画一个方框标记识别范围,AI 就能在分析之后将其变成可交互的动图。单摆、电路、透镜、斜坡滑行…… 不管是牛顿力学、光学还是基础电路,这个 AI 统统都能搞定。


该研究发布后收获赞誉无数,人们都从中看到了提升学生学习效率的潜力,甚至有人表示现在是当学生最好的时代。



当然,也依然有人表示怀疑。毕竟研究是一回事,转化成实际应用又是另一回事。



不管怎样,该研究不仅获得了大多数网友的赞美,也赢得了学术界的认可,其获得了正在举行的 ACM 用户界面软件和技术研讨会(UIST 2024)的最佳论文奖。



下面我们就来看看这个「增强版物理学」是怎么做到的吧。



  • 论文标题:Augmented Physics: Creating Interactive and Embedded Physics Simulations from Static Textbook Diagrams
  • 论文地址:https://arxiv.org/pdf/2405.18614


从其标题可以看到,该研究可「基于静态的教科书图表创建交互式和嵌入式的物理模拟」。为此,他们用到了 Segment-Anything 和多模态 LLM 等先进的计算机视觉技术。


据介绍,该系统支持多种类型的模型,包括牛顿运动、光学、电路、循环动画。只需简单地勾画,用户就可以选取图表中的特定的对象进行分割,然后操作这些分割出来的对象,并调整参数值与这些模拟结果进行动态交互。此外,还可以通过一个基于网页的界面将这些交互式视觉输出无缝地叠加到教材 PDF 上,让学生无需搜索外部材料或从头开始创建模拟,即可学习、实验和使用教材。


该团队也指出,基于静态文档创建交互式解释内容的想法并不新鲜,但这项研究有三大贡献:


  1. 提出了一种全新的图像到模拟工作流程。之前的 Charagraph 和 Augmented Math 等研究关注的是文本到文本或文本到图表的工作流程,但它们不足以满足物理图表和模拟的需求,这需要更关注图像的方法。
  2. 为增强物理模拟工具的设计空间做出了贡献。为了设计这个系统,该团队执行了一个形成性启发(formative elicitation)研究。他们询问了 7 位物理课讲师,了解了他们增强物理教材的方式。基于这些结果,他们找到了四大关键的增强策略:增强实验、动画图表、双向绑定、参数可视化。
  3. 他们执行了三项评估,贡献了一份技术评估、一份初步可用性研究(N=12)和对物理讲师的专家采访(N=12)。


形成性研究


在设计系统之前,该团队在七位物理学讲师的帮助下进行了形成性研究。其目标是了解他们当前的物理教学方法,以确定当前教育实践中的差距和需求,以及通过设计启发来收集他们对潜在增强策略的见解,以便从教学角度指导这种工具的设计。


方法


该团队从当地大学社区招募了具备扎实物理教育背景的学生,其中包括 1 名本科生、5 名硕士生和 1 名博士生。这些参与者平均拥有 1.7 年作为助教或讲师的教学经验。


研究团队首先和参与者讨论了当前物理教学中对新型教学工具的需求,随后鼓励参与者提出新工具设计方案。他们以一本大一物理教科书 ——《Physics for Scientists and Engineers: A Strategic Approach, 3rd Edition》为例,要求参与者从教师的视角出发,思考如何将书中的静态概念图表转化为更具互动性和教学效果的增强形式。


目前物理教学实践的挑战

 

经过讨论,该团队认为目前的物理教学存在以下挑战:


  1. 静态的图表只能展示某一时刻的状态,但物理中有很多概念是会随时间变化的,静态图表无法展示这些动态的物理过程。
  2. 视频可以展示物理现象随时间的变化,但是仅看视频,学生无法亲自进行实验操作,比如调整实验参数,观察不同条件下的结果。
  3. 学生可以通过计算机上的模拟工具来探索物理现象,但是这些工具没有配备教学相关的指导。
  4. 在物理教学中,有时会引入视频等额外的资料来辅助教学,但这将分散学生的注意力,影响学习效果。


启发得到的增强策略


在系统开发过程中,该团队收集了参与者关于各种主题的设计建议,包括运动学、光学、电磁学、牛顿引力、声学和热力学。根据反馈,他们确定了四种主要的增强技术类别。

 

增强实验:让用户可以直接操作教材图表,让他们可以改变物体的位置或电路元件的数值等,然后观察其实时的变化情况。



动画图表:将静态图像变成循环动图,展示随时间的变化情况。



双向绑定:将文本与图像连接起来,让它们变得可以操作。



参数可视化:在模拟图表中按需生成不同参数的可视化结果。



Augmented Physics 的设计框架

 

如何根据静态图表创建互动式的动画呢?Augmented Physics 是这么用的。

 

创建工作流

 

在 Augmented Physics 创建一个工作流程的步骤如下:


1. 导入教科书页面


Augmented Physics 支持计算机端和移动端,你可以通过手机拍照上传,也可以直接导入 PDF。


2. 选择模拟类型


Augmented Physics 可以让涉及运动、光学和电路的相关图像动起来。不属于这些分类的图像,「动画」功能也能让它动起来。


3. 提取并分割图像


用户可以在特定区域用方框和点把要动起来的区域画出来。



4. 定义分割后的图像


分割完成后,需要标明分割出来的物体在整个系统中的角色,比如下面的这张透镜成像图,就标记了焦点 F、透镜、和投影对象。



对于电路图,Augmented Physics 可以通过图像识别,自动识别电阻器和电池等元素。


5. 生成并运行模拟。图像分割完成并分配角色之后,系统会将分割得到的图像转换成适合物理模拟的多边形,进而生成模拟。如图 7 中斜坡滑行的示例。



6. 通过参数操作与模拟实现交互。用户可以灵活地调整模拟中的参数,例如动态对象的质量、静态对象的摩擦力和弹簧力常数。系统还可以识别文本或图像中的参数值,使用户能够操作页面上的数值。例如,在电路模拟中,用户可以修改电阻和电池的值,以动态改变模拟结果。此外,该系统还能自动将文本中的数值链接到模拟中对象的特定属性,并且用户可以编辑这些属性。


支持的增强功能


该系统支持以下功能:

 

增强实验:如下图所示,用户在选取电路图后,该系统会生成一个覆盖其上的模拟,用户可以通过调整数值来与之交互。



动画图表:比如对于光的折射图,用户可以选择一条光路,观察光的路径。



双向绑定:下图展示了一个运动学图表的双向绑定示例。用户选择绑定一个数值,然后通过拖动可以调整这个值,然后系统会基于新的值运行模拟。



参数可视化:图中展示了单摆的参数可视化。用户选择单摆和可用参数后,该系统可以可视化其随时间的变化情况。



实现


该系统主要包含两个组件:使用 Python 的后端计算机视觉管道模块和使用 React.js 开发的前端 Web 界面。


其中,计算机视觉模块集成了广泛使用的图像分割模型 Segment-Anything,以及通过 OpenCV 定制开发的线和轮廓检测算法。


前端和后端之间的通信通过 Firebase 实时数据库实现,并允许根据提供的输入坐标处理图像。得到的结果(包括提取的图像、线条或点)随后通过 Firebase 传回。此外,该系统还会计算提取的图像的边界框和 X 和 Y 坐标,并将这些数据传输到前端。


对于文本识别和数值提取,他们使用了谷歌的 Cloud Vision API。然后,将页面文本和提取的对象数据以 JSON 格式发送到 LLM(GPT-4),该 LLM 的作用是推荐模拟类型并根据文本自动设置模拟参数。


在原型设计和技术评估中,前端是 2022 版 14 英寸的 MacBook Air 上运行的 Chrome 浏览器,后端是 Google Colab(CPU:Intel Xeon 4 核,GPU:Nvidia T4,RAM:50GB)。


技术评估


表 1 总结了技术评估结果。模拟不同元素的成功率如下:运动学为 64%、光学为 44%、电路为 40%(经过微小编辑后可提升至 62%)、动画为 66%。



具体细节请参阅原论文。


用户研究


初步用户研究


在初步研究中,该团队评估了系统可用性得分 (SUS)、总体参与度和系统的有用性。新设计的系统获得了 92.73 的总体 SUS 得分,标准差(SD)为 9.84。


参与者最喜欢功能的是参数可视化(平均值 (M)=6.8,SD=0.4)和双向绑定(M=6.7/7,SD=0.67),其次是增强实验(M=6.0/7,SD=1.78)和动画图表(M=6.2,SD=1.07)(图 13)。



总体而言,参与者认为所有功能都很有用。


专家意见


该团队也询问了专家的看法。他们普遍表示,该系统可以帮助他们为学生创建个性化的模拟。他们也给出了自己的反馈,总结如下:


  • 补充在线资源,而不是替代;
  • 扩大实验展示的范围;
  • 通过独立的自主导式探索让学生参与进来;
  • 通过观察促使学生提问;
  • 需要在课堂演示之前验证模拟结果;
  • 教师强调独立思考,而不是拿到题还没思考就立马使用该系统。

 

真心希望该系统能早点投入实际应用!


文章来自于“机器之心”,作者“佳琪、Panda”。


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)