今年 3 月份,英伟达 CEO 黄仁勋举办了一个非常特别的活动。他邀请开创性论文《Attention Is All You Need》的作者们齐聚 GTC,畅谈生成式 AI 的未来发展方向。
「我们所处的领域如今所享有的一切都可以追溯到那一刻…… 你们改变了世界……」黄仁勋在现场说道。
对于 AI 这种科研导向的行业来说,下一次改变世界的机会,可能也藏在某篇论文里。
因此,我们在这个圈子里看到了一个不寻常的现象:一些非技术背景的 CEO 们也开始熬夜读起了论文,希望借此来降低决策的试错成本。
CEO 尚且如此,领域内的其他从业者就更不用说了。前段时间,OpenAI、谷歌、Meta 连放大招,一些创业公司也在不断推出新模型、新方法,相信很多从业者都会感觉论文多到看不过来。
把论文丢给 AI 去总结是现在常用的阅读方法,但很多 AI 总结的内容缺乏清晰的层次以及对于创新点、局限性的详细描述,我们需要经过几轮追问才能形成对于论文的完整认知。而且,一些关键的模型架构图、实验结果图还要自己去论文里找,实际节省的时间非常有限。
在腾讯「元宝」的最近一次更新中,我们看到了这些问题的解决方案。他们新推出的「深度阅读模式」支持长文精读,能够输出模块化的、图文并茂的解析,非常适合用来读论文。
论文「精读」,精在哪儿?
用 AI 读论文是一种怎样的体验?很多时候是:你丢给它一个 PDF,它返回一段总结 + 若干条概述(有时候可能高达 10 条)。这些信息确实有帮助,但有时候,你很难分清哪些是亮点,以及论文解决了什么、没解决什么,有哪些核心问题值得细看。
我们实测发现,「元宝」是通过提供一系列模块化、结构化信息来解决这些问题的。
以我们测试的一篇 SIGGRAPH 论文为例。如果你直接把论文丢进去,它返回的总结和其他 AI 区别不大。不过,只要你耐心往下拉,就会看到一个「深度阅读该文档」的按钮,这才是「一键直达」论文精读的开关。
与之前总结论文的界面不同,精读页面会把论文拆解得非常有层次,研究背景、研究方法、实验设计、结果分析、总体结论各自被组织成一个模块,很像机器之心平时介绍论文的布局。所有这些都可以通过左边的大纲迅速跳转。
别看每个模块字不多,其实这些字是非常有信息量的。比如在研究背景这个模块,「研究难点」段落仅用三个短句就描述了四个难点,「相关工作」更是对第二章「related work」的高度浓缩,一段话就把该领域的主要技术路线介绍清楚了。所以,在读完这个模块之后,我们能基本搞清楚论文研究的是一个什么问题,面临的是怎样一个研究现状。
除了这些常规的结构化信息,元宝的精读还有一个令人眼前一亮的设计 —— 它会把论文的优点与不足列出来,方便研究者迅速了解自己能从这篇论文中学到什么,还有什么问题值得继续研究。
为什么这个功能如此重要?中国台湾清华大学教授彭明辉在关于论文阅读的一篇文章中曾经写道,论文和课本不同,课本会提供别人整理、组织好的系统性知识,而论文要求读者自己从无组织的知识中检索、筛选、组织知识。其中,分析既有研究优缺点的能力尤其重要,这是批判性思维的关键部分,也是学术研究中自我提升的重要途径。元宝通过快速分析和总结论文的优缺点,可以帮助研究者节省大量筛选和初步理解的时间,使他们能够更快地聚焦于与自己研究直接相关的论文。
不过,如果你觉得前面这些信息太繁琐,你也可以直接跳转到最后的「关键问题与解答」模块。这里会列出几个最关键的问题,让你快速了解到论文的价值,进而判断是否值得花时间去读原文。当然,之前的很多 AI 助手也会在答案末尾呈现一些关键问题,点一下就能得到答案,但如果你是一名初学者或者跨学科背景的读者,你可能不太容易判断哪些问题比较关键。元宝这种直接呈现的方式感觉更加直观。
原图原数,谁说 AI 读论文不能配图?
在读论文时,很多人都有一个习惯,一边看图,一边看论文描述。这样理解起来更快、更容易。但是,现在市面上大部分 AI 应用返回的都是文字结果,想看图的话需要自己去原文里找。
我们在测试中发现,元宝是为数不多的直接把论文图截出来并放到段落对应位置的 AI。比如,如果在某个模块讲架构,那它会把对应的架构图放上:
如果在某个模块讲实验结果,那它会把对应的图表放上:
众所周知,大模型的幻觉问题现在还没有办法完全解决。因此,这种原图原数的呈现其实是一种更加可靠的输出方式,方便读者随时验证模型的答案,在用作参考时更加保险。
此外,我们还发现,如果你有写博客等对外输出的需求,元宝还可以帮你绘制图表,而且你不需要告诉它数据去哪里找,它能自己定位到论文中的相关表格,并将数据提取出来进行绘制。这一功能可以通过精读页面右侧的「提问」按钮来唤起。
随时随地想读就读,谁说读论文障碍重重?
除了结构化的信息和图文并茂的输出,我们在测试中还发现,元宝其实有一些非常实用的小功能,能让读论文这件事变得更加方便。
首先是划词翻译和搜索,这是「原文」阅读界面的两个实用小功能。划词翻译可以帮助英语不好的读者随时随地扫清语言障碍,划词搜索则更进一步,像是把元宝的搜索功能做成了一个插件,可以随时搜相关信息。而且,元宝给出的解释不只是简短的总结,还有模块化的展开,真是把「结构化」、「有信息量」做到每一个细节里了。
其次是「离线阅读」。这个功能的实用之处在于:它可以让你在「飞行模式」下回看精读内容及原文,不浪费一点碎片时间。这让航空公司在与高铁的竞争中扳回一局。说不定,研究者们的下一个灵感就是在飞机上回看精读时产生的呢。
最后一个小功能是「计算器」。前段时间,AI 因为分不清 9.9 和 9.11 哪个大而引发了很多讨论。在元宝中,我们发现它集成了计算器功能,能够确保根据准确的计算结果来生成答案。这种功能在我们阅读实验数据时非常有用。
长文精读的背后:原来有专家指导
根据官方信息,腾讯元宝的这次升级主打「长文精读」,可原生支持最长近 50 万字的输入。我们在测试中用到的论文远远没有达到这个长度,日常所接触的论文大多也达不到。所以用元宝来精读论文,大部分情况下上下文窗口都是够用的。它的模块化、图文并茂输出以及划词搜索、翻译等小功能也让读论文这件事真正变得方便、高效,向着「实用性」又迈近了一步。
这种进化离不开其背后模型 —— 腾讯混元大模型的升级。据悉,为了在专业领域中提升模型的专业性和实用性,腾讯混元团队专门邀请领域专家概括各专业领域的核心技能,并制定了专业问题的回答标准,使得模型能够作为真正的领域专家来提供服务。所以我们用下来就感觉,元宝是知道论文读者需要什么信息以及信息应该如何呈现的。
除了论文,这个新功能还可以用来精读财报、研报等长文本。在这些场景中,它可以从多个维度梳理信息,根据报告内容生成杜邦分析图等专业图表,让不懂这些文件的人也能看懂企业的财务状况等信息。
不过,就读论文这个场景来说,元宝依然存在一些改进空间,比如在阅读原文界面缺乏完整的原文 - 译文对照,对公式的识别有时不够准确等。我们也希望元宝能在未来的更新中改进这些问题。
但作为一款推出仅两个多月的应用,腾讯元宝的表现已经有点超出预期。它的进化轨迹让我们看到,大模型将如何一步一步变为新的生产力。我们也期待这个 APP 能给我们带来更多惊喜。
文章来自于微信公众号机器之心 作者张倩