学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
学术海报不用愁,一句话精准自动编辑,华东师大开源APEX
5541点击    2026-01-21 16:10

华东师范大学Planing Lab提出APEX框架,通过自然语言指令实现学术海报的局部可控编辑,并引入「审查—调整」机制提升编辑可靠性。


学术海报是科研成果展示的重要形式,但在有限版面内完成高密度内容组织与美观排版,往往需要研究人员投入大量时间与精力。


近年来,Paper2Poster、PosterGen 等工作尝试通过多智能体框架自动生成学术海报初稿,但生成结果普遍存在排版僵硬、风格单一的问题,与人工精修海报仍有明显差距。


不仅如此,这些方法缺乏在初稿基础上进行交互式修改的能力,当用户不满意时,往往仍需大量人工手动修改。


针对这一痛点,华东师范大学Planing Lab提出APEX(Academic Poster Editing Agentic Expert),这是首个面向交互式学术海报编辑的Agent框架


APEX能够根据用户的自然语言指令,对现有学术海报进行局部、可控的自动修改,真正实现「一句话编辑学术海报」。


为应对学术海报中图文元素密集、结构复杂的特点,APEX通过操纵预定义的一套涵盖「单元素操作」到「组操作」的多层级API来增量式编辑学术海报。


此外,其引入 「审查—调整(Review-and-Adjustment)」机制,在首次编辑完成后对比编辑前后的视觉与语义变化,检查是否存在与指令不一致或不必要的修改,并进行二次修正,从而显著提升编辑结果的可靠性。


为模拟真实编辑场景并系统评估学术海报自动编辑能力,团队通过参考导向与无参考优化两种方式构建了首个学术海报编辑基准测试APEX-Bench,该基准覆盖 59 篇 ICLR、ICML、NeurIPS 顶级会议论文,对应514条具有4种难度梯度的编辑指令,涵盖文本内容修改、风格调整、图像编辑与布局重构等多种操作类型。


学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

论文链接:https://arxiv.org/abs/2601.04794

代码仓库:https://github.com/Breesiu/APEX


实验结果表明,综合指令遵循度、修改范围控制度以及视觉一致性这三种关键指标,APEX 显著优于「重绘式」方法和通用PPT Agent方法,能够在严格执行用户指令的同时,最大限度避免对无关区域的误改。


为什么现在的AI改不好海报?


学术海报是科研成果展示的核心窗口,其要求在有限的空间内进行高密度的论文信息排版。


近年来的大模型自动化工具(Paper2Poster,PosterGen等)虽然能生成学术海报,但不能在海报初稿的基础上根据用户的指令进行二次修改。而围绕学术海报编辑的现有解决方案也各有不足:


重绘式方法(Regeneration-based)存在「严重幻觉」问题


「重绘」式方法指的是将原海报、相关论文和修改指令一起输入给多模态大模型(如Gemini3-pro, Gemini-3-Pro-Image-Preview (Banana pro)),让模型重新生成一张海报图像或XML文件(pptx)。


其中使用Banana pro重新生成海报这种时下热门的方法存在严重的视觉幻觉,端到端的图像生成较不稳定,常常会乱改海报中已有元素。特别是在处理学术图表时,模型容易模糊、扭曲图表中的内容,导致数据不可读甚至含义错误,且难以保证海报其余部分的忠实度。


学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

Banana Pro的幻觉问题


而生成XML的方式也存在较严重幻觉问题,其很难在编辑过程中保留原始海报的所有内容。


通用PPT Agent存在「领域水土不服」问题


通用的幻灯片编辑Agent虽然能操作pptx文件,但缺乏对学术论文结构的深层理解,且难以处理海报中高密度的图文排版。


APEX方法框架


为了解决上述问题,APEX执行多层级的API序列来增量式编辑学术海报,并引入「审查-调整」机制调整初次编辑的结果,提高编辑的准确度。


学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

APEX学术海报编辑架构图


1. 语义解析与元素序列化


系统首先利用python-pptx库将原始海报的pptx文件解析为结构化的JSON数据,提取出所有元素的ID、位置和属性,为精准控制提供数据基础。


2. 规划与执行(Planner-and-Execution)


  • 论文理解工具:当指令涉及内容补充(如「插入消融实验的表格」)时,Agent会调用论文理解工具从原论文PDF中提取真实数据,杜绝内容造假。


  • 多层级API设计:APEX没有依赖不稳定的代码生成,而是预定义了一套涵盖「单元素操作」到「组操作」的多层级API(如move_group移动章节,text_format_brush同时修改文本的多个属性)。系统根据输入的JSON数据、海报图像、用户指令以及所需的论文内容,生成API序列来编辑学术海报对应的pptx文件。


3. 审查与调整(Review-and-Adjustment)


这是系统的「质检」部分。在初次编辑后,多模态Agent会对比编辑前后效果,不仅检查系统是否进行了冗余的编辑操作,还会核实海报中修改的部分是否与用户的指令一致。


如果发现排版重叠或内容错误,系统会自动生成额外的API序列进行二次修正,极大缓解了初次编辑效果不佳的问题。


APEX-Bench

首个学术海报编辑基准


学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

APEX-Bench构建流程


为了系统评估编辑能力,团队构建了APEX-Bench,包含59篇顶级AI会议(ICLR, ICML, NeurIPS)论文对应的514条编辑指令。


  • 数据源与PosterGen:为模拟学术论文合成与编辑全流程自动化场景,数据集中的海报统一使用PosterGen这一兼具良好美学设计与内容组织的自动学术海报生成框架合成。


  • 构建策略:采用「模型辅助,人工精修」。其中「模型辅助」的具体策略如下所示:


  • 参考导向(Reference-guided):大模型对比PosterGen生成的AI初稿与人类作者的终稿,根据差异生成编辑指令。


  • 无参考优化(Reference-free):大模型从美学和内容等角度出发,自主提出优化建议。


  • 多维分类:涵盖了文本内容修改、文本风格调整、图像调整、布局重构等多种操作,并按难度分为四个等级,且包含了大量依赖论文上下文(Paper-related)的编辑指令。


评价指标:为了全面自动化评估编辑质量,团队采用了多模态大模型裁判(VLM-as-a-judge)进行评估。评估维度如下:


指令遵循度(Instruction Fulfillment):衡量系统是否准确地执行了用户的具体要求。


修改范围控制度(Modification Scope):评估系统是否引入了不必要的、未请求的修改(即是否对无关区域产生非预期修改)。


视觉一致性(Visual Consistency):在前两个指标得分较高的情况下,评估修改后的元素是否与原海报的整体设计(布局、风格)保持和谐统一


实验结果


学术海报不用愁,一句话精准自动编辑,华东师大开源APEX

各方法性能及成本比较


团队在APEX-Bench上进行了广泛评测。实验对比了图像生成(Direct Image Generation)、XML生成(XML Generation)、基于python脚本的直接编辑(Direct Script-based Editing)、通用PPT Agent的方法(PPTC、Talk-to-Your-Slides)以及我们提出的APEX方法。


结果显示:在指令遵循度(I.F.)和视觉一致性(V.C.)上,APEX得分最高且大幅领先其他方法,说明其能较好地执行用户指令并保持编辑后海报的视觉一致性。此外,其在修改范围控制度(M.S.)的良好表现可以说明,该方法有效避免了重绘式方法常见的幻觉问题,极少改变与用户指令无关的元素。


总结


APEX通过多层级API和「审查-调整」机制,有效填补了学术海报自动编辑的领域空白,解决了学术海报编辑中「重绘导致幻觉」和「通用PPT Agent不懂学术海报的复杂结构」的双重难题,为科研人员提供了一个可靠的学术海报自动编辑助手。


参考资料:

https://arxiv.org/abs/2601.04794


文章来自于“新智元”,作者 “LRST”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md