告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26
5991点击    2026-03-23 13:44

苦于AI单字拼凑没行气,或是排版秒变“鬼画符”?


这个痛点,终于被终结了。


现在,只需输入一段文字,就能让AI立刻化身王羲之、颜真卿或是米芾,全自动挥毫泼墨。


告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26


UniCalli,这个由香港科技大学(广州)等团队推出的全新统一扩散框架,不仅能完美拿捏书法的整列排版(Column-level),甚至连相邻字符之间大小错落的缩放、自然流畅的游丝连笔(Ligatures)都能精准生成。


更重磅的是,它首次将“书法生成”和“古籍识别”两大任务统一在了同一个模型里。目前,该工作已被ICLR2026正式接收。


代码、超大规模数据集全部开源,还同步上线了可一键在线试玩的Demo!


告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26


huggingface模型蒸馏后效果,十秒能同步生成数张列级书法作品:


告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

△ 从左到右是:文征明/行,乾隆/楷,米芾/行,王羲之/草,王羲之/行,怀素/草,宋徽宗/楷瘦金体


告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

△ 从左到右是:宋克/草,苏轼/行,文天祥/草,颜真卿/楷,赵孟頫/楷,黄庭坚/行


降维打击:连笔、排版都能搞定


在书法生成界,一直存在两个极端:一派专攻单字生成,写出的单字质量极高,但完全忽略了整幅作品的留白、节奏和字间连绵;另一派试图直接生成整页画面,结果往往是结构崩塌、错字连篇。


UniCalli的出现,可谓是降维打击。


在它的笔下,李白的《将进酒》可以无缝切换成各类名家真迹。尤其是在草书生成中,模型能够根据上下文自动判断,并生成极其得体、连贯的牵丝连笔。


告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

△ 论文中的对比图


那么,底层的技术逻辑究竟是怎么跑通的?


技术方案:生成与识别的“双向奔赴”


UniCalli的核心思路在于“统一”(Unified)。研究团队提出,书法生成和识别本质上是互为镜像的任务。与其分别训练,不如在同一框架内联合优化:


识别任务约束生成器保持汉字的骨架结构,避免模型因过度拟合艺术风格而导致字形崩坏。


生成任务则为模型提供风格先验和空间布局信息。


在具体架构上,团队摒弃了传统的自回归线性生成,采用了强大的多模态扩散Transformer(MMDiT)作为底座。它在每一步去噪时都能通过双向注意力机制统览全局画布,这就如同真实的书法家在落笔前会先进行“全局谋篇”一样。


针对空间排版,团队引入了三个核心设计:


1. 非对称加噪(AsymmetricNoising)与任务切换


在这个统一框架里,怎么区分现在是画图还是认字?团队巧妙地设计了两组独立的加噪时间步。当对书法图像加噪,而保持标准文本干净时,模型就在做“生成”;反之,如果对标准文本加噪,保持书法图像干净,模型就瞬间切换成了“识别”模式。


2. 引入边界框图(BoxMap)做空间“脚手架”


排版怎么才能错落有致?团队强行给模型加入了一个编码了每个字符位置和大小的边界框图。通过在生成过程中同时预测这个布局框,逼着模型内化字符间距、大小变化的排版原则。


3. 重复旋转位置编码(DuplicateRoPE)


为了让文本、图像和布局框三种不同模态的信息能够完美对齐,团队首先计算出书法图像的2D旋转位置编码(RoPE),然后直接把它“复制”并附加到文本和布局框的特征上,通过添加可学习的调制嵌入,让所有模态在同一个绝对空间坐标系里对话。


此外,为了防止模型在长尾的稀有书法家数据上“过拟合”导致字形崩溃,团队还引入了条件随机失活(ConditionalDropout)策略。在训练时以一定概率把文本条件替换成纯噪声,硬生生地把“风格”与“字形结构”解耦开来。


告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26


为了喂饱这个架构,团队更是下足了血本,构建了一个高清古籍数字化书法作品的大规模数据集。


除了主流的楷、行、草,UniCalli的泛化能力极其惊艳。给它一段现代汉语,它甚至能直接“逆向”生成结构神似的甲骨文。不仅如此,这套框架还能跨界处理古埃及象形文字


在书法协会专家、大学书法社团的盲测评估中,UniCalli在风格还原度、字形准确性和自然度上,全面超越了ChatGPT-4o、Doubao等主流大模型及先前的SOTA生成器。


目前,UniCalli相关的代码、模型以及数据集已经全面开源


不论你是想让AI帮你写一副对联,还是想利用开源数据做进一步的古文识别和排版研究,都可以直接跑起来了。


团队简介:本论文由许添硕担任第一作者,他目前在香港科技大学(广州)攻读博士学位。通讯作者为陈颖聪(Ying‑Cong Chen),为香港科技大学(广州)人工智能学域助理教授。除此之外,中国地质大学的王凯也作为主要成员参与了本项核心研究工作。


开源数据集:
https://huggingface.co/datasets/TSXu/UniCalli_dataset
项目主页:
https://envision-research.github.io/UniCalli/
在线试玩Demo:
https://huggingface.co/spaces/TSXu/UniCalli_Dev


文章来自于“量子位”,作者 “UniCalli团队”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/