近日,“机器翻译峰会MTS2023”在中国澳门圆满落幕。在会上举办的第一届古汉语机器翻译竞赛(EvaHan2023)中,华南理工大学电子与信息学院的金连文教授团队提出基于大语言模型(LLM)的方案在比赛中较大优势获得冠军
金连文教授团队
金连文教授团队所在的电子与信息学院深度学习与视觉计算实验室(DLVC Lab),致力于人工智能、计算机视觉、文档图像处理等领域前沿理论技术的研究及创新应用,主要研究方向包括人工智能、文字识别、多模态大模型、文档图像分析与智能处理、计算机视觉、自然语言处理等。
文言文是中国传统文化的载体,AI文言文翻译技术有助于人们增进对中国历史的了解,促进中华优秀传统文化的传承。此外,AI文言文翻译技术可以促进国际间交流理解,让外国读者也可以通过翻译认识中国历史文化,提高我国在国际上的文化影响力。习近平总书记近日对宣传思想文化工作作出重要指示指出,要着力赓续中华文脉、推动中华优秀传统文化创造性转化和创新性发展。AI文言文翻译技术对促进古籍传承与发展、了解中华文明、弘扬中华文化和民族精神、增强国家文化软实力,对推动中国古籍文物数据挖掘、知识发现、智能化开发与利用等领域的技术进步有重要意义。
我们的方法在一个基于LLaMA的人工智能大语言模型(LLM)的基础上,使用文言文数据来扩充词表,并创新性地使用预训练模型的词嵌入对文言文词表进行融合扩充,以充分利用预训练模型中存储的知识。其次,整合和精炼现有的文言文语料,构建了一个大规模的文言文数据集,并使用该数据集对扩充词表后的模型进行增量式无监督预训练,使模型具备了丰富的文言文先验知识。最后,针对比赛数据进行多阶段的有监督训练,最终训练了一个先进的文言文到白话文翻译大模型。
金连文教授团队学生
现在的AI自动翻译以现代文为主,在”文言文-白话文“方面的公开研究报道极少。尽管微软翻译和百度翻译等引擎也支持文白翻译,但是它们在一些较难的文言文翻译上表现仍不佳。本次比赛中,我们采用基于大语言模型改进的方法,战胜了来自北京大学、香港中文大学等队伍,以明显的技术优势取得了第一名的佳绩。同时,根据主办方报道,我们提出的方法在比赛测试集上的性能也明显优于国内的商业应用,体现了华南理工大学本次参赛团队的研究实力和领先的技术水平。
中国几千年辉煌的华夏文明,留下了海量的古籍文献资料,这些文字记录反映了当时社会在政治、军事、经济、科技、教育、文化等各个领域的状况,承载着丰富的历史信息和文化传承。但是,现在大部分人都很难流畅的阅读和理解古籍文献,利用先进的AI技术可以让普通人能读懂古籍、理解古籍,也为挖掘和利用古籍文献中蕴含的丰富知识提供了技术支撑。
基于大模型的翻译系统对计算资源的需求很高,需要很大的GPU算力才能开展较完整的研究工作,寻找充足的计算资源是我们遇到的最大困难。大模型一般有非常多的参数,在训练和推理的过程中,计算机运行的计算量是一个非常庞大的数字。在计算资源有限的情况下,如何高效地训练我们的文言文翻译模型,是一个非常大的挑战。本次竞赛我们有幸获得了合作企业给予的多台A100 GPU服务器的大力支持,才顺利完成了模型的训练和优化。
我们团队会继续在古籍理解和保护上深入研究。文言文翻译技术可以和文字识别等技术结合,形成较为完善的古籍数字化和理解方法;也可以和ChatGPT等大模型技术结合,形成可交互的古籍理解系统。如果有足够的算力支持,我们还将开展古籍对话大模型、数字人文大模型、文档图像理解大模型、多模态大模型等方向的研究工作。
古彝文示例
诚如团队所言,该项技术在古籍理解和保护上有着广阔的应用前景。9月26日,华南理工大学联合上海大学、合合信息发布了业内首个古彝文基础编码数据库,该项目针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,使古彝文在数字社会中有了“身份证号码”。
金连文教授担任了该项目的技术负责人。他表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。
在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。
文章来自微信公众号 “华南理工大学”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales