ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作
7762点击    2023-10-10 16:04

解放双手,动嘴码字时代真的来了。


当你想写一份「原神」的宣传文稿时,根本完全不用上网翻找收集各种材料,只需要给模型一个指令「帮我以原神为题写一篇文章」。


游戏背景现、上市时间、影响力等要点已经成文。接下来,你还可以让LLM自动插入趣味、生动的配图。



一眨眼的功夫,专属定制的神作就完成了。


那么,究竟是什么模型有如此神力?


它就是,书生·浦语灵笔(InternLM-XComposer,以下简称「浦语灵笔」)。这是上海人工智能实验室(上海AI实验室)推出的首个图文混合创作大模型。



依托强大的多模态性能,可以解锁「一键生成」图文混合文章的创作能力,为大模型落地应用提供更多可能。


目前,浦语灵笔已开源其中的智能创作和对话(InternLM-XComposer-7B)及多任务预训练(InternLM-XComposer-VL-7B)版本,并提供免费商用。



开源链接:https://github.com/InternLM/InternLM-XComposer

技术报告:https://arxiv.org/abs/2309.15112


今年7月以来,上海AI实验室陆续开源了书生·浦语大语言模型的7B(InterLM-7B)及20B(InternLM-20B)版本,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。

基于书生·浦语大语言模型(InternLM),浦语灵笔接受视觉和语言模态输入,不仅在图文对话方面表现优秀,更具备图文并茂文章的「一键生成」能力。


准确图文理解,一键图文并茂


浦语灵笔能够进行流利的中英文图文对话,准确理解图像内容。得益于书生·浦语高质量多语言预训练的优势,浦语灵笔表现出对中国文化深厚的知识积淀。


例如,向浦语灵笔输入相关画作,其迅速识别并反馈画作表现主题为《赤壁之战》典故,亦能准确介绍影响成败的关键因素,体现出在图像内容理解和知识储备方面的优秀性能。


浦语灵笔识别中国文化典故


在多模态图文对话的「基本功」之上,浦语灵笔更是解锁了图文并茂文章创作的全新能力。


大语言模型(LLM)具备文本写作的能力,然而高质量文章往往需要准确且有趣的插图才「更显生动」。


浦语灵笔团队将书生·浦语强大的语言能力向多模态拓展,使其能够完成多模态文章创作。用户仅需提供主题,便可一键生成图文并茂的文章,体验全新的视觉与文本创作范式。


例如,向浦语灵笔提出创作一篇旅游攻略,该模型可迅速生成涵盖历史沿革、主要景点文物介绍的长篇文章,并在适当位置自动插入与文字信息对应的图片。


除自动配图能力外,浦语灵笔还提供了配图推荐和更换功能,根据用户实际需求定制图文内容。


浦语灵笔生成中文旅游攻略


目前,浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成,并将逐渐开放更多能力,适应更多样化任务需求。


浦语灵笔生成英文电影评论


图文文章创作「三步走」


浦语灵笔为图文文章创作设计了「三步走」的算法流程。


图片浦语灵笔图文文章创作流程


理解用户指令,创作符合主题要求的长文章:浦语灵笔具有强大的写作能力,根据用户输入的主题,创作出文采斐然的文章。


智能分析文章,模型自动规划插图的理想位置,并生成所需图像的内容要求:浦语灵笔自动分析文章内容和段落布局,规划需要插图图片的位置。对于每个模型判断需要插图的位置,同时生成对图片内容需求的描述。


多层次智能筛选,利用多模态大模型的图像理解能力,从图库中锁定最完美的图片:采用从粗筛到精选的配图策略,根据生成图像内容需求,浦语灵笔会首先采用图文检索(Text-Image Retrieval)方式从海量图库中选择出一组候选图片。随后,利用多模态大模型强大的图像理解能力,将候选图片作为输入内容,让模型自动选择最符合文章上下文内容和整体图像风格的图片,完成文章的自动配图。


能力评测:综合领先开源多模态大模型


浦语灵笔出色的图文创作效果,得益于其多任务预训练模型(InternLM-XComposer-VL-7B)强大的多模态理解能力。


研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B的能力进行了详细测试,包含:


- MME Benchmark:包括14个子任务的多模态模型全面评测,关注模型的感知(Perception)和认知(Recognition)能力;

- MMBench:包括20个能力纬度和使用ChatGPT循环评估策略的多模态评测;

- MMBench-CN:简体中文版本问题和答案的MMBench评测;

- Seed-Bench:提供包括人工标注的1.9万道多模态多选题目的多模态评测;

- CCBench:针对中国文化理解的中文多模态评测。


评测结果显示,在上述5项中英文多模态评测中,浦语灵笔均体现出卓越性能。


浦语灵笔与其他开源模型的性能对比


MME Benchmark关注模型的感知(Perception)和认知(Recognition)能力,浦语灵笔综合性能领先。



MMBench包括了20个能力项,浦语灵笔取得了最佳成绩。



MMBench-CN是中文版本的MMBench评测,关注模型的中文多模态理解能力,浦语灵笔亦取得了最佳成绩,体现了强大的中文能力。



SEED-Bench 提供包括人工标注的1.9万道多模态多选题目,覆盖12个评测维度,浦语灵笔在图像内容理解上准确率表现出色。



在针对中国文化理解设计的多模态评测CCBench,浦语灵笔评测成绩均大幅度领先,生动体现其在中国文化方面深厚的知识积淀。



浦语灵笔现已开源,同时上线GitHub、Hugging Face及魔搭社区(ModelScope),欢迎开发者下载试用。



文章转载自微信公众号“新智元”




关键词: AI , 书生·浦语灵笔 , LLM