ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
覆盖 7 百万问答数据,上海 AI Lab 发布 ChemLLM,专业能力比肩 GPT-4
6638点击    2024-09-04 17:42

内含一键部署教程



化学大语言模型 ChemLLM 是首个兼备化学专业能力和对话、推理等通用能力的开源大模型。目前 HyperAI超神经官网 (hyper.ai) 已上线「一键部署化学大模型 ChemLLM-7B-chat」,详细教程详见下文。


随着人工智能技术的飞速发展,大语言模型 (LLMs) 凭借其强大的自然语言处理能力,在生命科学、海洋学、材料化学等科学研究中被广泛应用。虽然,LLMs 在分子特性预测、分子生成和实验方案设计等化学相关任务上表现良好,但在处理各种化学下游任务时表现欠佳。


究其原因,直接将化学知识集成到语言模型中,主要面临三大挑战:首先,大多数化学信息和知识存储在结构化数据库中,直接使用这些数据训练 LLMs 可能会损害模型处理自然语言的能力,使得模型的对话和逻辑推理能力发生退化;其次,在化学信息学中,分子用特殊符号表示,如 SMILES。然而这类数据往往不符合自然语言的规范,因此常规的语言模型难以正确理解和生成这种符号;最后,化学数据和任务种类繁多,设计一个灵活并能泛化到多种化学任务上的训练流程十分困难。


针对于此,上海人工智能实验室发布了化学大语言模型 ChemLLM。ChemLLM 擅长通过流畅的对话交互执行化学学科的各种任务,在核心任务上的性能与 GPT-4 相当,并在一般场景中表现出了与类似规模的 LLM 相媲美的性能。ChemLLM 为化学研究的探索开辟了新的道路,并且研究团队将结构化化学知识融入对话系统的方法,为开发各科学领域的 LLM 树立了新的标准。


相关研究以「ChemLLM: A Chemical Large Language Model」为题,已发表于 arXiv,成果已开源,并提供免费商用。目前 HyperAI超神经官网 (hyper.ai) 已上线「一键部署化学大模型 ChemLLM-7B-chat」,分步教程详见文末~


研究亮点:


* 创建并开源大规模化学数据集 ChemData 以及 ChemPref-10K 的中英文版本数据集、C- MHChem 数据集、 ChemBench4K 化学能力评测基准数据集


* 创建并开源包含 4,100 道选择题、9 项特定任务的大规模化学基准测试 ChemBench


* 通过定量、定性的评估测试,ChemLLM 表现出良好的化学专业性和多功能性



论文地址:


https://arxiv.org/abs/2402.06852


化学大模型 ChemLLM-7B-chat 教程已在 hyper.ai 上线,点击链接一键部署:


https://go.hyper.ai/r31KV


ChemData 化学任务数据集下载地址:


https://go.hyper.ai/zMJEl


开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:https://github.com/hyperai/awesome-ai4s


ChemData 数据集: 涵盖 700 万条问答数据的大规模化学数据集


研究人员从众多在线资源库中收集了包括 PubChem、ChEMBL、ChEBI、ZINC 等在内的化学数据,并在此基础上创建了一个用于微调 ChemLLM 的大规模数据集 ChemData。


ChemData 数据集利用基于模板的指令构建方法,将结构化的化学数据转换为适合训练 LLM 的自然对话形式。该数据集包含 700 万条用于指令微调的问答数据,涵盖了广泛的化学领域知识,并且该问答数据类别与分子、反应和其他与化学相关的任务类别一致。


其中,与分子相关的任务包括名称转换 (Name Conversion)、Caption2Mol、Mol2Caption 和分子性质预测 (Molecular Property Prediction),主要目的是调整语言模型对化学分子的感知。


与反应相关的任务涉及化学反应的各个方面,包括逆合成 (Retrosynthesis)、产物预测 (Product Prediction)、产量预测 (Yield Prediction)、温度预测 (Temperature Prediction) 和溶剂预测 (Solvent Prediction)。除可明确分类的数据外,所有其他数据都归入特定类型的任务,从而增强 ChemLLM 对整个化学空间的理解。下图展示了这三类任务所包含数据分别占的比重。



ChemData 数据集构成占比


ChemLLM 模型架构:以 InternLM2-Base-7B 为基底,进行两个阶段的指令微调


化学大语言模型 ChemLLM 是在 InternLM2-Base-7B 模型训练基础上,通过两个阶段的指令微调方法训练得到的,不仅实现了多种化学能力,还保留了完整的自然语言能力。


如下图所示,在第一阶段,研究团队使用 Multi-Corpus(一个从 Hugging Face 收集的包含 170 万个问答对的综合语料库),提升了模型的通用语言能力,并将第一阶段获得的模型命名为 InternLM2-Chat-7B 。



ChemLLM 两个阶段的指令微调流程示意图


在第二阶段,研究团队使用 ChemData 和 Multi-Corpus 的混合数据集对模型进行微调,其中 ChemData 用于增强模型的化学知识,而 Multi-Corpus 用于保留模型的通用能力。经过两个阶段的指令微调训练,提高了 ChemLLM 在化学领域的通用性。


ChemBench 基准测试:减少语言模型输出风格对评估结果的影响


现有的化学大模型基准测试多以问答形式呈现,并使用 BLEU 和 ROUGE 作为评估标准。然而,这类评估容易受到语言模型输出风格的影响,不适合强调科学事实正确性的场景。


基于此,研究团队构建了与当前主流评估集 MMLU、C-Eval 相类似的化学基准测试 ChemBench。ChemBench 包括 9 项关于化学分子和反应的任务,并且与 ChemData 数据集中的任务相同。除此之外,ChemBench 还包含 4,100 道选择题,每道题对应一个正确答案,旨在最大程度地减少语言模型输出风格对评估结果的影响。


值得一提的是,该基准测试已经在 OpenCompass 开源项目上线。下图展示了 ChemBench 基准测试 9 项任务的分布情况。



ChemBench 基准测试 9 项任务分布情况


研究结果:ChemLLM 模型化学专业能力与 GPT-4 相当,明显优于类似规模的一般 LLMs


研究团队从定量与定性两个维度,对化学大语言模型 ChemLLM 的性能进行评估。定量评估包括化学能力和通用能力评估,定性评估主要通过与化学相关 NLP(自然语言处理)任务中的表现进行评估。


在化学能力评估中,ChemBench 作为评估核心化学能力的基准,通过 9 项不同任务测试该模型的专业性。如下图所示,ChemLLM 明显优于类似规模的一般大语言模型 (LLMs),全面超越了 GPT-3.5。与 InternLM2-Chat-7B 相比,ChemLLM 在化学方面的能力有了显著提高,说明第二阶段的化学能力训练具有显著效果。与 GPT-4 相比,ChemLLM 在 9 项任务中有 6 项得分比 GPT-4 高。



ChemLLM 化学性能评估得分


在通用能力评估中,研究团队使用 MMLU、C-Eval、GSM8K、C-MHChem 4 个数据集对 ChemLLM 进行评估。其中,MMLU 是一个涵盖 STEM(科学、技术、工程和数学)、人文和社会科学等跨学科科目的基准测试,对跨学科知识进行广泛评估;C-Eval 是一个全面的中文基准测试,涵盖多个学科并分为 4 个难度等级;GSM8K 是一个用于测试语言模型数学能力的基准测试,要求通过 2-8 步的基本数学运算来解决问题;C-MHChem 是一个用于评估模型基本化学概念的数据集,主要涉及初高中化学测试。


如下图所示,在英文的 MMLU 和中文的 C-Eval 基准测试中,ChemLLM 的准确率分别为 65.6 和 64.1,说明它在更广泛的学科和多语言场景中表现出色。


在 GSM8K 数据集测试中,ChemLLM 的准确率达到 67.2,结果表明在化学数据上进行微调,在一定程度上增强了模型的推理能力。


在 C-MHChem 数据集测试中,ChemLLM 准确率为 76.4,超过了 GPT-4,展示了 ChemLLM 在中国初高中考试中的能力。



ChemLLM 通用性能评估得分


在定性评估中,研究团队通过化学诗歌创作、文本提取、化学文献翻译、伦理回答等与化学相关的 NLP(自然语言处理) 任务对 ChemLLM 进行评估。结果显示,ChemLLM 在各种 NLP 任务中都能够对化学知识进行更深入地理解和创造性运用。下图列举了 ChemLLM 在部分 NLP 任务上的表现:



ChemLLM 化学诗歌创作



ChemLLM 化学信息提取


以上研究结果显示,ChemLLM 能够通过实时对话处理各种化学任务,其化学能力与 GPT-4 相当,并在其他领域表现出色。


目前,ChemLLM 已经完成新一轮升级,ChemLLM-1.5 接入 RAG 功能,不仅支持对化学文献进行深度挖掘和理解以及联网搜索,而且支持与 ChemLLM 直接对话探讨文章内容。ChemLLM 的发展为科学领域的 LLMs 树立了先例,进一步加速了 AI 时代化学研究的进程。


HyperAI超神经官网 (hyper.ai) 已经上线了「一键部署化学大模型 ChemLLM-7B-chat」,以下是分步教程与效果展示,快跟着小编一起探索吧~


一键部署化学大模型 ChemLLM-7B-chat


Demo 运行

登录 hyper.ai,在「教程」页面,选择「一键部署浦科化学大模型 ChemLLM-7B-chat Demo」,点击「在线运行此教程」。




2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。



3. 点击右下角「下一步:选择算力」。



4. 页面跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!


HyperAI超神经专属邀请链接(直接复制到浏览器打开):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej



5. 点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至「一键部署浦科化学大模型 ChemLLM-7B-chat Demo」的页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。


若超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;若重启仍无法解决,请在官网联系平台客服。





效果预览


以药物研发中的伦理困境问题进行测试


文章来源于“超神经HyperAl”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner