医疗幻觉率比DeepSeek低3倍,百川循证增强大模型横扫全球医学考试!
医疗幻觉率比DeepSeek低3倍,百川循证增强大模型横扫全球医学考试!时隔两月,Baichuan-M2 Plus重磅出世!成为业内首个循证增强的医疗大模型,幻觉要比DeepSeek-R1低3倍,可信度比肩资深临床专家。新模型将「循证医学」理念深度融入训练和推理,通过首创「六源循证范式」,模拟人类医生思维,有效辨别不同层级医学证据、评估其可靠性,并在回答中优先引用高等级证据。
时隔两月,Baichuan-M2 Plus重磅出世!成为业内首个循证增强的医疗大模型,幻觉要比DeepSeek-R1低3倍,可信度比肩资深临床专家。新模型将「循证医学」理念深度融入训练和推理,通过首创「六源循证范式」,模拟人类医生思维,有效辨别不同层级医学证据、评估其可靠性,并在回答中优先引用高等级证据。
刚刚,全球最强开源医疗模型发布,来自中国。百川开源最新医疗推理大模型Baichuan-M2-32B,在OpenAI发布的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。
大模型的竞速赛,正站在通用底座的基础上,掀起“领域增强”风暴。
5月22号,百川智能正式发布了Baichuan 4大模型,并推出成立之后的首款AI搜索助手“百小应”。
目标大模型「超级应用」。
懂搜索,但又不止搜索
王小川在搜索时期种下的种子,在大模型时代又开花了。
时隔4个月,百川智能的基座大模型又双叒升级了!新一代Baichuan 4出世直接登顶国内第一。不仅如此,首款最懂搜索、会提问的AI助手「百小应」正式杀入移动APP战场。
5 月 22 日,百川智能发布新一代的基座大模型 Baichuan 4,并推出成立之后的首款 AI 应用——百小应。
参照SuperCLUE(中文通用大模型综合性测评基准)框架专门定制了1000道题目集,一一测试了ChatGPT4、 智谱chatGLM-4、Baichuan2-Turbo、百度ERNIE-Bot 4.0、Yi-34B-chat、llama 2等模型在保险业务上的表现。