AI资讯新闻榜单内容搜索-LLMs

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: LLMs
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。

来自主题: AI资讯
7051 点击    2024-07-18 16:57
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

本文研究发现大语言模型在持续预训练过程中出现目标领域性能先下降再上升的现象。

来自主题: AI技术研报
8622 点击    2024-07-02 11:27
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

近年来,大型语言模型(LLM)在数学应用题和数学定理证明等任务中取得了长足的进步。数学推理需要严格的、形式化的多步推理过程,因此是 LLMs 推理能力进步的关键里程碑, 但仍然面临着重要的挑战。

来自主题: AI技术研报
5856 点击    2024-05-04 20:04
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法,显著提高LLMs在图形问题上超过60%的准确性。

来自主题: AI资讯
6291 点击    2024-03-27 17:52
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。

来自主题: AI技术研报
5302 点击    2024-03-15 15:38
WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

借助强大多模态模型,开创全新的网络智能体 Hongliang He1,3∗, Wenlin Yao2, Kaixin Ma2, Wenhao Yu2, Yong Dai2, Hongming Zhang2, Zhenzhong Lan3, Dong Yu2 1 浙江大学,2 腾讯 AI 实验室,3 西湖大学

来自主题: AI技术研报
9166 点击    2024-01-28 12:29
大模型×文本水印:清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述

大模型×文本水印:清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述

大模型×文本水印:清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述

本文介绍首个大模型时代下的文本水印综述,由清华、港中文、港科广、UIC、北邮联合发布,全面阐述了大模型时代下文本水印技术的算法类别与设计、评估角度与指标、实际应用场景,同时深入探讨了相关研究当前面临的挑战以及未来发展的方向,探索文本水印领域的前沿趋势。

来自主题: AI技术研报
4064 点击    2024-01-26 13:50
LangChain - RAG: 做 RAG 的天选打工人,拿这几个指标找老板加薪!

LangChain - RAG: 做 RAG 的天选打工人,拿这几个指标找老板加薪!

LangChain - RAG: 做 RAG 的天选打工人,拿这几个指标找老板加薪!

做所有的工作之前,想好如何评估结果、制定好北极星指标至关重要!!! Ragas把 RAG 系统的评估指标拆分为三个维度如下,这可不是 Benz 的标...

来自主题: AI技术研报
7564 点击    2024-01-08 10:37
专补大模型短板的RAG有哪些新进展?这篇综述讲明白了

专补大模型短板的RAG有哪些新进展?这篇综述讲明白了

专补大模型短板的RAG有哪些新进展?这篇综述讲明白了

同济大学王昊奋研究员团队联合复旦大学熊赟教授团队发布检索增强生成(RAG)综述,从核心范式,关键技术到未来发展趋势对 RAG 进行了全面梳理。这份工作为研究人员绘制了一幅清晰的 RAG 技术发展蓝图,指出了未来的研究探索方向。

来自主题: AI资讯
5654 点击    2024-01-06 16:54