AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
Llama架构比不上GPT2?神奇token提升10倍记忆?

Llama架构比不上GPT2?神奇token提升10倍记忆?

Llama架构比不上GPT2?神奇token提升10倍记忆?

近日,朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3:知识的 Scaling Laws》用海量实验(50,000 条任务,总计 4,200,000 GPU 小时)总结了 12 条定律,为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。

来自主题: AI资讯
4932 点击    2024-04-10 19:11
杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人

杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人

杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人

在社交活动中,大语言模型既可以是你的合作伙伴(partner),也可以成为你的导师(mentor)。在人类的社交活动中,为了更有效地在工作和生活中与他人沟通,需要一定的社交技能,比如解决冲突。

来自主题: AI技术研报
6621 点击    2024-04-09 16:16
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

「Real men program in C.」 众所周知,大语言模型还在快速发展,应该有很多可以优化的地方。我用纯 C 语言来写,是不是能优化一大截? 也许很多人开过这样的脑洞,现在有大佬实现了。

来自主题: AI技术研报
3008 点击    2024-04-09 16:10
破解36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」

破解36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」

破解36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」

大语言模型的「逆转诅咒」,被解开了。近日,来自Meta FAIR的研究人员推出了反向训练大法,让模型从反方向上学到了事实之间的逻辑,终于改进了这个困扰人们已久的问题。

来自主题: AI技术研报
6031 点击    2024-04-09 15:57
中科大等意外发现:大模型不看图也能正确回答视觉问题!

中科大等意外发现:大模型不看图也能正确回答视觉问题!

中科大等意外发现:大模型不看图也能正确回答视觉问题!

大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。

来自主题: AI技术研报
5516 点击    2024-04-07 13:10
OpenAI最强竞对发现“越狱攻击”漏洞,大模型无一幸免

OpenAI最强竞对发现“越狱攻击”漏洞,大模型无一幸免

OpenAI最强竞对发现“越狱攻击”漏洞,大模型无一幸免

OpenAI的竞争对手Anthropic发现了一种称为"多样本越狱攻击"的漏洞,可以绕过大型语言模型的安全防护措施。这种攻击利用了模型的长上下文窗口,通过在提示中添加大量假对话来引导模型产生有害的反应。虽然已经采取了一些缓解措施,但该漏洞仍然存在。

来自主题: AI资讯
4303 点击    2024-04-04 09:46
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果,然而,Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大,特别是在长序列的场景中。

来自主题: AI技术研报
5258 点击    2024-04-03 17:29
“太令”司法大模型,提供罪名预测及量刑建议

“太令”司法大模型,提供罪名预测及量刑建议

“太令”司法大模型,提供罪名预测及量刑建议

大连理工大学信息检索研究室在始智AI wisemodel.cn开源社区发布了司法大模型--太令(TaiLing)1.0版,“太令”是专门为司法领域定制的大语言模型,其训练基础是庞大的通用中文语料库,并结合了裁判文书、合同、司法考试材料以及司法问答等专业司法数据进行深度训练。

来自主题: AI资讯
8568 点击    2024-03-28 11:17
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法,显著提高LLMs在图形问题上超过60%的准确性。

来自主题: AI资讯
6605 点击    2024-03-27 17:52