AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 微调

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

在上一篇文章「Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存」中，我们介绍了Unsloth，这是一个大模型训练加速和显存高效的训练框架，我们已将其整合到Firefly训练框架中，并且对Llama3-8B的训练进行了测试，Unsloth可大幅提升训练速度和减少显存占用。

来自主题: AI技术研报

2469 点击 2024-05-08 12:21

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

大模型又又又被曝出安全问题！

来自主题: AI技术研报

9024 点击 2024-05-07 22:26

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

堂堂开源之王Llama 3，原版上下文窗口居然只有……8k，让到嘴边的一句“真香”又咽回去了。

来自主题: AI资讯

8892 点击 2024-05-06 20:51

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

我们知道，Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。

来自主题: AI技术研报

8965 点击 2024-05-06 17:49

「专业智能体指导」让小模型学会数学推理！微调Mistral-7B实现86.81%准确率

「专业智能体指导」让小模型学会数学推理！微调Mistral-7B实现86.81%准确率

对于小型语言模型（SLM）来说，数学应用题求解是一项很复杂的任务。

来自主题: AI技术研报

6982 点击 2024-04-29 20:35

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值（catastrophic values）等问题，目前模型的上下文窗口大多不超过128k个token

来自主题: AI技术研报

6988 点击 2024-04-29 20:31

4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源

4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源

蛋白质结构相比于序列往往被认为更加具有信息量，因为其直接决定了蛋白质的功能

来自主题: AI技术研报

2226 点击 2024-04-21 22:57

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

随着大模型的参数量日益增长，微调整个模型的开销逐渐变得难以接受。为此，北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法，在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。

来自主题: AI技术研报

9262 点击 2024-04-13 16:50

没想到吧，中文互联网上最好的大模型语料库是：弱智吧

没想到吧，中文互联网上最好的大模型语料库是：弱智吧

如果让你在互联网上给大模型选一本中文教材，你会去哪里取材？是知乎，是豆瓣，还是微博？一个研究团队为了构建高质量的中文指令微调数据集，对这些社交媒体进行了测试，想找到训练大模型最好的中文预料，结果答案保证让你大跌眼镜——

来自主题: AI资讯

5567 点击 2024-04-04 15:47

弱智吧：大模型变聪明，有我一份贡献

弱智吧：大模型变聪明，有我一份贡献

「被门夹过的核桃，还能补脑吗？」

来自主题: AI技术研报

5756 点击 2024-04-04 15:36

上一页当前第4页,共7页下一页