Ichigo[1] 是一个开放的、持续进行的研究项目,目标是将基于文本的大型语言模型(LLM)扩展,使其具备原生的“听力”能力。
可以将其视为一个开放数据、开放权重、设备上的 Siri。该项目采用了早期融合技术,灵感来源于Meta的Chameleon论文。
Ichigo 适用于需要实时语音识别和处理的场景,如智能助手、语音控制应用等。
可以通过以下链接尝试Ichigo的最新模型:在Colab中打开[2]
有关合成数据生成的详细信息,请参考合成数据生成指南[3]。
1.从GitHub克隆仓库:
git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git
2.文件夹结构如下:
Ichigo
├── HF_Trainer # HF训练代码(已弃用)
├── synthetic_data # 合成数据生成管道
├── configs # 音频管道配置
├── audio_to_audio # Parler音频(.wav)到语义标记
├── synthetic_generation_config # TTS语义标记
├── scripts # Runpod的设置脚本
├── torchtune # 子模块:我们的fsdp分支,带有检查点
├── model_zoo # 模型检查点
├── LLM
├── Meta-Llama-3-8B-Instruct
├── Meta-Llama-3-70B-Instruct
├── demo # 自托管此演示(vllm)
├── inference # Google Colab
1.安装依赖:
python -m venv hf_trainer
chmod +x scripts/install.sh
./scripts/install.sh
重启shell:
chmod +x scripts/setup.sh
./scripts/setup.sh
source myenv/bin/activate
2.登录Huggingface:
huggingface-cli login --token=<token>
3.训练:
export CUTLASS_PATH="cutlass"
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
accelerate launch --config_file ./accelerate_config.yaml train.py
1.安装包:
python -m venv torchtune
pip install torch torchvision tensorboard
cd ./torchtune
pip install -e .
也可以使用tune下载模型:
tune download homebrewltd/llama3.1-s-whispervq-init --hf-token <token> --output-dir ../model_zoo/llama3.1-s-whispervq-init --ignore-patterns "original/consolidated*"
设置HF路径的数据集,更改路径和YAML文件中的模型名称:
nano torchtune/recipes/configs/jan-llama3-s/8B_full.yaml
2.多GPU训练(支持1-8GPU):
tune run --nproc_per_node 4 full_finetune_fsdp2 --config recipes/configs/jan-llama3-1-s/8B_full.yaml
为用户提供了创建Web UI演示的代码。可按照以下步骤操作:
python -m venv demo
source demo/bin/activate
# 首先安装所有必需的包
pip install --no-cache-dir -r ./demo/requirements.txt
然后运行以下命令启动本地Gradio演示。可以添加use-4bit
和use-8bit
变量用于量化使用:
python -m demo.app --host 0.0.0.0 --port 7860 --max-seq-len 1024
你也可以使用vLLM托管演示以获得更快的推理速度,但它不支持流式输出:
python -m demo.app_vllm
或者,你可以在HuggingFace[6]上轻松尝试Ichigo的演示。
文章来自于“AIGC创想者”,作者“鱼满满探索记”。
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales