1. llama3
本文介绍如何在容器云实例上运行llama3。
1.1. 创建llama3容器实例
首先,需要您创建一台RTX3090或者RTX4090规格的容器云实例,镜像请选择PyTorch -> 2.2.0 -> llama3-git。详见下图
容器实例创建完成后您可以通过WebSSH或者任意SSH客户端工具登录到该容器实例。
2. 运行llama3
执行如下命令运行llama3
llama3_model_path=/home/pod/shared-public/models/meta-llama/Meta-Llama-3-8B-Instruct/original
torchrun --nproc_per_node 1 example_chat_completion.py \
--ckpt_dir $llama3_model_path/ \
--tokenizer_path $llama3_model_path/tokenizer.model \
--max_seq_len 512 --max_batch_size 6
💡
1、如果回复不完整可以设置更大的max_seq_len值,最大是8192
2、example_text_completion.py用来续写一个句子;example_chat_completion.py用来问答。此模型的使用方式都是修改py文件。
此项目70B需要8卡才可以进行推理。您可以创建一台8卡的容器运行测试。执行代码示例
llama3_model_path=/home/pod/shared-public/models/meta-llama/Meta-Llama-3-70B-Instruct/original
torchrun --nproc_per_node 8 example_chat_completion.py \
--ckpt_dir $llama3_model_path/ \
--tokenizer_path $llama3_model_path/tokenizer.model \
--max_seq_len 512 --max_batch_size 6