1. llama3

本文介绍如何在容器云实例上运行llama3。

1.1. 创建llama3容器实例

首先，需要您创建一台RTX3090或者RTX4090规格的容器云实例，镜像请选择PyTorch -> 2.2.0 -> llama3-git。详见下图

容器实例创建完成后您可以通过WebSSH或者任意SSH客户端工具登录到该容器实例。

2. 运行llama3

执行如下命令运行llama3

 
llama3_model_path=/home/pod/shared-public/models/meta-llama/Meta-Llama-3-8B-Instruct/original
torchrun --nproc_per_node 1 example_chat_completion.py \
    --ckpt_dir $llama3_model_path/ \
    --tokenizer_path $llama3_model_path/tokenizer.model \
    --max_seq_len 512 --max_batch_size 6

💡

1、如果回复不完整可以设置更大的max_seq_len值，最大是8192

2、example_text_completion.py用来续写一个句子；example_chat_completion.py用来问答。此模型的使用方式都是修改py文件。

此项目70B需要8卡才可以进行推理。您可以创建一台8卡的容器运行测试。执行代码示例

llama3_model_path=/home/pod/shared-public/models/meta-llama/Meta-Llama-3-70B-Instruct/original
torchrun --nproc_per_node 8 example_chat_completion.py \
    --ckpt_dir $llama3_model_path/ \
    --tokenizer_path $llama3_model_path/tokenizer.model \
    --max_seq_len 512 --max_batch_size 6

ollama 系统盘空间占满