下载模型:
sh展开代码modelscope download Qwen/Qwen3-32B --local_dir ./Qwen/Qwen3-32B
部署:
bash展开代码# 拉取最新的
docker pull lmsysorg/sglang:v0.4.6.post1-cu121
# 启动服务
docker run -d --gpus '"device=0,1,2,3"' --shm-size=32g \
    -v ./Qwen/Qwen3-32B:/model \
    -p 8055:8000 \
    -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
    lmsysorg/sglang:v0.4.6.post1-cu121 python3 -m sglang.launch_server --model-path /model --host 0.0.0.0 --port 8000  --mem-fraction-static 0.9 --tensor-parallel-size 4 --context-length 40960 --served-model-name "gpt" --api-key "abc"
请求代码:
python展开代码import requests
# 封装函数,发送简单文本问题测试
def ask_simple_question(question=""):
    # 构造请求数据
    data = {
        "model": "gpt",  # 模型名称
        "messages": [
            {
                "role": "system",
                "content": "你是一个智能助手,可以回答各种问题。"
            },
            {
                "role": "user",
                "content": question
            }
        ],
        "max_tokens": 4096,
        "temperature": 0.1
    }
    # 发送 POST 请求
    response = requests.post(
        "http://101.136.19.26:8055/v1/chat/completions",
        json=data,
        headers={"Authorization": "Bearer abc"}
    )
    # 返回模型输出
    return response.json()["choices"][0]["message"]["content"]
# 使用示例
question = "1+1等于几?"
result = ask_simple_question(question)
print(result)


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!