下载模型:

```sh
modelscope download Qwen/Qwen3-32B --local_dir ./Qwen/Qwen3-32B
```


部署：
```bash
# 拉取最新的
docker pull lmsysorg/sglang:v0.4.6.post1-cu121

# 启动服务
docker run -d --gpus '"device=0,1,2,3"' --shm-size=32g \
    -v ./Qwen/Qwen3-32B:/model \
    -p 8055:8000 \
    -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
    lmsysorg/sglang:v0.4.6.post1-cu121 python3 -m sglang.launch_server --model-path /model --host 0.0.0.0 --port 8000  --mem-fraction-static 0.9 --tensor-parallel-size 4 --context-length 40960 --served-model-name "gpt" --api-key "abc"
```




请求代码：


```python
import requests

# 封装函数，发送简单文本问题测试
def ask_simple_question(question=""):
    # 构造请求数据
    data = {
        "model": "gpt",  # 模型名称
        "messages": [
            {
                "role": "system",
                "content": "你是一个智能助手，可以回答各种问题。"
            },
            {
                "role": "user",
                "content": question
            }
        ],
        "max_tokens": 4096,
        "temperature": 0.1
    }

    # 发送 POST 请求
    response = requests.post(
        "http://101.136.19.26:8055/v1/chat/completions",
        json=data,
        headers={"Authorization": "Bearer abc"}
    )

    # 返回模型输出
    return response.json()["choices"][0]["message"]["content"]

# 使用示例
question = "1+1等于几？"
result = ask_simple_question(question)
print(result)

```

sglang 部署 Qwen/Qwen3-32B

首页

分类

时间线

友链

动态

工具

联系我

AstrBot NapCat 消息机器人实战教程教学

Vanblog博客的雪花效果设置