sglang 部署 Qwen/Qwen3-32B
编辑
2025-05-30
深度学习
00

下载模型:

sh
展开代码
modelscope download Qwen/Qwen3-32B --local_dir ./Qwen/Qwen3-32B

部署:

bash
展开代码
# 拉取最新的 docker pull lmsysorg/sglang:v0.4.6.post1-cu121 # 启动服务 docker run -d --gpus '"device=0,1,2,3"' --shm-size=32g \ -v ./Qwen/Qwen3-32B:/model \ -p 8055:8000 \ -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \ lmsysorg/sglang:v0.4.6.post1-cu121 python3 -m sglang.launch_server --model-path /model --host 0.0.0.0 --port 8000 --mem-fraction-static 0.9 --tensor-parallel-size 4 --context-length 40960 --served-model-name "gpt" --api-key "abc"

请求代码:

python
展开代码
import requests # 封装函数,发送简单文本问题测试 def ask_simple_question(question=""): # 构造请求数据 data = { "model": "gpt", # 模型名称 "messages": [ { "role": "system", "content": "你是一个智能助手,可以回答各种问题。" }, { "role": "user", "content": question } ], "max_tokens": 4096, "temperature": 0.1 } # 发送 POST 请求 response = requests.post( "http://101.136.19.26:8055/v1/chat/completions", json=data, headers={"Authorization": "Bearer abc"} ) # 返回模型输出 return response.json()["choices"][0]["message"]["content"] # 使用示例 question = "1+1等于几?" result = ask_simple_question(question) print(result)
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!