根据搜索结果,启动 GGUF 文件为 OpenAI 式接口主要有以下几种方法:
这是最常用的方法,llama-cpp-python 提供了一个网络服务器,可以作为 OpenAI API 的直接替代品。
安装和启动:
bash展开代码# 安装服务器版本
pip install 'llama-cpp-python[server]' # 无gpu支持
# 或者安装GPU支持的
# NVIDIA GPU (CUDA)
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python[server]
# 启动服务器
python3 -m llama_cpp.server \
  --model /mnt/jfs6/model/Satyr-V0.1-4B/Satyr-V0.1-4B-F16.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  --n_ctx 10240 \
  --n_gpu_layers -1 # 全部层都放gpu
请求:
py展开代码import requests
import json
# API 配置
base_url = "http://localhost:8000"
endpoint = f"{base_url}/v1/chat/completions"
# 构建请求
headers = {
    "Content-Type": "application/json"
}
data = {
    "model": "gpt-3.5-turbo",  # 模型名称可以随意填写,本地服务器通常会忽略
    "messages": [
        {
            "role": "user",
            "content": "写一篇诗歌"  # 使用适当的提示词
        }
    ],
    "temperature": 0.7,
    "max_tokens": 5000
}
# 发送请求
response = requests.post(endpoint, headers=headers, json=data)
# 处理响应
if response.status_code == 200:
    result = response.json()
    print("模型回复:")
    print(result['choices'][0]['message']['content'])
else:
    print(f"请求失败: {response.status_code}")
    print(response.text)


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!