tools工作流:
当 DeepSeek-R1 横空出世,以开源姿态挑战 OpenAI 的 o1 模型时,整个 AI 社区都在关注一个问题:他们是如何做到的?答案的关键之一就是 GRPO (Group Relative Policy Optimization) —— 一种更高效的强化学习算法。
本文将带你从零开始理解 GRPO,看看它如何在保持性能的同时,将训练成本降低了近 50%。
当我们与 ChatGPT、Claude 等大语言模型对话时,可能会注意到它们的回答既流畅又富有变化。这背后的关键机制就是采样策略。本文将深入浅出地介绍大模型如何生成文本,以及 Temperature、Top-p、Top-k 这三个关键参数如何影响输出结果。
大语言模型的文本生成是一个逐个 token 生成的过程(token 可以简单理解为词或字)。就像我们写作时一个字一个字地思考和书写,模型也是根据前面已经生成的内容,预测下一个最合适的 token。
本教程将教你如何在 Windows PowerShell 中配置自动激活 Python 虚拟环境。每次打开 PowerShell 时,指定的 Python 环境会自动激活,无需手动执行激活命令。
本教程适用于:
uv 创建的 Python 环境venv 创建的 Python 环境virtualenv 创建的 Python 环境conda 创建的 Python 环境