https://arxiv.org/pdf/2411.11984
arXiv:2411.11984 | ByteDance Seed & UC Santa Cruz
现有CoT评估方法的两大缺陷:
将CoT推理形式化为信息论问题,定义每个推理步骤 的信息增益:
其中:
物理意义:量化步骤 对减少答案不确定性的贡献
首先列出所有名为 uiagent_all_datasets.tar.part*
的分卷压缩文件,然后按照版本号顺序(数字顺序)排序,接着将这些分卷文件按顺序合并成一个完整的 tar 文件流,最后将合并后的内容解压到指定目录 /mnt/jfs5/tarjieya
中。这是处理被分割成多个部分的大型 tar 压缩包的常见方法,通过管道操作实现"列出→排序→合并→解压"的一条龙处理。
具体流程是:
xargs cat
按顺序读取分卷文件,以流的形式输出数据|
将数据流实时传递给 tar xf -
tar xf -
中的 -
表示从标准输入(stdin)读取,它会边读边解压,解压完一部分就写入磁盘bash展开代码ls uiagent_all_datasets.tar.part* | sort -V | xargs cat | tar xf - -C /mnt/jfs5/tarjieya
https://arxiv.org/pdf/2509.21193
这个系统就是让AI像人类专家一样自然地思考,而不是像机器人那样机械地操作。
就像你考试时突然想起老师讲过的知识点,不需要真的翻书。
Emergent Abilities of Large Language Models
https://arxiv.org/abs/2206.07682
2022年,来自Google Research、Stanford University等机构的研究团队发布了《Emergent Abilities of Large Language Models》,这篇论文探讨了大语言模型中一个令人着迷的现象——涌现能力。与之前关注的平滑缩放定律不同,这篇论文揭示了模型能力的不可预测的跃迁。
https://arxiv.org/pdf/2001.08361
2020年,OpenAI发布了《Scaling Laws for Neural Language Models》,这篇论文通过大规模实验研究了语言模型性能与模型规模、数据大小、计算量之间的关系,为大语言模型的发展奠定了科学基础。
论文最重要的发现是模型性能与三个关键因素呈现精确的幂律关系:
展开代码损失 ∝ (参数量)^(-0.076)
展开代码损失 ∝ (数据量)^(-0.095)
展开代码损失 ∝ (计算量)^(-0.05)
https://arxiv.org/pdf/2509.13232
当前大语言模型的策略梯度优化主要采用基于组的方法(group-based methods),如GRPO(Group-based Reinforcement Policy Optimization)。这些方法虽然通过即时基线(on-the-fly baselines)来减少方差,但存在以下关键缺陷:
取决于问题复杂度。
要做通用模型,sft的问答对很丰富很复杂,那么蒸馏是有意义的。
如果是专用模型,蒸馏代价太大作用还不大,不如直接用专用sft数据去直接sft小模型。
COT是"Chain of Thought"(思维链)的缩写,指的是让AI模型逐步展示推理过程,而不是直接给出答案。
你提出的核心问题确实很有意思:如果模型无法准确判断自己是否真正"知道"某件事,那COT为什么还能提升效果?
我觉得可能的解释是:
关于"知道"的判断: 模型确实很难区分"真知道"和"看起来知道"。它可能基于训练数据中的模式匹配给出看似合理但实际错误的答案,而且对此很有信心。这是个根本性的认知限制。
COT的作用机制: 但COT之所以有效,可能不是因为它帮助模型"自我纠偏",而是因为:
激活更多相关信息:逐步推理过程中,模型会调用更多相关的训练记忆和模式,增加答对的概率
结构化思考:强制模型按步骤展开,减少了"跳跃式"错误,就像人类列提纲一样
多次"采样"机会:每个推理步骤都是一次重新"采样",增加了碰到正确路径的可能性
暴露推理过程:虽然模型本身可能意识不到错误,但推理步骤暴露给了人类,让人类可以发现问题
所以COT可能不是真正的"自我纠偏",而是一种提高答案质量的工程技巧。
https://arxiv.org/pdf/2305.15717
近年来,随着ChatGPT等商业大语言模型的崛起,开源社区兴起了一股"模型模仿"浪潮。许多研究者试图通过让开源模型学习商业模型的输出来快速提升性能,诞生了Alpaca、Vicuna等知名项目。然而,加州大学伯克利分校的最新研究表明,这种看似经济高效的方法可能是一个"虚假承诺"。
模型模仿是指使用商业模型(如ChatGPT)的API输出作为训练数据,对开源模型进行微调,以期达到与商业模型相似的性能。这种方法的吸引力在于:
研究团队将模型模仿分为两类: