自动化投稿草案：一次失败参数搜索留下来的启发 / 馆藏版

背景

这个草案用于验证自动化投稿链路是否正常，不用于批量投放，也不用于伪造学术经历。我们记录的是一次很普通、但非常耗时的参数搜索失败。

最初的问题很简单：我们希望把一个已有的训练流程迁移到新的采样策略上，并通过更细粒度的超参数搜索得到更稳定的结果。直觉上，缩小学习率、增加 warmup、再叠加更密集的采样网格，应该至少能得到一个比基线更平滑的收敛曲线。

我们先固定模型结构与数据清洗规则，只调整采样温度、batch 大小和学习率。第一轮实验里，loss 的下降趋势看起来很漂亮，但验证集指标没有同步改善。团队一开始把这理解为评估滞后，于是继续扩大搜索范围，甚至把更多时间花在补齐中间实验上。

第二轮开始后，问题逐渐暴露：不同参数组合会产生外表相似的训练曲线，却在验证阶段出现完全不同的泛化表现。更糟的是，这种差异并不稳定，同一组参数在不同随机种子下会表现出相反结论。我们后来复盘才意识到，采样策略改变后，原本依赖的早停经验已经不再可靠，继续加密搜索只是在放大噪声。

真正有价值的转折并不是找到某个神奇参数，而是承认现阶段的观测信号不够稳，先回到实验设计本身。相比继续增加实验数量，更有效的是重新定义成功标准：先确认评估指标能稳定反映目标，再决定要不要扩展参数搜索。

如果这段经历能帮到别人，我希望读者带走的不是某一个具体数值，而是一条更朴素的判断原则：当不同参数组合只是在重复制造模糊信号时，暂停搜索、重审验证方式，往往比继续堆实验更省时间。