为复杂推理而生。GCM-2-Thinking 采用了先进的“思维链”(Chain-of-Thought)技术与大规模强化学习(RL),在回答问题前会进行深度思考,显著提升了处理复杂逻辑、数学问题和代码任务的能力。
GCM-2-Thinking 的强大能力源自于我们对大语言模型训练范式的深度革新。
不同于传统的仅依赖 SFT(监督微调)的模型,GCM-2-Thinking 在后训练阶段引入了大规模强化学习。通过构建复杂的奖励模型(Reward Model),我们让模型在自我博弈中不断试错,学会了如何规划解题路径、验证假设并在发现错误时自我纠正。
我们通过高质量的推理数据对模型进行了专门的微调,使其内化了“慢思考”的模式。遇到问题时,模型不会急于给出答案,而是先将复杂问题拆解为一系列中间步骤(Intermediate Steps),这种显式的推理过程极大地提高了在数学、编码和逻辑任务上的准确率。
为了确保推理过程的可控性,我们采用了红队测试(Red Teaming)和基于规则的奖励机制(Rule-Based Rewards)。这确保了模型即使在进行深度思考时,也不会产生有害内容或试图绕过安全护栏。它的思考过程是透明且符合人类价值观的。
模型能够在推理过程中检查之前的步骤,如果发现逻辑漏洞,会主动回溯并尝试新的路径。
模型会完整输出其思考过程(包含在 <thinking> 标签中),让开发者清晰看到 AI 是如何得出结论的。
结合实时搜索能力,模型可以在思考过程中主动查找最新信息,辅助推理决策。