训练算法使用的是GRPO(组相对策略优化),这是近年来在大模型强化学习领域比较主流的一种方法。对于每道题,系统会让AI生成多个不同的回答轨迹,通过这些轨迹之间的相对得分来估算每个轨迹的优势,再据此更新AI的参数。为了防止AI的行为偏离太远,训练中还加 ...
本项目基于GPL-3.0,完全开源,免费,仅供技术学习和交流,开发者团队并未授权任何组织、机构以及个人将其用于商业或者盈利性质的活动。也从未使用本项目进行任何盈利性活动。未来也不会将其用于开展营利性业务。个人或者组织,机构如果使用本项目产生 ...