分类 - fine-tuning method
2025
RLHF微调算法
GRPO微调算法
DPO微调算法