強化学習ファインチューニング

強化学習ファインチューニング

 ファインチューニングとは、すでに学習済みの大規模言語モデル(GPTなど)を、特定の分野やタスクに合わせて再訓練する手法である。たとえば、百科事典レベルの知識を有する超優秀な人に対し、医療専門の教育をし、その領域でより適切な答えを引き出そうとするようなものだ。ただし、一般的なファインチューニングでは「推論結果」の改善にとどまり、思考プロセスそのものには踏み込まない。

 一方で、先日OpenAIが発表した『強化学習ファインチューニング(RFT)』は、モデルが「何を答えるか」ではなく「いかに答えに至るか」、すなわち推論プロセスそのものを学習対象とする。実際、OpenAIのo1モデルは数学オリンピック問題を解く高度な数理的推論をこなし、これが他分野にも応用されれば、AIは専門性をもって人間の仕事へ直接介入し始めるだろう。(数学的推論はo1にとってある種アプリオリである)RFTによってAIは人間同様(あるいは以上)の学習能力を獲得することができるかもしれない。