Улучшение математических рассуждений с контролем процессаМы обучили модель для достижения нового уровня техники в решении математических задач, вознаграждая каждый правильный шаг рассуждений («наблюдение за процессом») вместо простого вознаграждения за правильный окончательный ответ («наблюдение за результатом»). В дополнение к повышению производительности по сравнению с надзором за результатами, надзор за процессами также имеет важное преимущество согласования: он напрямую обучает модель создавать цепочку мыслей, которую одобряют люди…Читать дальше