У кого-то есть успехи в снеговике?
Я уверен, что есть недетерминированный алгоритм, который решает задачу оптимальным образом.
Очевидно, что можно построить q таблицу и решить эту задачу, но количество состояний достаточно велико и просчёт просто не возможен.
Я пробовал DDQN, но из-за того, что поле мало и в целом задача решается не тривиально, то это требует достаточно точной настройки гиперпараметров и длительного времени обучения, так же поле маленькое и метрики обучения очень размыты, поэтому прогресс обучения отследить очень тяжело.
Сейчас я использую генетический алгоритм, он, конечно, работает, но я думаю, что можно добиться лучшего среднего.
Пока на ум приходит только минимакс от мат ожидания кол-ва ходов. Состояний тоже много, но можно использовать альфа-бета отсечения и исскуственно ограничить глубину. Может быть этого хватит, но пока не уверен.
Что думаете по этому поводу?