第74章 训练开始(1 / 2)

加入书签

看众人还没完全搞明白,钱峰顿时有点急了,他手都快指到屏幕里去了:“时间差分法啊,这是一个隐式的时间差分啊。”

“你们看这个评论家网络,是用每局的胜负来训练的,而它的输出却连到了行动者网络的每一个时间步上,用来训练行动者网络。”

“这就像是行动者的每一步棋,都有一个老师告诉他这一步让他的胜率是提高了还是下降了,以及具体是提高下降了多少。”

“这样的话,再也不需要通过蒙特卡洛法,下完一整局棋再收集一次很高方差的数据了,而是每一步棋,都能对围棋程序做一次迭代训练。”

“最外层的循环是每下一盘棋训练一次评论家,而内层循环是每一步棋,都根据评论家的指导,训练一次行动者。”

其他教授顿时恍然大悟,这个想法...似乎真的可行!

惊讶之余又有些感慨,江铭真的是不断创造奇迹的信息学新星。

竟然真的在众目睽睽之下,基于策略梯度算法之上又有了新的突破。

“后生可畏,后生可畏啊!”,文森特感叹:“华国金陵大学真的是捡到宝了。”

“只是今天上午听瑞秋的报告,提到了两个模型对抗训练的方式,突然产生的灵感...”,江铭不好意思地解释道。

↑返回顶部↑

书页/目录