第74章训练开始（1 / 2）

看众人还没完全搞明白，钱峰顿时有点急了，他手都快指到屏幕里去了：“时间差分法啊，这是一个隐式的时间差分啊。”

“你们看这个评论家网络，是用每局的胜负来训练的，而它的输出却连到了行动者网络的每一个时间步上，用来训练行动者网络。”

“这就像是行动者的每一步棋，都有一个老师告诉他这一步让他的胜率是提高了还是下降了，以及具体是提高下降了多少。”

“这样的话，再也不需要通过蒙特卡洛法，下完一整局棋再收集一次很高方差的数据了，而是每一步棋，都能对围棋程序做一次迭代训练。”

“最外层的循环是每下一盘棋训练一次评论家，而内层循环是每一步棋，都根据评论家的指导，训练一次行动者。”

其他教授顿时恍然大悟，这个想法...似乎真的可行！

惊讶之余又有些感慨，江铭真的是不断创造奇迹的信息学新星。

竟然真的在众目睽睽之下，基于策略梯度算法之上又有了新的突破。

“后生可畏，后生可畏啊！”，文森特感叹：“华国金陵大学真的是捡到宝了。”

“只是今天上午听瑞秋的报告，提到了两个模型对抗训练的方式，突然产生的灵感...”，江铭不好意思地解释道。

其他类型相关阅读：佳人不惑娘娘她真的不想宫斗短篇集人道长生美强惨O被各路大佬这样那样第一宠婚：顾先生,别上瘾奥斯顿之龙之子启禀王爷,王妃她又穷疯了海贼之水神共工海贼之我真的长生不老

从信息学霸到神级科学家所有内容均来自互联网，凌虚阁只为原作者四爷的狗的小说进行宣传。欢迎各位书友支持四爷的狗并收藏从信息学霸到神级科学家最新章节。

第74章 训练开始（1 / 2）