第42章 创造奇迹的人(1 / 2)
江铭的演示还在继续。
前面的概念只能算是开胃小菜,后面的部分公式推导越来越多,式子也越来越长。
“智能体前后两次试错中,目标函数的差值,可以称为策略梯度。”
“在自适应巡航这个问题中,目标函数即通过拉格朗日乘子法将车速、稳定性、舒适度等多个目标统一成的单个函数。”
随着江铭讲解逐渐深入,学员们的目光都变得清澈了起来。
林欣然更加震惊异常。
“这...这是我们组的方案?”,她小声嘀咕道。
这和昨天的方案完全不一样啊。
师弟怕不是昨天晚上回去睡觉的早,在梦里穿越到异世界学了什么不得了的知识吧!
...
↑返回顶部↑