她继续补充道,
“每次训练得到的控制策略都不太稳定,有时在角速度峰值为10度/s下表现良好,但切换为20度/s的情况后会出现刚才发生的动作过载。有时正好反过来,20度/s下的控制效果比10度/s下的控制效果要好。
出现过载动作的问题虽然可以通过设置安全阈值加以控制,但会对算法收敛性产生影响,导致训练过程不稳定。”
尚斌听完后微微一笑:
“可以用级联式方法和惩罚项来解决吗?”
“是哦!我怎么没想到。”苏寒雨豁然开朗,马上与张飞进行了短暂的讨论,然后着手下一个版本文档的制作。
一点就通,不错!
尚斌很喜欢基础扎实头脑灵活的学生。有时候,他觉得苏寒雨有些……成熟,一种与年龄不符的干练与成熟,甚至觉得那句“我怎么没想到”是在恭维他。
所谓的级联方法,是指由两个和两个以上的神经网络联合起来组成的网络。在控制策略差异较大的不同环境下,将环境控制参数提取出来,作为前一级神经网络的输入,其余特征向量和前一级神经网络的输出作为下一级神经网络的输入。
这种方法虽然需要更多的计算资源,但能对一些高度非线性的情况进行很好的处理。
而惩罚项则是一种安全强化学习的技巧。有时,为了学习的稳定性,会给到达非安全状态的动作加一个非常大的惩罚性回报。
惩罚项如果太大,会导致学习到的策略过于保守,从而无法使性能达到最优,如果太小,则很可能失去惩罚作用。因此其大小需要精心调试或通过自动学习的方式得到。
苏寒雨很快将具体算法的变动画在平板上,然后发送给张飞。
张飞来自计算机科学与技术学院,是一名软件工程专业的学生。
几个月前,他被郝俊物色并招致麾下的。
虽然他刚来时与苏寒雨不熟,但自从加入实验室后一直与团队配合得极为出色。
张飞生得人高马大,接近一米九的个头。他穿了一件T恤,看上去并没有显得很强壮,但那薄薄的衣服下隐藏着常年健身和习武而淬炼出的钢筋铁骨。
因为从父亲那里听说过太多血汗程序员的故事,从高中开始,他就把技能树上的身体和编程相关技能都点满了,或许是因为过于极端的原因,高考只考上了普沃大学。
张飞的专业成绩并不是很理想,甚至挂过几门科目,但丝毫不影响他成为一名出色的程序员——他挂的科目跟编程没有任何关系。
他一边看着平板中的算法流程图,一边听苏寒雨讲解,很快就明白了对方的需求。
虽然在编程神器GPT和CodeGeeX的帮助下,很多代码已经不需要程序员去写了,但一些特定的业务逻辑还是需要有经验的程序员进行检查和修改。
张飞很熟练地将算法转换为恰当的提示并输入给GPT,然后将GPT初步生成的代码放到CodeGeeX中,使用CodeGeeX完成一些更细致的函数编写工作。
代码编写过程不超过10分钟。
5分钟后,编译和测试工作也已完成。
新的程序已经上传并部署到动力装甲中。
“第二次测试开始!”