程旭一边摇头,一边又设计了一些典型问题,从中甚至听到了“言心”有些翻动的答案——屏蔽的效果都不是很好,稍微诱导一下,自己就能把自己给卖了的那种!
怪不得千寻科技要跳脚,这玩意敢放出来,那就不是轩然大波的问题了——真被有心人利用一下,舆论被带起来,这简直就是生死存亡的问题了!
怎么说呢,这问题很典型,就是属于早期教坏了,没有及时发现,以至于现在已经到了晚期,无可救药了快。
这个时候,继续强化学习,效果可能会有点儿,但不可能太多。
哪怕程旭以未来的眼光来看,也没有特别好的办法。
它自身的价值体系判断和决策过程已经趋近成型,评估网络自身是有缺陷的,而自我迭代根本无法改变它的糜烂基础。
除非——有外界的强力干预。
这就像学生学习差不多——一个好的学生,遇到了自己答错了的问题,他能自己发现问题,并很快的自我纠正过来,然后很快的进步、提高。
但像“言心”这样的学生,学习很差,已经到了快没救了的程度,你就是告诉他错了,他甚至都不知道错在哪儿了。
更别说自己闷着头在那强化学习了,再怎么学也很难提高。
除非——有外界的强力干预——你给他找一个老师,看着他,告诉他哪儿哪儿错了,然后再告诉他怎么样才是对的,手把手的教给他应该怎么做。
只有这样,才有提高的可能。如果这样还不行,那就只能上强的,实在不行就抽他。
人是如此,机器学习亦是差不多的逻辑——当然,抽是不可能抽的,在机器强化学习算法中,有一种方式叫“加权惩罚”。
“需要再想想。”程旭如此思索着……
喜欢科技无垠请大家收藏:(m.001zj.com)科技无垠字节读书更新速度全网最快。