你是否想过,作为非职业玩家,我们为何沉迷游戏?仅仅是为了打发时间,追求推掉水晶、拿下五杀的快感,还是和朋友组队开黑的欢乐?
其实这些都不是根本原因。一场游戏的胜利或一次精彩操作带来的兴奋,不足以让我们一局接一局地玩下去。
真正让我们欲罢不能的,是大脑的反馈机制,而多巴胺则是其中的关键。很多人误以为多巴胺就是快感本身,实则不然。多巴胺是脑垂体腺的前体物质,它代表着我们对快感的预期,是追求快感的驱动力。
当在游戏中获胜或击杀敌人时,身体分泌的肾上腺素、催产素和内啡肽让我们感到愉悦,但大脑神经对这些情绪的体验是短暂的。真正促使我们不断开启下一局游戏的,是多巴胺构建的信号机制。
在多巴胺的影响下,打游戏时,我们想的不是 “玩游戏真爽”,而是 “这把能翻盘,下把肯定赢,再赢一把就能升段位”。多巴胺直接作用于大脑奖励回路,让我们反复沉浸在游戏世界中。
要将游戏的反馈机制运用到学习,先得了解它的工作原理。假设你是 MOBA 游戏新手,只知道要推掉敌方水晶。首次游戏时,你贸然孤身闯入敌方防御塔被击杀,大脑产生失望情绪。
复活后,你大概率会选择跟随兵线推进,最终推掉防御塔并赢得胜利,获得满足感。大脑会判断跟随兵线推进是更明智的选择,下次游戏时,你采取这种行动的概率会增加,还会做出更多正确操作,反馈回路效果得以强化。这也是职业选手出众的原因,他们的反馈机制更迅速。
反馈机制由这几个部分构成:交互环境(如游戏实时状态)、自身状态(击杀、获胜等)、动作(打开游戏、操作角色等,影响后续行为概率)、奖励(获胜的愉悦感,本质是快感预期)。
它遵循规则:游戏中每个时间点可能有不同动作;动作影响下一刻状态;每个状态对应奖励;动作影响后续反馈,且作用可正可负。
构建反馈回路的重要方法是强化目标预期。游戏的反馈是否及时、有效,决定了游戏的趣味性。游戏厂商常通过提高玩家动作收益(如推水晶升分数)、增加不确定性(随机皮肤设定)来加强反馈回路。
同样学习中的反馈也决定了学习模式的吸引力。
游戏主要有三种反馈强化模式:固定比率强化(打败固定数量怪物升级,或连胜固定场次升段)、固定时序强化(特定时间后解锁宝箱)、不固定比率强化(如抽卡有一定概率获得稀有卡牌)。
这些方法将不确定性奖励转化为确定性收益,对应游戏厂商关注的留存率、在线人数和净收入。反馈回路与反馈强化是强化学习的基础机制,强化是个体在尝试中更新反馈回路,优化至接近目标的过程,和监督式机器学习一样是人工智能的基石,且更符合人类进化模式,不符合正反馈回路的行为或族群会被淘汰。
人类进化得益于总结知识、发现规律以及不断尝试。谷歌 AlphaGo 是完善的强化学习系统,能通过大量对弈强化反馈回路。监督式机器学习是方法抽取,强化学习是方法探索,更接近理想中的人工智能。
了解强化学习机制,能看透学习行为本质。我们常思考学习的目的,有人说为了更好生活而学习,但什么是更好的生活?
从人工智能角度看,学习和玩游戏本质相同。学习要背单词、记公式、刷题,游戏要记英雄技能、练习走位和出装,在强化学习系统里都是动作,关键在于状态和预期奖励。
人类天生抵触枯燥,学习缺乏即时快感,所以容易让人产生抵触情绪。但有些人能坚持学习并享受其中,原因在于反馈机制。当学习带来正向收益,就能获得快感预期,即分泌多巴胺。
仅靠意志力学习违背生理本能,难以持久。大脑的行动动机如同海豹为获取 “小鱼干”,只有不断得到正向反馈,才会有前进动力。
学霸和学渣的区别在于对快感的预期和反馈不同。学霸是高效的强化学习系统,有完整反馈回路和有效反馈强化。想成为学霸,要做到以下三点:
缩短反馈周期:反馈周期长是很多人难以坚持学习的主因。高中时测试频繁,努力学习能快速看到成绩进步和名次上升,获得表扬,学习处于正向循环。大学反馈周期变长,学习动力减弱。将大目标分解为小目标,缩短反馈周期,能塑造连续学习回路。
增加反馈强化:参考游戏的反馈强化模式,比如考试进步奖励美食,把他人认可当作学习中的 “稀有奖励”,学习一定时长奖励玩游戏,以此提高学习留存率、延长学习时间、增加学习收益。
调整反馈难度:研究表明,玩家在高难度游戏获胜时大脑多巴胺回路活跃,适度高难度能激活反馈回路,这也是竞技游戏排位赛机制。学习中设置难度要结合自身实际,难度既不能太简单,也不能过高。一旦形成正反馈回路,学习动力会更充足,甚至能享受学习过程 。
文本来源@图灵的猫 的视频内容