斯旺作为游骑兵的科研人员,曾经是人气非常高的角色,作为指挥官时指挥一批人族机械单位,定位与英灵的凯拉克斯相似但又大不相同。人族的重型机械单位一直是其他种族心中的噩梦,攻城坦克12码的射程甚至超过了视野范围,需要空军提供额外视野;雷神的高额对空aoe伤害和仅次于风暴战舰的对空射程使其能够在低损情况下击破大批聚团的空军。科学球作为兼顾反隐/治疗/保护/感染能力的空中支援单位非常值得信赖。尽管机动性普遍较差,但是斯旺拥有高搭载、高血量、具备全图盲跳能力的大力神运输机,能够直接装载展开攻城模式的坦克,这使得斯旺同样具备了类似诺娃但更方便的大规模兵力投放能力。而在辅助方面,斯旺能训练额外的瓦斯收集装置,能够为自己和盟友提供额外的免费瓦斯。自带的德拉肯激光钻机也能够不间断输出海量的伤害,再经历额外升级后能够提供伤害更高的地图炮支援。 重型机械单位强大性能的代价就是高昂的造价,斯旺的部队成型速度极慢,在前中期甚至只能靠激光钻机和空投武装机器人来防守和开二矿。同时缺乏自保能力且的不能隐形的科学球不能装进大力神跃迁,这让斯旺在刚抵达阵地的时候完全不具备对隐形单位的打击能力。 在队友方面,斯旺和相位技师凯拉克斯拥有极高的互补性,技师用轨道炮为刚完成跃迁的大力神提供火力保护并清除对重甲单位威胁高的不朽者和劫掠者,同时技师的相位重构能够随时修理斯旺的受损单位。斯旺也为技师提供额外的气来满足技师对科技的高需求。
新手的打发 要简单粗暴有效的,就是机枪加坦克加一些运输机。最万精油了。 防运输机空投的话 可以在矿附近放一个防空再加个坦克, 这样也可以顺便防女妖! 虫群应该明年初吧, 虚空后年。 慢慢练,多打就会自己领悟到很多有用的实战东西!
如果楼主一定要强调搭配的话:那么tvc的话,基本就像楼主说的一样,以坦克为主要输出,再根据敌人的兵种辅以其他的,就可以了。
防空的话,可以用枪兵,不过升过射程的机器人更牛逼,适当造几个防空炮台反隐。防止地面杂兵冲坦克阵的话,可以用枪兵喷火加护士,也可以用雷车,雷车布雷杀伤很大,但是对操作有点要求。鬼兵和幽灵战机在tvc的正面推进过程中用的不多。
其实对电脑的话,有很多打法,而且不要求兵种配合,你配合的太好,电脑很快就挂了,配合的不好,手又很累。对电脑,人族守好口子,然后爆大舰或者坦克防空推进,或者敌后鬼兵投hedan什么的,都很有意思。
不过上面说的不适合1v7.
第一个真没法答你。。。。新手你又要给力。。那就只能放大招。。。赌命。。。比如速出女妖。。或者猛暴机枪。。。一波A死。。。其他你多看录像吧。。。 虫群之心国外也要明年。。。国内不知道。。。虚空那个你就别想了。。。国外2012都出不来。
造防空塔,那个狠,战术么空投不错,不被看见的话很猛
真善美和机枪流
7分钟的时候打一波 不行就开矿 出雷神
万金油战术作为一种长期流行的战术.从ROC时代到现在一直成为HUM的主流战术之一.所谓的万金油是指AM+MK+火枪+男女人的战术,不过在对战UD的时候很少有人会出大量女人. 前期 最普通的首发AM带领步兵MF.其实在前期HUM VS UD的情况基本相同..在万金油战术中,前期的FM不要太多,4个即可.最好不要超过6个.在升级2本的过程中立下铁匠铺,商店和伐木厂.这样,当2本升级完毕的时候一般HUM会有1-2个火枪手.这时的火枪至关重要,千万不要损失.因为这直接关系到能否抵抗魔满毁灭的那拨必杀.如果前期做得不错的话,我们便可以成功的过度到中期. 前期总结:HUM不能亏太大,一个水元素被围,1个步兵被围.不是什么新鲜事.但是如果DK上了2级甚至3级,AM又被围没了回程,基本HUM在后期没法打了. 中期 :中期的HUM是否发展得好,是比赛能否取得胜利的关键.中期的主要打法大致可以分为3种情况: 1,MK出来买下商店的塔,带领农民和部队迅速开出分矿. 2,简单的MF后直接压制.找机会开矿. 3,单练MK到3级后压制.找机会开矿. 以上3种打法有一个共同点-开矿!因为使用万金油组合想要取得胜利,经济上的支持是必不可少的,因为对于同水平的UD和HUM选手(其实UD对什么族都一样),HUM如果没有经济优势,基本除了GG,别无选择.经常在HF上看到一些人玩魔兽,单矿去和UD硬拼,结果输了后抱怨IMBA.B4 下面试分析这3种情况的利弊. 第一种,作为万金油战术最常见的打法.利用短暂的HUM优势期开出分矿.优点和缺点都很明显,优点是可以早点建立经济优势.缺点是分矿有可能成为鸡肋,兵力完全成型的时间会变长. 开矿后去压制或者MF有后顾之忧,更别说DK+LICH的骚扰了. 第二种,优点是可以快速压制,在UD3本成型前给予UD足够的压力,为什么要简单的MF呢?原因就是要等待第一个女巫的出现!这里有个glow=255,red,2]小技巧[/glow]:在对战UD时,我建议广大HUM爱好者可以出1-2个女巫对付骚扰的DK和LICH.什么?女人怕被CN连击打死?LICH刚出炉的也只能放2个霜星.没了魔的LICH怕啥?女人的作用就是减慢DK或LICH的速度.配合MK的T.围杀UD的HERO. 第三种,优点在于3级的MK有着2级的锤子,对于UD的HERO威胁很大.运气好的话甚至可以杀掉DK!建议在压制的过程中开出分矿!同样的道理,女巫是不能不出的. 中期总结:使用万金油组合,中期有3个关键:1.分矿 2.MK 3.压制 其中一个小技巧是要出1-2个女巫,但不要多. 后期:UD是后期强势种族.必须加以限制.限制什么?经济!后期的HUM必须做到2点,1.限制UD开矿,多多侦察. 2,自己的分矿一定要保护好! 正常的UD毁灭研究好的时候,狂G+3HERO+满魔毁灭会来冲击你的分矿或者到主矿去屠农!大家一定要注意!分矿和主矿一定要有3个以上的塔来防守!不然一定会前功尽弃!保住了分基地后,双方会进入一次相对默契的MF时间,一方面,UD需要提高3HERO的等级,以便更容易的秒杀万金油组合的兵力.另一方面,HUM的防守会使HUM元气大伤.同样也无法持续的压制.这个时候MF的重点是MK一定要级别越高越好!争取冲5级!如果HUM钱比较多甚至可以考虑升级3本出PAL,辅以骑士.但基本上这样的机会不太多. 后期总结:守住毁灭和狂G的进攻是重点,MK的等级是关键,限制UD的经济是胜利的源泉! 小技巧:充分利用经济优势,甚至可以和对方换回程!同时要注意是否有阴影在跟着你! 决战:双方兵力一般是:UD 3HERO+胖子+毁灭. HUM AM+MK+火枪+男巫+1-2个女巫. MK和DK是双方的灵魂,基本上谁先死谁先GG,因为缺乏有效杀伤性魔法的HUM在没了MK根本无法和UD抗衡,尤其是UD的3连杀,更是恐怖.所以,MK身上一定要带无敌+群补+血瓶,有条件的还可以带上魔瓶或者是+HP的道具(最爽的当然是神秘腰带拉,哈哈).决战的时候HUM一定要注意阵型!不要叫UD的片杀魔法有最充分的杀伤力. 万金油战术总结:所有H V U的战术中除了TR成型最快的战术. 但是缺点十分明显:群补是万金油的生命!不然没法打成型的UD部队~.尤其是MK,作为万金油中唯一的肉盾,其作用更是不可忽视!也许,很多玩家抱怨的IMBA就是万金油的低HP部队无法承受UD片杀的原因吧
诚心回答,谢谢采纳!
万金油打法需要的是出圣骑,再狠爆火枪手。所以前提一定要资金充足和农场足够,至少建造6只火枪手,圣骑第一招便血神圣之光,然后轮暴它和护甲。因为火枪手超易死。而在打的时候,不要让圣骑上去送死,你只需控制好火枪手就可以了,你选定火枪手,齐点一直怪,当他们攻击完第一次后马上点他们后退,再掉过头来点射。这样就可以使火枪手与其他兵拉开了一定的距离,既杀了别人又伤不了自己。这件事万金油的好处。记着当火枪手受伤时用神圣之光为他们疗伤。
星际争霸2:人族核弹研究及战术的实施 出处:PConline 日期:2010年02月24日 作者:太平洋游戏网·ZEAL 责任编辑:chenzhihao PCGL电竞联赛 Dota专区 游戏约战 火爆专区: 星际争霸2测试开始 StarsWar专题报道编辑推荐 NSL第三赛季专题报道 视频点播 星际争霸2 不需CD Key录像观看教程 星际2 Beta测试官方FAQ:如何获得Key 星际争霸2测试版客户端游戏下载 星际2神族宏机制继续调整 新语言版本受 我在研究星际争霸2里人族的时候发现了一件有趣的事。人族的兵种和科技树有非常大的改动,里面的单位和单位的技能能衍生出很多的战术。 在星际争霸1里你首先需要用400的矿来建造一个基地,接着建造附属的发射井,随后还要建造其他的科技建筑,最后才能发展核弹。不过在进行分析后你会发现,这样的代价回来核弹是不划算的。(当然,前提是在你造出核弹之前还没有打出GG)。如果对手用异虫的RUSH战术,你就一点机会都没有了。 在星际2,你必须学会使用核弹战术。前提是你必须做好自己的防御。新手在战网上进行对时要注意地图中的障碍物,地图上都是有指示的,你可以在利用障碍物让对异虫对你的攻击造成延缓。 回到核弹战术中来。在星际2里,你可以不需要建造多个指挥中心和发射井来建造出多个核弹了。在幽灵研究远离我们就能发现核弹的身影,这样更利于我们的核弹战术了 建造一个幽灵研究院需要花费150的矿和50的气,所需要的时间是40秒。一个核弹需要100矿和100气,花费的时间为60秒。此外可以建造多个幽灵研究员,这样你就可以轻易的事实你的核弹战术了。 我做了个实验,我建造了4个幽灵研究院,同时除了4个幽灵兵去打击一个目标。我对每个幽灵兵都按下了N键来发射核弹,发射的间隔只有几秒,而且我最后发现我的幽灵兵都没死。更棒的是在目前的beta版里,建造核弹不再占用人口,花费的仅为气跟矿 为此我设想了一个战术:让一个收割者去对手附近的悬崖去探测,接着让幽灵兵接近哪个悬崖,此时你需要做的是让收割者来回的移动,为的是让幽灵兵能够有视野锁定目标,接着让收割者撤离。虽然之后你将失去视野,但是核弹依旧能击中之前你锁定的目标,在核弹集中的时候,视野又会出现,太棒了。 不过这战术还有一个很大的缺点,就是核弹的发射时间,核弹需要花费20秒才能发射成功,这也给了敌人充足的时间来移走他们的SCV—聪明的对手会将自己的SCV现在可以躲进指挥中心或者通过行星要塞的加载功能来躲进行星要塞。同时要说下一个行星要塞只能容纳5个SCV。同时我在试验中用两个核弹攻击一个行星要塞,可惜,行星要塞的血量高达1500,而两颗核弹的威力仅为1000。如果你发现有核弹将要攻击你的时候,请马上装载5个SCV,其余的立刻移走。假如对方另外用一堆收割者来伏击你的话,那至少你还保存了5个SCV。 核战术非常考验你的个人能力,不过比起星际1来,星际2中建造核弹是在太方便了。在星际1中,你需要建造一个指挥中心,一个兵营,一个幽灵研究院,一个精炼厂,一个工厂,一个科学研究室,一个谍报中心,和一个发射井,这也就是为了有制造核弹的能力,很傻。 这些加起来总共需要1400矿+575气和大量的建造时间。当然了,幽灵兵的隐形需要额外100矿和100气,因为核弹监测警报一旦启动,你的幽灵兵就活不了多久了。还要说明的是一个核弹,至少需要增加1个补给站(100矿)。所以,在你第一个核弹发射之前,总计需要1600矿——别太高兴了,此前的一些攻击单位都还没有算进去,例如机枪兵,喷火兵,坦克等等。 不过这些都是过去式了。在星际2里,人族只需建造一个指挥中心(400矿),一个 兵营(150矿)加上一个 科技实验室(50矿+50气),一个 精炼厂(75矿),一个 工厂(200矿+100气),一个幽灵研究院(150矿),一个幽灵兵(100矿+200气),研究隐形(150矿+150气),最后再建造一个核弹(100矿+100气),这样你就可以进攻了! 这些加起来你总共需要投入1375矿和600气。建造和研究时间大概是550秒,即9分16秒。其实你不需要太注意这个时间,因为这取决于你的SCV每秒钟采集资源的速度,你可以指定几个SCV同时建造,这在某种程度上来说极大的缩短了建造时间。 我测试了为拥有一个核弹和一个能隐形的幽灵兵所需要的时间。我造了两个幽灵研究院来加快速度。总耗时6分16秒——这是在我有点懒散的情况下做的。一个专业玩家应该会吧这个时间缩短更多。 到达敌方基地的时候,我有一个幽灵兵,一个收割者,至少5个 恶人战车和3个 掠夺者。我让幽灵兵和收割者悄悄地前进。让收割者跳过悬崖来获得矿区的全部视野。发射核弹,让收割者在敌人能看到它们进出之前跳下悬崖。然后,我的对手应该会觉得世界末日提前到来了:) 你获得了进入Beta测试的资格吗?赶快尽情尝试核弹吧,并且记录下建造你第一个核弹所需的时间。把你的视频或者录像的链接传给我们,让我们看看你的技术如何~ 我再去找找 -步兵开局对侦查,防御的要求都不是很高,因为步兵开局在兵力上强势。 -步兵机动性很好,所以你不会被打个措手不及。 -最后,步兵开局使用的都是基础单位,你的部队很快就能派上用场。 但与此同时,步兵开局的坏处也有很多: -步兵的攻击输出都是由很快速但威力小的攻击组成的。所以护甲对步兵的非常有效。 -步兵非常怕范围攻击和溅射。而且这种弱势和你的部队大小成正比。 -步兵不造成任何溅射,攻击输出只是直线增长。 -步兵在星际2中非常容易抱团,很难躲避类似心灵风暴的伤害。 分析好了利与弊,现在我们来看为什么机械化是更强势的开局:步兵开局开始很强,但随着游戏发展,越来越弱。 有玩家认为如果步兵开始体现劣势,就可以转型。但转型过程本来就制造劣势,因为前面研究,升级的钱都要在来一遍,更重要的是,重工、机场等很耗气的基础设施都要花钱和时间。如果你使用步兵开局,却没有取得很大的优势,或占到很大的便宜,转型将把原有的优势转为中后期长期的劣势。 如果直接重工开局,对你有两个好处。第一,你可以集中建造一种出兵点,重工厂,可以服务整盘游戏,而不是前10分钟。第二,在进入中期时,部队成型,优势马上显现,因为主力部队都是研究好能力并升好部分攻防的。 不乐观的玩家可能认为,"你早期肯定要挂的。要不就不能封锁敌人,被敌人狂扩张。"但是,请读者放心,适当的机械化开局不会出现以上的尴尬局面。
TVP主流生化部队 也就是枪兵掠夺者医疗艇 正面打或者空投
TVZ也是生化部队 同TVP
TVT 前期拼坦克 女妖 后期机械化
这是我在天梯上的打法
星际争霸2 战术多而诡异
详细可以看 http://sc2.178.com/
相当全面
多看高手录像 提高会很快
感觉TVZ,等3坦克+枪兵前压,半机械半生化部队,效果非常不错。试试吧。
星际2中人族战术最多变。TvP一般ghost是必需的,双BB、三BBrush自己搜。你还在可以试试双矿机枪掠夺ghost rush。其实雷神很不错,单矿速雷神加机枪rush,两个雷神就冲,带几个农民,初期雷神是神一般的存在。雷神不是肉盾,是强大的火力输出,用机枪保护好。也可以蓄兵,加几个ghost冲一波,雷神省人口省时间,生产时间只有掠夺的两倍!别小看这些优点!
编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者 边策 栗子 夏乙。36氪经授权转载。
5分36秒的战斗后,LiquidMaNa打出:GG。
DeepMind开发的全新AI程序AlphaStar,在今天凌晨的《星际争霸2》人机大战直播节目中,轻松战胜2018 WCS Circuit排名13、神族最强10人之一的MaNa。
实际上,AlphaStar以10-1的战绩,全面击溃了人类职业高手。
战败的不止MaNa,还有另一位高手TLO。
人工智能在《星际争霸2》上的进步速度,远远超过了此前外界的预期。毕竟与下围棋这件事相比,星际2要难得多。
在围棋世界,动作空间只有361种,而星际2大约是1026。
与围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。
这意味着,AI需要学到长远的布局谋篇的策略能力。
即便如此,AlphaStar最终还是学会了如何打星际2。即便此次黄旭东保持克制、谁也没奶,但既定的事实已经无法更改。
直播进行到一半,就有网友在他的微博下留言:比国足输伊朗还惨。
尽管10战连败,人类职业高手仍然对人工智能不吝称赞:不可思议。MaNa说,我从AI身上学到了很多。以及,今天最后一局MaNa也为人类争取到了仅有的胜利!
赛后,TLO的说法跟李世乭输给AlphaGo后很像。他说:相信我,和AlphaStar比赛很难。不像和人在打,有种手足无措的感觉。他还说,每局比赛都是完全不一样的套路。
为什么AI这么强?别的先不展开讲,这里只说一个点。其实在比赛之前,AlphaStar的训练量,相当于打了200年实时对抗的星际2。
总而言之,谷歌DeepMind历时两年,终于让人工智能更进一步,AlphaGo有了新的接班人AlphaStar。
DeepMind CEO哈萨比斯说,AlphaStar的技术未来可用于预测天气、气候建模等需要very long sequences的应用场景。
一次里程碑意义的战斗,落下帷幕。
一次人类的新征程,正式开场。
AlphaStar:10-1
实际上,今天的人机大战主要内容并不是直播,而是回顾人机大战的结果。简单交待一下相关信息,比赛在Catalyst地图上进行,这张地图中文名叫“汇龙岛”。
图上设置了很多隘口和高地,网友说,这张图群龙盘踞,大战一触即发,官方称“能创造出许多有意思的进攻路径和防守阵形”。
游戏版本是去年10月的4.6.2,双方都使用神族(星灵)。
第一场比赛,发生在去年12月12日。
AlphaStar对TLO。
第一局人类选手TLO开局两分钟后就率先发难,不过AlphaStar扛下来,并且逐渐扭转了战局,迅速累积起资源优势。
5分钟左右,AlphaStar以追猎者为主要作战单位,开始向TLO发起试探性的攻击。并且在随后的时间里,持续对TLO展开骚扰,直至取胜。
DeepMind介绍,比赛中,实际上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高达几千甚至数万。
前三局基本都是这样。TLO说第四局就像换了个AI一样,打法完全变了,很接近典型神族打法。
当然,他又输了。这个感觉没错,其实他每次对阵的AI都不一样……
最后的结果是0-5,TLO一局没赢。不过他说:如果我多练练神族,我能轻易打败这些AI。毕竟TLO这些年一直主要在练虫族。
五局比赛打完,DeepMind团队为了庆祝喝了点酒,产生了一个大胆的想法:
再训练训练,和玩神族的职业选手打一场。
于是,快到圣诞节的时候,他们请来了Liquid的神族选手MaNa。
第二场比赛,发生在去年12月19日。
据说,MaNa五岁就开始打星际了。
在对战MaNa之前,AlphaStar又训练了一个星期。双方展开较量之前,MaNa只知道TLO输了,不知道是5-0,而且,明显没有TLO上次来那么紧张。
面对神族最强10人之一,DeepMind认为比赛会很精彩,但对胜利没什么自信。
双方第一局对决,AlphaStar在地图的左上角,MaNa在右下。4分钟,AlphaStar派出一队追猎者,开始进攻。基本上算是一波就推了MaNa。
正如开始所说,5分36秒,MaNa打出GG。
然后第二局也输了。这时候MaNa紧张起来,第三局决心翻盘。7分30秒,AlphaStar出动了一支大军打到MaNa家,MaNa GG。
最精彩的是第四局,MaNa的操作让现场解说叹为观止,他自己赛后也坦言”真是尽力了“。但最后,他的高科技军团在一群追猎者的360度包围下,全灭。MaNa打出了GG。
而且,AlphaStar完成360度包围这一高难度操作时,APM只有250左右。
第四局全程:
需要说明的是,其实在这局比赛中,AlphaStar的APM几乎已经失控,几度飙到1000多。量子位抓到了一些这样的瞬间。
MaNa说,输了好失望,我能出的单位都出了,最后输给了一群追猎者?他还说,AlphaStar的微操太厉害了。incredible。跟AI学东西,这种经历挺好。
人类扳回一城
今天的直播的最后,是现场的表演局(Exhibition game),直播MaNa对战AlphaStar。
在这场比赛中,MaNa采用了一种更激进的打法,一开局就造了更多的农民(探机),这说不定是上个月刚刚跟AlphaStar学来的战术。
12分钟后,MaNa一路拆掉AlphaStar的各种建筑,击败了无法打出GG的AlphaStar。
总算是帮人类挽回一些颜面。
这场比赛,全程在此:
另外DeepMind也放出了全部11局对决的视频,有兴趣可以前往这个地址查看:
网页链接
之前的10局比赛,DeepMind还拍成了一个纪录片。
解读AlphaStar
DeepMind和暴雪周三发出预告后,热情的网友们就已经把各种可能的技术方案猜了一遍。
现在答案揭晓:
AlphaStar学会打星际,全靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
再说得具体一些,神经网络结构对星际里的那些单位,应用一个Transformer,再结合一个深度LSTM核心,一个自动回归策略 (在头部) ,以及一个集中值基线 (Centralised Value Baseline)。
DeepMind团队相信,这个进化了的模型,可以为许多其他机器学习领域的难题带来帮助:主要针对那些涉及长期序列建模、输出空间很大的问题,比如语言建模和视觉表示。
AlphaStar还用了一个新的多智能体学习算法。
这个神经网络,经过了监督学习和强化学习的训练。
最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。
这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。
最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。
而这个早期的智能体,就是强化学习的种子。
在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:
从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。
这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。
这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。
随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。
一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。
早期的联赛里,一些俗气的策略很受欢迎,比如用光子炮和暗黑圣堂武士快速rush。
这些风险很高的策略,在训练过程中就被逐渐抛弃了。同时,智能体会学到一些新策略;比如通过增加工人来增加经济,或者牺牲两个先知来来破坏对方的经济。
这个过程就像人类选手,从星际争霸诞生的那年起,不断学到新的策略,摒弃旧的策略,直到如今。
除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。
而且,智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。
权重更新的规则,是一个新的off-policy演员评论家强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。
为了训练AlphaStar,DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境,支持许多个智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。
智能体联赛进行了14天,这相当于让每一个智能体都经历了连打200年游戏的训练时间。
最终的AlphaStar智能体,是联赛中所有智能体的策略最有效的融合,并且只要一台普通的台式机,一块普通的GPU就能跑。
AlphaStar打游戏的时候,在看什么、想什么?
上图,就是DeepMind展示的AI打游戏过程。
原始的观察里数据输入到神经网络之中,产生一些内部激活,这些激活会转化成初步的决策:该做哪些操作、点击什么位置、在哪建造建筑等等。另外,神经网络还会预测各种操作会导致的结果。
AlphaStar看到的游戏界面,和我们打游戏时看到的小地图差不多:一个小型完整地图,能看到自己在地图上的所有单位、以及敌方所有可见单位。
这和人类相比有一点点优势。人类在打游戏的时候,要明确地合理分配注意力,来决定到底要看哪一片区域。
不过,DeepMind对AlphaStar游戏数据的分析显示,它观察地图时也有类似于人类的注意力切换,会平均每分钟切换30词左右关注的区域。
这,是12月打的10场游戏的情况。
今天直播中和MaNa对战的AI,就略有不同。
连胜之后,DeepMind团队总会有大胆的想法冒出来——他们迭代了第二版AlphaStar,这一版和人类观察地图的方式是一样的,也要不停选择将视野切换到哪,只能看到屏幕上视野范围内的信息,而且只能在这个范围内操作。
视野切换版AlphaStar经过7天训练,达到了和第一版差不多的水平。
不过,这个版本的智能体原型还是在今天的直播中输给了MaNa,成为了10-1里的1。
DeepMind对他们的AI仍然充满信心,他们在博客中说,这个智能体只训练了7天,希望能在不久的将来,能测试一个完全训练好了的视野版智能体。
现在,AlphaStar还只能玩神族。DeepMind说,他们为了在内部测试中减少训练时间和变量,决定先只玩一个种族。
不过,这不代表它就学不会其他种族。同样的训练流程,换个种族还是一样用。
星际界的樊麾和带路党
这次人机大战背后,有很多人的努力,我们这次重点介绍三个人。
首先是AlphaStar的两个人类对手。
TLO是一位德国职业星际2选手,原名Dario Wünsch,1990年7月13日出生。现在效力于职业游戏战队Liquid。
之前TLO有个称号:随机天王。星际2的公测阶段,他使用哪个种族都得心应手,不过后来,TLO开始逐渐专攻于虫族。
根据官方公布的数据,TLO在2018 WCS Circuit排名:44。
国内关于TLO的资料,不少都是几年前的对战,现在TLO应该已经在自己职业生涯的末期,可以算是一位久经沙场的老将。
MaNa是一位出生于波兰的职业星际2选手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。
与TLO相比,MaNa是一个正值当打之年的选手。
而且,他更擅长的是神族。尽管他打出GG的速度更快……
MaNa去年获得WCS Austin的第二名。根据官方公布的数据,他在2018 WCS Circuit排名:13。
MaNa和TLO和AlphaStar的对战,发生在去年12月。地点在伦敦,就是DeepMind的总部。这不禁让人想起当年AlphaGo的故事。
AlphaGo名不见经传时,也是悄悄把樊麾请到了伦敦,然后把樊麾杀得有点怀疑“棋”生。然后开始向全世界公布突破性的进展。
TLO和MaNa,应该就是星际2界的樊麾了吧。
第三个是AlphaStar的教父:Oriol Vinyals。
他是DeepMind星际2项目的核心负责人。我们在此前的报道里介绍过他。1990年代,十几岁的Oriol Vinyals成了西班牙《星际争霸》全国冠军。
他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”
Vinyals的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。
他又跟“星际争霸”打起了交道。
但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。
AI打星际的意义
早在2003年人类就开始尝试用AI解决即时战略(RTS)游戏问题。那时候AI还连围棋问题还没有解决,而RTS比围棋还要复杂。
直到2016年,“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后,很快把目光转向了《星际2》。
与国际象棋或围棋不同,星际玩家面对的是“不完美信息博弈”。
在玩家做决策之前,围棋棋盘上所有的信息都能直接看到。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位。
这意味着玩家的规划、决策、行动,要一段时间后才能看到结果。这类问题在现实世界中具有重要意义。
为了获胜,玩家必须在宏观战略和微观操作之间取得平衡。
平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成了巨大挑战。
掌握这个问题需要在几个AI研究挑战中取得突破,包括:
博弈论:星际争霸没有单一的最佳策略。因此,AI训练过程需要不断探索和拓展战略知识的前沿。
不完美信息:不像象棋或围棋那样,棋手什么都看得到,关键信息对星际玩家来说是隐藏的,必须通过“侦察”来主动发现。
长期规划:像许多现实世界中的问题一样,因果关系不是立竿见影的。游戏可能需要一个小时才能结束,这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。
实时:不同于传统的棋类游戏,星际争霸玩家必须随着游戏时间的推移不断地执行动作。
更大的操作空间:必须实时控制数百个不同的单元和建筑物,从而形成可能的组合空间。此外,操作是分层的,可以修改和扩充。
为了进一步探索这些问题,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也积极备战:
4月,南京大学的俞扬团队,研究了《星际2》的分层强化学习方法,在对战最高等级的无作弊电脑情况下,胜率超过93%。
9月,腾讯AI Lab发布论文称,他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。
11月,加州大学伯克利分校在星际2中使用了一种新型模块化AI架构,用虫族对抗电脑难度5级的虫族时,分别达到 94%(有战争迷雾)和 87%(无战争迷雾)的胜率。
下一步
今天AI搞定了《星际2》,DeepMind显然不满足于此,他们的下一步会是什么?
哈萨比斯在赛后说,虽然星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测,未来可以用在天气预测和气候建模中。
他还透露将在期刊上发表经过同行评审的论文,详细描述AlphaStar的技术细节。一起期待吧~
*本文由腾讯新闻、量子位共同出品,作者系量子位,腾讯新闻同步首发,未经授权,不得转载。
编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者 机器之心编辑部。36氪经授权转载。
DeepMind 的人工智能 AlphaStar 一战成名,击败两名人类职业选手。掌声和欢呼之余,它也引起了一些质疑。
在前天 DeepMind 举办的 AMA 中,AlphaStar 项目领导者 Oriol Vinyals 和 David Silver、职业玩家 LiquidTLO 与 LiquidMaNa 回答了一些疑问。不过困惑依然存在……
近日,Aleksi Pietik?inen 在 Medium 上发表了文章,提出了几点疑问,在 Twitter 和 Reddit 上引起了极大的关注:
AlphaStar 使用了超人的速度,达到了超人的准确度。
DeepMind 称限制了 AI 的操作速度,不至于人类无法企及。但他们并未做到,且大概率意识到自己没做到。
AlphaStar 拥有超人速度的原因可能是忘了考虑人类的无效点击。作者怀疑 DeepMind 想限制它使它更像人类,但是却没有做到。我们需要一些时间弄清楚这一点,不过这也正是作者写本文的原因。
前谷歌大脑科学家 Denny Britz 也转载了此文章并在 Twitter 上表示:「有时候诚实和谦虚一点,就像『目前已经做得不错了,但我们还没有达到最优,还有很长的路要走。』而不是『看!那职业选手被击败了!!』,这样才能走得更远。
最让我烦恼的是,虽然 AlphaStar 在很多方面都有令人惊讶的结果,但其声称『限制在人类的操作水平』的解释让整个事件变得更像是在做公关,对于不熟悉机器学习和星际争霸的人来说这就是误导。」
让我们看看 AlphaStar 究竟哪里「作弊」了,以下为机器之心对该文章的编译介绍:
首先,我必须声明我是门外汉。最近我一直追踪 AI 发展和星际争霸 2,不过我在这两个领域都不是专家。如有错漏,请见谅。其次,AlphaStar 确实是一项巨大成就,我很期待看到它以后的发展。
AlphaStar 的超人速度
AlphaStar 团队领导 David Silver:「AlphaStar 不能比人类选手反应速度快,也不会比人类选手执行更多点击。」
2018 年,来自芬兰的虫族选手「Serral」Joona Sotala 制霸星际 2。他是目前的世界冠军,且他在当年的九场大型赛事中取得了七次冠军,在星际 2 历史上是史无前例的选手。他的操作速度非常快,可能是世界上最快的星际 2 选手。
在 WCS2018 上,Serral 的毒爆虫让局势逆转。
在比赛中,我们可以看到 Serral 的 APM(actions per minute)。APM 基本上表示选手点击鼠标和键盘的速度。Serral 无法长时间保持 500 APM。视频中有一次 800 APM 的爆发,但只持续了一秒,而且很可能是因为无效点击。
世界上速度最快的人类选手能够保持 500 APM 已经很不错了,而 AlphaStar 一度飙到 1500+。这种非人类的 1000+ APM 的速度竟然持续了 5 秒,而且都是有意义的动作。
一分钟 1500 个动作意味着一秒 25 个动作。人类是无法做到的。我还要提醒大家,在星际 2 这样的游戏中,5 秒是很长一段时间,尤其是在大战的开始。
如果比赛前 5 秒的超人执行速度使 AI 占了上风,那么它以大幅领先优势获取胜利可能是由于雪球效应。
一位解说指出平均 APM 仍是可接受的,但很明显这种持续时间并非人类所能为。
AlphaStar 的无效点击、APM 和外科手术般的精准打击
大部分人类都会出现无效点击。无意义的点击并没有什么用。例如,人类选手在移动军队时,可能会点击目的地不止一次。这有什么作用呢?并没有。军队不会因为你多点击了几下就走得更快。那么人类为什么还要多点击呢?原因如下:
1. 无效点击是人类想要加快操作速度的自然结果。
2. 帮助活跃手指肌肉。
我们前面说过 Serral 最令人震惊的不是他的速度而是准确度。Serral 不只是具备高 APM,还具备非常高的 effective-APM(下文中简略为 EAPM),即仅将有效动作计算在内的 APM。
一位前职业玩家在看到 Serral 的 EAPM 后发推表示震惊:
Serral 的 EAPM 是 344,这实际上已经是前所未有了。APM 和 EAPM 的区别也涉及 AlphaStar。如果 AlphaStar 没有无效动作,这是不是说明它的巅峰 EAPM 等于巅峰 APM?这样的话 1000+的爆发更加非人类了。
我们还需要考虑 AlphaStar 具备完美的准确率,它的性能好到「荒谬」的程度。它总能点击到想去的地方,而人类会有误点击。AlphaStar 可能不会一直使用巅峰状态,但在关键时刻,它的速度是世界最快选手的 4 倍,而准确率更是人类专业玩家想都不敢想的。
星际 2 中存在一个共识:AlphaStar 的执行序列人类无法复制。其速度和准确率突破了人类现有极限。
AlphaStar 只能执行人类选手可以复制的动作?David Silver 不认同这种看法。
正确做事 vs 快速做事
AlphaStar 的首席设计工程师 Oriol Vinyals:我们正在努力构建拥有人类惊人学习能力的智能系统,因此确实需要让我们的系统以尽可能「像人类一样」的方式学习。
例如,通过非常高的 APM,将游戏推向极限可能听起来很酷,但这并不能真正帮助我们衡量智能体的能力和进步,使得基准测试毫无用处。
为什么 DeepMind 想限制智能体像人类一样玩游戏?为什么不让它放飞自我?原因是星际争霸 2 是一个可以通过完美操作攻破的游戏。
在这个 2011 年的视频(网页链接)中,AI 攻击一组坦克,其中一些小狗实现了完美的微操。例如,在受到坦克攻击时让周围的小狗都躲开。
通常情况下,小狗不能对坦克做出太大 伤害,但由于 AI 完美的微操,它们变得更加致命,能够以最小的损失摧毁坦克。
当单元控制足够好时,AI 甚至不需要学习策略。而在没有这种微操时,100 只小狗冲进 20 架坦克中只能摧毁两架坦克。
并不一定对创建可以简单击败星际争霸专业玩家的 AI 感兴趣,而是希望将这个项目作为推进整个 AI 研究的垫脚石。
虽然这个研究项目的重要成员声称具有人类极限限制,但事实上智能体非常明显地打破了这些限制,尤其是当它利用超人速度的操作来赢得游戏时,这是完全无法让人满意的。
AlphaStar 能够在单位控制方面超越人类玩家,当游戏开发者仔细平衡游戏时,肯定不会去考虑这一点。这种非人类级别的控制可以模糊人工智能学习的任何战略思维评估。
它甚至可以使战略思维变得完全没有必要。这与陷入局部极大值不同。当 AI 以非人类级别的速度和准确率玩游戏时,滥用卓越的控制能力很可能变成了玩游戏时的最佳策略,这听起来有些令人失望。
这是专业人士在以 1-5 的比分输掉比赛之后所说的 AI 优点和缺点:
MaNa:它最强的地方显然是单位控制。在双方兵力数量相当的情况下,人工智能赢得了所有比赛。在仅有的几场比赛中我们能够看到的缺点是它对于技术的顽固态度。
AlphaStar 有信心赢得战术上的胜利,却几乎没有做任何其它事情,最终在现场比赛中也没有获得胜利。我没有看到太多决策的迹象,所以我说人工智能是在靠操作获得胜利。
在 DeepMind 的 Replay 讲解和现场比赛之后,星际争霸玩家群体几乎一致认为 AlphaStar 几乎完全是因为超人的速度、反应时间和准确性而获得优势的。
与之对抗的职业选手似乎也同意。有一个 DeepMind 团队的成员在职业玩家测试它之前与 AlphaStar 进行了比赛。他估计也同意这种观点。
David Silver 和 Oriol Vinyal 不断重复声称 AlphaStar 如何能够完成人类可以做的事情,但正如我们已经看到的那样,这根本不是真的。
在这个视频中关于「AlphaStar 如何能够完成人类可以做的事情」的描述非常粗略。
为什么 DeepMind 允许 AlphaStar 拥有超人的操作能力
现在让我们回顾一下这篇文章的主要观点:
我们知道了 APM、EAPM 和无效点击等概念;
我们对人类玩家操作能力的上限有一个粗略的了解;
我们知道了 AlphaStar 的游戏玩法与开发人员声称允许执行的游戏玩法完全矛盾;
我们的一个共识是 AlphaStar 通过超人的控制能力赢得了比赛,甚至不需要卓越的战略思维;
我们知道,DeepMind 的目标不是创建一个只能微操的 AI,或者以从未打算过的方式滥用技术;
令人难以置信的是,在 DeepMind 的星际争霸 AI 团队中没有人质疑爆发的 1500+ APM 是否对于人类而言可及。他们的研究人员可能比我更了解这个游戏。他们正与拥有星际争霸系列 IP 的游戏公司暴雪密切合作,使 AI 尽可能接近人类才符合他们的利益(参见本文前面提到的 David Silver 和 Oriol Vinyals 的提到的前几个要点和使命陈述)。
这是我对事情真相的猜测:
1)在项目一开始,DeepMind 同意对 AlphaStar 施加严格的 APM 限制。因此 AI 不会在演示中出现超人的操作速度。如果让我来设计这些限制,可能包含如下几项:
整场比赛的平均 APM;
在短时间内爆发的最大 APM。我认为每秒加上 4-6 次点击是合理的。还记得 Serral 和他的 344 EAPM 超越了竞争对手?这还不到每秒 6 次点击。与 MaNa 对战的 AlphaStar 版本在连续的时间段内每秒可以执行 25 次点击。这比人类可以做到的最快无效点击速度要快得多,我认为原始限制是不允许这样做的。
点击之间的最短间隔。即使 AI 的速度爆发被限制,它仍然可以在当前所处时间段的某个时刻执行几乎瞬时的动作并且仍然以非人类的方式执行。人类显然无法做到这一点。
有些人会主张还可以在准确率上添加随机性来进行限制,但我怀疑这会过多地阻碍训练的速度。
2)接下来,DeepMind 会下载数以千计高排名的业余游戏视频并开始模仿学习。在这个阶段,智能体只是试图模仿人类在游戏中所做的事情。
3)智能体采用无效点击的行为。这很可能是因为人类玩家在游戏过程中使用了这种点击行为。几乎可以肯定,这是人类执行的最单调重复的行为模式,因此很可能深深扎根于智能体的行为中。
4)AlphaStar 爆发的最大 APM 受限于人类进行无效点击的速度。由于 AlphaStar 执行的大多数操作都是无效点击,因此没有足够的 APM 可用于在战斗中进行实验。如果智能体未进行实验,则无法学习。以下是其中一位开发人员昨天在 AMA 上所说的话:
AlphaStar 的首席设计工程师 Oriol Vinyals:训练人工智能玩低 APM 非常有趣。在早期,我们让智能体以非常低的 APM 进行训练,但它们根本没有微操。
5)为了加速开发,他们改变 APM 限制以允许高速爆发。以下是 AlphaStar 在演示中使用的 APM 限制:
AlphaStar 的首席设计工程师 Oriol Vinyals:尤其是,我们在 5 秒的时间段内设置的最大 APM 为 600,在 15 秒内最大为 400,30 秒内最大为 320,在 60 秒内最大为 300。如果智能体在此期间执行更多的操作,我们会删除/忽略这些操作。这些是根据人类统计数据设置的。
这相当于通过统计数字作弊。乍一看,对星际不太了解的人可能会觉得这样做很合理,但它会允许我们之前讨论的超人速度爆发以及超人鼠标精度,这是不太合理的。
人类进行无效点击的速度是有限的。最典型的无效点击形式是对一个单位发出移动或攻击命令。这是通过用鼠标点击地图某个位置来完成的。
请尽你最快的速度点击鼠标试试。智能体学会了这种无效点击。它不会点击地太快,因为它模仿的人类无法点击太快。而能让它达到超人速度的额外 APM 可以被认为是「自由的」APM,它可以用于更多次尝试。
6)自由的 APM 被用于在交战中进行实验。这种交互在训练中经常发生。AlphaStar 开始学习新的行为以带来更好的结果,它开始摆脱经常发生的无效点击。
7)如果智能体学会了真正有用的动作,为什么 DeepMind 不回到最初对 APM 更苛刻、更人性化的限制呢?他们肯定意识到了其智能体正在执行超人的动作。
星际社区一致认为 AlphaStar 拥有超人的微操技术。人类专家在 ama 中表示,AlphaStar 的最大优势不是其单位控制,而其最大的弱点也不是战略思维。
DeepMind 团队中玩星际的人肯定也是这么想的,理由是因为智能体偶尔还是会进行无效点击。
虽然在玩游戏的大部分时间里,它能直接执行有效动作,但它还是经常做无效点击。这一点在它与 MaNa 的比赛中很明显,该智能体在 800APM 上无意义地点击移动命令。
尽管这完全没必要,而且消耗了它的 APM 资源,但它仍不忘记这么干。无效点击会在大规模战争中对智能体造成很大伤害,它的 APM 上限可能会被修改以使它在这些对抗中表现良好。
不要在意这些细节?
现在你明白是怎么回事儿了。我甚至怀疑人工智能无法忘记它在模仿人类玩家过程中学习到的无效点击行为,因而 DeepMind 不得不修改 APM 上限以允许实验进行。
这么做的缺点就是人工智能有了超越人类能力的操作次数,从而导致 AI 以超越人类的手速,不用战术战略就能打败人类。
我们对 APM 如此关心,是因为 DeepMind 击败人类职业玩家的方式与他们所希望的方式,以及所声称的「正确」方式完全相反。而 DeepMind 放出的游戏 APM 统计图也让我们对此有所洞悉:
这种统计方式似乎是在误导不熟悉星际争霸 2 的人。它似乎在把 AlphaStar 的 APM 描述为合理的。我们可以看看 MaNa 的数据,尽管他的 APM 均值比 AlphaStar 要高,但在最高值上 AI 远高于人类,更不用说在高 APM 时人类操作的有效性了。
请注意:MaNa 的峰值是 750,而 AlphaStar 高于 1500。想象一下,MaNa 的 750 包含 50% 的无效点击,而 AlphaStar 的 EAPM 几乎完美……
至于 TLO 的「逆天」手速,星际争霸主播黄旭东和孙一峰在直播时认为他明显使用了加速键盘(通过特殊品牌的键盘热键功能,设置某单个快捷键/组合键代替多次鼠标点击)。
加速键盘可以让人类的 APM 达到不可理喻的高度,比如 15,000 多——但并不会提升你的有效操作。
然而,你用加速键盘能做的唯一一件事就是无效施法。出于某些莫名的原因,TLO 在滥用这个技术,这种操作的统计结果让不熟悉星际争霸的人看起来好像 AlphaStar 的 APM 是在合理范围之内的。
DeepMind 的介绍性博客并没有提到 TLO 荒谬数字的原因,如果没有解释,这个数字就不应该被列在图中。
这简直是在统计数字上作弊。
可以说有局限性,可以说潜力巨大
AlphaStar 星际争霸 2 的人机大战吸引了人工智能领域里很多专业人士的关注,它对于 AI 技术的发展会有什么样的启示。比赛过后,Facebook 研究科学家田渊栋在知乎上表示:
昨天晚上抽空看了一下 DM 的 demonstration 还有 live 的比赛。确实做得很好。
我星际水平很烂,星际 2 也玩得不多,相信大家已经看到了大量的游戏评论,我就跳过了。
整个系统和 AlphaGo 第一版很接近,都是先用监督学习学会一个相当不错的策略,然后用自对弈(self-play)加强。当然有两个关键的不同点,其一是自对弈用的是 population-based 以防止掉进局部解(他们之前在 Quake 3 上也用到了)。
其二是在 network 里面加了一些最近发表的神经网络模型,以加强 AI 对于游戏全局和历史长程关联性的建模能力(比如说用 transformer,比如说让 AI 可以一下子看到全部可见区域),这两点对于不完全信息游戏来说是至关重要的。
因为不完全信息游戏只能通过点滴的历史积累来估计出当前的状态,尤其是对手的状态,多一点历史记录就能学得更好些,这个我们做过一些即时战略游戏(MiniRTS)的研究,很有体会。
星际一个很大的问题是输出的行动空间(action space)巨大无比,我记得他们在一开始做的基线(baseline)算法里面用了 language model 输出精确到单位的行动(unit-level action),但在 DM 的 blog 里面却说每个时间节点上只有 10 到 26 种不同的合法行动。
然后在他们的 demonstration 里面「considered Build/Train」下面有 33 个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论文出来。
另外,这次 AlphaStar 没有用基于模型进行规划的办法,目前看起来是完全用经典的 off-policy actor-critic 加大量 CPU 硬来,就有这样的效果。
关于 AlphaStar 输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼镜。联想到 OpenAI Five 对职业选手也输了,主要还是应变能力不强,无法对新战术新模式及时建模。
围棋因为游戏规则和双方信息完全透明,下棋的任何一方都可以用蒙特卡罗树搜索(MCTS)对当前局面进行临时建模和分析,但不完全信息博弈因为得要估计对手情况就没有那么简单。
AlphaStar 目前似乎是无模型的(model-free,Reddit 上的解答确认了这一点)。我不知道是不是在进行充分的训练之后,纯粹无模型(model-free)的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上。
就算是用相当好的模型比如说 OpenGo,要是每盘都不用搜索而只用策略网络的最大概率值来落子,还是会经常犯错。
所以说,若是在不完全信息博弈里面用上了基于模型(model-based)的方法,并且能够稳定地强于无模型(model-free)方法,那在算法上会是一个比较大的突破。
所以其实深度强化学习还是有很多很多很多没有解决的问题,你可以说它有很大局限性,也可以说它潜力巨大。
在这之上,更难的一个问题是如何让 AI 具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括总结并加以利用。
但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的,目前还是研究热点,没有一个统一的答案。
对应到星际上,人在全局战略上的优化效率要远远高于 AlphaStar,比如说一句「造两个凤凰去灭了那个来空投的棱镜」,可能就顶 AlphaStar 自对弈几天几夜。
这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对局胜败的关键所在。
参考内容:
网页链接
网页链接
2023-08-25 / v3.1
2023-08-25 / v1.0.3
2023-08-25 / v1.0.1
2023-08-25 / v2.19.1
2023-08-25 / v1.2.0
2023-08-25 / v2.0.1
2023-08-25 / v1.5.1
2023-08-25 / v4.4.0
2023-08-25 / v1.0.03
2023-08-25 / v5.6.6
2023-08-25 / v1.2.20230810
2023-08-25 / v2.3.1.1