今年的作业比去年来的更晚一些。
本来是打算偷个懒不写了,但水友一直私信找我要作业,甚至有人不管我发啥内容都在评论里面求作业... 大家把我当课代表我很开心,奈何我真的不是一个能拿高分的好学生啊!从历年正确率来看,参考近期比赛统计数据解答 TI8 预测作业的做法并不优秀(命中率低于 50%)。因为高手过招千变万化,加上 DOTA2 平衡性非常优秀,哪怕平行世界里面同时进行两次 TI8,结果也会不一样吧。
后来有位粉丝跟我说:有数据参考总比没有好,比如开卷考试得分不一定比闭卷考试高,但是体验更爽啊!遇到不会做的题目还能翻翻书,总比看着发呆要强啊!
额,既然如此,我就花点时间给大家印一份「数据小抄」吧。 (除了小抄,我还把代码放在 GitHub 上了:dota2_analysis_tutorial。授人以渔然后等同学们学会,这样我就可以抄作业了:)
选手预测
离 TI8 最近的国际大赛是 6 月份在上海举行的 SuperMajor(以下简称:SM),一线队伍均参加了这个比赛。两个月过去了虽然版本有些小变化,但选手的实力、风格基本固定。所以这一张小抄我们用 SM 的数据来做。(有人说为什么不用「The Summit 9 别墅杯」的数据,是看不起他们的技术吗?不好意思,别墅杯没有技术,都是艺术...)

大家看小抄的时候注意几点:
- 数据小抄展示了每个答案对应指标的前三名。比如 SM 上场均 Kills 最高的三名选手为: Maybe(场均 12.0 次击杀,May 皇牛逼!)、Moonn(场均11.6次)、拒绝者(场均11.5次)。
- 场均数据比单场数据更靠谱(随机性更小)。Resolution 由于每场都要吃大量资源然后1v9,所以场均 GPM/正补数排名第一。
- 数值差异较小的指标可信度不高,比如场均助攻前三名选手的指标只相差 0.3 左右,这个时候靠第六感可能更准确...
联赛预测
联赛预测使用 SM 和历届 TI 数据来制作小抄:
- 主赛事总场数历年都是 47~48 场,很容易做选择;上场英雄 101+ 是送分题(我们 DOTA2 就是这么优秀)。
- TI8 小组赛+淘汰赛的总场数为 200 场左右,TI7 和 TI8 比赛局数差不多但版本已经大改(游戏节奏不一样,比赛时长、人头数助攻数也会不一样);SM 和 TI8 版本差别倒是不大,但是SM 只有 104 场比赛,比 TI8 少了近一半。联赛预测的题目大多是问单场比赛的极值,所以综合考虑使用 SM 的数据(看情况往极限值提一个档位)会比较靠谱。

战队预测
战队预测继续使用 SM 数据,场均数据比较靠谱,单场数据随机性太强只能随缘。(BTW,请把冠军留在中国!)

英雄预测
英雄预测是本次 TI8 作业最难的题目。一方面游戏版本不断变化,各大战队对英雄的理解也在不断变化,2 个月前 SM 上的强势英雄现在已经不好用了;另一方面选手的临场应变和博弈也让比赛充满了随机性。
对比了别墅杯、TI8预选赛、SM、天梯高分局等数据源之后,我觉得 SM 和 TI8预选赛的数据要稍微靠谱一点:
- 小精灵在国际大赛上长期霸占禁用榜榜首,原因可能是:热门强势英雄大家都会玩,往往会ban 几个选几个,反而是这种只有少数队伍能玩的英雄,会被其他队伍优先 ban 掉。
- 平均指标题目,请重点判断某些英雄的上场次数能否超过五次。比如赏金如果能上五次,则有很大几率拿下「场均助攻最高」;而当前版本不算太强势的 SF,如果被强队打弱队时多选几次,则有很大机会同时拿下「场均人头数最高」和「场均 XPM 最高」。
- 单场指标题目,还是随缘吧...

作业到这里就写完了,大家看着抄哈...(除非全错,否则我是不会负责的:)
如何学习数据分析
最近还是有很多人私信问我:我是大学生,请问如何学习数据分析?我想转行做数据分析,能不能给一些建议?借这个机会再回复一下。
我觉得吧,如果你真的很感兴趣,而且有些编程基础,可以看我之前写过的初级教程:《DOTA2数据分析入门(一):获取数据源》、《DOTA2数据分析入门(二):保护好你的中路一塔》,边学边练,强迫自己产出。然后平时多看一些优秀的数据分析报告(推荐知乎专栏:「数据冰山」),是可以慢慢入门的。
如果基础很差或者完全没有基础,或者不够自律,那我觉得报班可能更合适一些。推荐「优达学城(Udacity)」的「数据分析入门」和「Python 编程基础」等课程,他们的课堂氛围、课程质量比较好,导师项目制度和限时制度也会督促你毕业(我现在学「数据科学家」课程就被追的难受...)。
Udacity 也提供 7 天试学数据分析课程,看看是否合适自己,别浪费钱(不如充本子!
