学习过程中遇到的问题

38 阅读1分钟

一.pandas中 执行代码

pd.set_option("max_columns",500) 
pd.set_option("max_rows",500)
报错
OptionError: 'Pattern matched multiple keys'

解决方案: 在新版本的Pandas,需要使用

pd.options.display.max_rows = 500
pd.options.display.max_columns = 100

二.统计学习方法中

1.为什么要假设训练数据是独立同分布产生的

答: 我们要基于已有数据构建概率统计模型对未知数据做分析与预测,如果获取训练数据是不具有总体代表性的,而是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果。通过独立同分布的假设,就可以大大减小训练样本中个例的情形。

(1)独立就是每次抽样之间是没有关系的,不会相互影响

就像抛骰子每次抛出的结果,这就是独立的。

但若要两次抛的和大于8,其余的不算,那么第一次抛和第二次抛就不能用独立同分布描述了,因为他们只是最后结果的组成,不属于实验结果本身。

(2)同分布就是每次抽样,样本都服从同样的一个分布

抛骰子每次得到任意点数的概率都是1/6,这就是同分布的。
但若我第一次抛一个六面的色子,第二次抛一个正12面体的色子,就不再是同分布了。 完~