python之sklearn初级使用

282 阅读1分钟

导入

pip3 install scikit-learn pip3 install numpy pip3 install pandas pip3 install joblib

使用

# 使用模型
from sklearn.ensemble import RandomForestClassifier
# 实例模型
clf = RandomForestClassifier(random_state=0)
# 设置数据源(数值类型)
feature = [[ 1,  2,  3],     [11, 12, 13]] # 注意是二维数组 
target = [1,1,1] #结果值,一维数组 
# 训练
clf.fit(feature ,target)
# 预测 
result = clf.predict([[1,3,4]]) #参数二维数组

使用pandas 解析 excel表格数据

  1. 表格数据: 202008091631.png

2.代码:

import pandas as pd
#导入sklearn库中的决策树tree
from sklearn import tree
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
#导入数据集
df = pd.read_excel('E:\PyProject\货款申请.xls',sheet_name='Sheet1')
#取特征(features),标签(target)
feature=df.loc[0:,'年龄':'是否有工作']
target=df.loc[0:,'批准']
#划分为训练集和测试集数据
X_train, X_test, y_train, y_test = train_test_split(feature,target,test_size=0.1)
#创建决策树对象
clf = tree.DecisionTreeClassifier()
# 训练
clf = clf.fit(X_train,y_train)
#预测无工作青年人和有工作老年人申请贷款能否批准
print('无工作青年人',clf.predict(X_test))
print('有工作老年人',clf.predict([[2,1]]))

  1. 注意

当 feature=df.loc[0:,'年龄'] 只取一个数值时,记得转换二位数组

使用joblib存储训练得模型‘

  1. 导入 import joblib as joblib

  2. 使用 在 fit 训练后,添加

joblib.dump(clf, 'filename.pkl')

  1. 再次使用
import joblib as joblib
clf = joblib.load('filename.pkl')
reslut = clf.predict([[2]])