信息发布→ 登录 注册 退出

Python机器学习入门教程_sklearn基本算法实战

发布时间:2026-01-04

点击量:
sklearn机器学习核心是理清“数据→预处理→模型→评估”主线:先用pandas加载查看数据,再显式处理缺失值和类别特征、缩放数值特征,接着选模型训练预测,最后用分类报告、混淆矩阵或回归指标全面评估。

用 sklearn 做机器学习,核心不是背代码,而是理清“数据→预处理→模型→评估”这条主线。下面用最常用的任务切入,带你跑通一个完整流程。

加载并快速查看数据

别急着建模,先用 pandas 读数据、看形状、检查缺失值和前几行:

  • from sklearn.datasets import make_classification, make_regression —— 快速生成模拟数据练手
  • df.info()df.describe() 看分布和空值
  • 分类任务常用 make_classification(n_samples=1000, n_features=4, n_classes=2);回归用 make_regression

数据预处理不能跳过

sklearn 不自动处理缺失值或类别型变量,必须显式处理:

  • 数值型缺失:用 SimpleImputer(strategy='mean') 填均值(分类可用 'most_frequent'
  • 类别型特征:用 OneHotEncoderOrdinalEncoder 编码,注意要先 fittransform
  • 特征缩放:SVM、KNN、逻辑回归对量纲敏感,用 StandardScalerMinMaxScaler

选模型、训练、预测三步到位

从最基础的几个算法开始,语法高度统一:

  • 逻辑回归:LogisticRegression() → 分类任务基线
  • K近邻:KNeighborsClassifier(n_neighbors=5) → 无需训练,但预测慢
  • 决策树:DecisionTreeClassifier(max_depth=3) → 可视化强,易理解
  • 线性回归:LinearRegression() → 回归任务起点
  • 统一写法:model.fit(X_train, y_train)model.predict(X_test)

评估结果要看指标,不只看准确率

分类任务别只 print(model.score()),要用更全面的视角:

  • 二分类:用 classification_report(y_true, y_pred) 看 precision/recall/f1
  • 混淆矩阵:confusion_matrix 直观看出错在哪一类
  • 回归任务:mean_absolute_errorr2_score 比单纯看 score() 更有信息量
  • 交叉验证:cross_val_score(model, X, y, cv=5, scoring='f1') 防止偶然性

不复杂但容易忽略:每次 fit 前确保 X 是二维数组(比如 X.reshape(-1, 1) 处理单特征),y 是一维。跑通一个完整 pipeline,比记十个参数更重要。

标签:# python  # 编码  # ai  # red  
在线客服
服务热线

服务热线

4008888355

微信咨询
二维码
返回顶部
×二维码

截屏,微信识别二维码

打开微信

微信号已复制,请打开微信添加咨询详情!