ML.NET 快速入门与实践教程：机器学习框架千淘万漉虽辛苦，吹尽狂沙始到金。嗨，大家好！我是码农刚子。今天和大家聊一聊

千淘万漉虽辛苦，吹尽狂沙始到金。嗨，大家好！我是码农刚子。今天和大家聊一聊ML.NET 如何快速入门。

ML.NET 是微软为 .NET 开发者量身打造的机器学习框架，让你无需离开熟悉的 C# 环境，就能将智能功能集成到应用中。本文将从一个简单的成绩预测案例入手，逐步带你掌握数据加载、模型训练、评估和预测的全流程，后面有时间还会介绍能大幅提升效率的 Model Builder 可视化工具。

ML.NET 快速入门与实践教程：机器学习框架

ML.NET 简介与环境搭建

什么是 ML.NET？

ML.NET 是一个免费的、开源的、跨平台的机器学习框架，专为 .NET 开发者设计。它允许你在 .NET 应用程序（C# 或 F#）中构建、训练和部署自定义机器学习模型，而无需具备深厚的 Python 或 R 语言机器学习专业知识。无论是 .NET Core、.NET 5/8 还是 .NET Framework，ML.NET 都能完美支持。

安装 ML.NET

在你开始编码之前，需要先安装 ML.NET NuGet 包。你可以通过 Visual Studio 的 NuGet 包管理器，或使用 .NET CLI 命令行工具来安装：

dotnet add package Microsoft.ML

除了核心库，根据你的任务场景，可能还需要其他包，比如用于数据操作的 Microsoft.ML.DataView 或包含特定算法的 Microsoft.ML.Trainers 。

核心概念：理解 ML.NET 的工作流程

使用 ML.NET 构建机器学习模型遵循一个标准化的流程，理解这些核心概念是入门的关键。

MLContext：一切操作的起点。它像一个“上下文”或“工厂”，提供了数据加载、模型训练、模型评估等所有 API 的入口。你可以把它想象成 DbContext 之于 EF Core。
IDataView：ML.NET 的核心数据抽象。它不是一个简单的内存集合，而是一个灵活、高效的表格数据表示形式，用于数据加载、转换和训练。你可以从 CSV、SQL 数据库或内存集合中创建它。
数据处理管道：在训练模型之前，原始数据通常需要进行清洗、转换和特征工程。ML.NET 允许你将一系列的数据转换操作（如连接特征、处理缺失值、文本向量化）组合成一个管道。
训练器 (Trainer) ：即机器学习算法。ML.NET 内置了丰富的训练器，用于解决回归、分类、聚类、异常检测等不同任务。
模型 (ITransformer) ：数据管道和训练器组合在一起，对数据“拟合”后生成的产物。这个模型可以被保存、加载，并用于对新数据进行预测。
预测引擎 (PredictionEngine) ：模型训练好后，你需要使用 CreatePredictionEngine 创建一个预测引擎，它接收单个输入数据对象，并输出预测结果。

下图清晰地展示了从数据到最终预测的完整流程：

ML.NET 快速入门与实践教程：机器学习框架

准备数据源（CSV, txt, 数据库等）
MLContext.Create() 加载数据至 IDataView
定义数据处理管道（特征提取，连接，转换等）
追加训练器（如 Sdca 回归）
在训练数据上调用 Fit 方法
得到训练完成的模型（ITransformer）
保存模型为：Model.zip
创建 PredictionEngine 用于单次预测
输入新数据，然后输出预测结果

实践案例：学生考试成绩预测（回归）

让我们通过一个最简单的例子——根据学习时长预测考试成绩，来动手实践 ML.NET 的整个工作流。这是经典的回归任务，即预测一个连续的数值。

1. 准备数据

首先，创建一个名为 data.csv 的文件，内容如下：

StudyHours,Score
1,50
2,60
3,65
4,70
5,75

2. 定义数据类

在你的 C# 项目中，定义两个类来映射数据和预测结果。

using Microsoft.ML.Data;

// 用于加载输入数据
public class StudentData
{
    [LoadColumn(0)] // 指定在数据文件中的列索引
    public float StudyHours { get; set; }

    [LoadColumn(1)]
    public float Score { get; set; } // 这是标签（Label），即我们要预测的值
}

// 用于存储预测结果
public class StudentPrediction
{
    [ColumnName("Score")] // 指定输出列的名称，需与模型输出的列名一致
    public float PredictedScore { get; set; }
}

3. 构建、训练并评估模型

现在，在 Program.cs 中编写核心逻辑。

using Microsoft.ML;

// 1. 初始化 MLContext
var mlContext = new MLContext(seed: 0); // 设置随机种子以确保结果可重现

// 2. 加载数据
string dataPath = "data.csv";
var data = mlContext.Data.LoadFromTextFile<StudentData>(dataPath, separatorChar: ',', hasHeader: true);

// 3. 分割数据集为训练集和测试集
var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);
var trainData = trainTestSplit.TrainSet; // 用于训练的数据
var testData = trainTestSplit.TestSet;   // 用于评估的数据

// 4. 构建数据处理和训练管道
//    - Concatenate: 将所有特征列（这里是 StudyHours）合并到一个名为 "Features" 的列中，这是 ML.NET 的默认输入列名
//    - Append: 追加一个回归训练器（SDCA 算法）
var pipeline = mlContext.Transforms.Concatenate("Features", new[] { "StudyHours" })
    .Append(mlContext.Regression.Trainers.Sdca(labelColumnName: "Score", maximumNumberOfIterations: 100));

// 5. 在训练集上训练模型
var model = pipeline.Fit(trainData);

// 6. 在测试集上评估模型性能
var predictions = model.Transform(testData);
var metrics = mlContext.Regression.Evaluate(predictions, labelColumnName: "Score", scoreColumnName: "Score");

// 7. 输出评估指标
Console.WriteLine($"模型评估指标：");
Console.WriteLine($"  R^2: {metrics.RSquared:F2}"); // 决定系数，越接近1越好
Console.WriteLine($"  平均绝对误差: {metrics.MeanAbsoluteError:F2}");
Console.WriteLine($"  均方根误差: {metrics.RootMeanSquaredError:F2}");

// 8. 使用模型进行单次预测
var predictionEngine = mlContext.Model.CreatePredictionEngine<StudentData, StudentPrediction>(model);
var newStudent = new StudentData { StudyHours = 6 };
var predictedScore = predictionEngine.Predict(newStudent);

Console.WriteLine($"\n预测结果：");
Console.WriteLine($"如果学习 {newStudent.StudyHours} 小时，预测成绩为 {predictedScore.PredictedScore:F2}");

4. 运行与结果

运行你的应用程序，你将看到类似下面的输出：

模型评估指标：
  R^2: 0.92
  平均绝对误差: 1.25
  均方根误差: 1.58

预测结果：
如果学习 6 小时，预测成绩为 80.45

恭喜！你已经成功构建并训练了你的第一个 ML.NET 模型。

还有类似的模型可以自己去尝试练习：房价预测，和以上示例相同逻辑，代码非常的简单。

// 1. 定义数据模型：输入特征（用来预测的变量）和输出标签（要预测的结果）
// 房价的影响因素：面积、卧室数量、浴室数量
using Microsoft.ML;
using Microsoft.ML.Data;

public class HouseData
{
    [LoadColumn(0)] // 对应数据文件的第1列（面积）
    public float Size { get; set; }

    [LoadColumn(1)] // 对应数据文件的第2列（卧室数量）
    public float Bedrooms { get; set; }

    [LoadColumn(2)] // 对应数据文件的第3列（浴室数量）
    public float Bathrooms { get; set; }

    [LoadColumn(3)] // 对应数据文件的第4列（房价，标签）
    public float Price { get; set; }
}

// 2. 定义预测结果模型：只包含要预测的标签
public class HousePricePrediction
{
    [ColumnName("Score")] // Score是ML.NET默认的预测结果列名
    public float PredictedPrice { get; set; }
}

class Program
{
    static void Main(string[] args)
    {
        // 3. 创建ML.NET环境（类似数据库连接，是所有操作的基础）
        var mlContext = new MLContext();

        // 4. 准备训练数据（实际项目中可以从Excel、数据库读取，这里用模拟数据）
        var trainingData = new List<HouseData>
        {
            new HouseData { Size = 1400, Bedrooms = 3, Bathrooms = 2, Price = 250000 },
            new HouseData { Size = 1600, Bedrooms = 4, Bathrooms = 2.5f, Price = 300000 },
            new HouseData { Size = 1200, Bedrooms = 2, Bathrooms = 1.5f, Price = 200000 },
            new HouseData { Size = 1800, Bedrooms = 4, Bathrooms = 3, Price = 350000 },
            new HouseData { Size = 2000, Bedrooms = 5, Bathrooms = 3.5f, Price = 400000 },
            // 实际训练需要更多数据，这里只是示例
        };

        // 5. 将数据转换成ML.NET能处理的IDataView
        IDataView dataView = mlContext.Data.LoadFromEnumerable(trainingData);

        // 6. 定义训练管道：数据处理→特征工程→模型算法
        var pipeline = mlContext.Transforms.Concatenate("Features", nameof(HouseData.Size), nameof(HouseData.Bedrooms), nameof(HouseData.Bathrooms))
            // 特征归一化：让不同量级的特征（比如面积1000+，卧室数2-5）统一范围，提高模型精度
            .Append(mlContext.Transforms.NormalizeMinMax("Features"))
            // 选择回归算法（房价预测是连续值，用回归），这里用SDCA算法（ML.NET推荐的高效算法）
            .Append(mlContext.Regression.Trainers.Sdca(labelColumnName: nameof(HouseData.Price), featureColumnName: "Features"));

        // 7. 训练模型（核心步骤，相当于让模型“学习”数据规律）
        Console.WriteLine("开始训练模型...");
        var model = pipeline.Fit(dataView);
        Console.WriteLine("模型训练完成！");

        // 8. 用训练好的模型做预测（测试数据：面积1500，3卧室，2浴室）
        var predictionEngine = mlContext.Model.CreatePredictionEngine<HouseData, HousePricePrediction>(model);
        var testHouse = new HouseData { Size = 1500, Bedrooms = 3, Bathrooms = 2 };
        var prediction = predictionEngine.Predict(testHouse);

        // 9. 输出预测结果
        Console.WriteLine($"预测房价：{prediction.PredictedPrice:C}");
    }
}

ML.NET 快速入门与实践教程：机器学习框架

#ML.NET #机器学习 #开源框架 #跨平台 #ML.Net入门

看完本文有收获？请转发分享给更多人