千淘万漉虽辛苦,吹尽狂沙始到金。嗨,大家好!我是码农刚子。今天和大家聊一聊ML.NET 如何快速入门。
ML.NET 是微软为 .NET 开发者量身打造的机器学习框架,让你无需离开熟悉的 C# 环境,就能将智能功能集成到应用中。本文将从一个简单的成绩预测案例入手,逐步带你掌握数据加载、模型训练、评估和预测的全流程,后面有时间还会介绍能大幅提升效率的 Model Builder 可视化工具。
ML.NET 简介与环境搭建
什么是 ML.NET?
ML.NET 是一个免费的、开源的、跨平台的机器学习框架,专为 .NET 开发者设计 。它允许你在 .NET 应用程序(C# 或 F#)中构建、训练和部署自定义机器学习模型,而无需具备深厚的 Python 或 R 语言机器学习专业知识 。无论是 .NET Core、.NET 5/8 还是 .NET Framework,ML.NET 都能完美支持 。
安装 ML.NET
在你开始编码之前,需要先安装 ML.NET NuGet 包。你可以通过 Visual Studio 的 NuGet 包管理器,或使用 .NET CLI 命令行工具来安装:
dotnet add package Microsoft.ML
除了核心库,根据你的任务场景,可能还需要其他包,比如用于数据操作的 Microsoft.ML.DataView 或包含特定算法的 Microsoft.ML.Trainers 。
核心概念:理解 ML.NET 的工作流程
使用 ML.NET 构建机器学习模型遵循一个标准化的流程,理解这些核心概念是入门的关键 。
- MLContext:一切操作的起点。它像一个“上下文”或“工厂”,提供了数据加载、模型训练、模型评估等所有 API 的入口 。你可以把它想象成
DbContext之于 EF Core。 - IDataView:ML.NET 的核心数据抽象。它不是一个简单的内存集合,而是一个灵活、高效的表格数据表示形式,用于数据加载、转换和训练。你可以从 CSV、SQL 数据库或内存集合中创建它 。
- 数据处理管道:在训练模型之前,原始数据通常需要进行清洗、转换和特征工程。ML.NET 允许你将一系列的数据转换操作(如连接特征、处理缺失值、文本向量化)组合成一个管道 。
- 训练器 (Trainer) :即机器学习算法。ML.NET 内置了丰富的训练器,用于解决回归、分类、聚类、异常检测等不同任务 。
- 模型 (ITransformer) :数据管道和训练器组合在一起,对数据“拟合”后生成的产物。这个模型可以被保存、加载,并用于对新数据进行预测 。
- 预测引擎 (PredictionEngine) :模型训练好后,你需要使用
CreatePredictionEngine创建一个预测引擎,它接收单个输入数据对象,并输出预测结果 。
下图清晰地展示了从数据到最终预测的完整流程:
- 准备数据源(CSV, txt, 数据库等)
- MLContext.Create() 加载数据至 IDataView
- 定义数据处理管道(特征提取, 连接, 转换等)
- 追加训练器(如 Sdca 回归)
- 在训练数据上调用 Fit 方法
- 得到训练完成的模型(ITransformer)
- 保存模型为:Model.zip
- 创建 PredictionEngine 用于单次预测
- 输入新数据,然后输出预测结果
实践案例:学生考试成绩预测(回归)
让我们通过一个最简单的例子——根据学习时长预测考试成绩,来动手实践 ML.NET 的整个工作流。这是经典的回归任务,即预测一个连续的数值 。
1. 准备数据
首先,创建一个名为 data.csv 的文件,内容如下:
StudyHours,Score
1,50
2,60
3,65
4,70
5,75
2. 定义数据类
在你的 C# 项目中,定义两个类来映射数据和预测结果 。
using Microsoft.ML.Data;
// 用于加载输入数据
public class StudentData
{
[LoadColumn(0)] // 指定在数据文件中的列索引
public float StudyHours { get; set; }
[LoadColumn(1)]
public float Score { get; set; } // 这是标签(Label),即我们要预测的值
}
// 用于存储预测结果
public class StudentPrediction
{
[ColumnName("Score")] // 指定输出列的名称,需与模型输出的列名一致
public float PredictedScore { get; set; }
}
3. 构建、训练并评估模型
现在,在 Program.cs 中编写核心逻辑 。
using Microsoft.ML;
// 1. 初始化 MLContext
var mlContext = new MLContext(seed: 0); // 设置随机种子以确保结果可重现
// 2. 加载数据
string dataPath = "data.csv";
var data = mlContext.Data.LoadFromTextFile<StudentData>(dataPath, separatorChar: ',', hasHeader: true);
// 3. 分割数据集为训练集和测试集
var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);
var trainData = trainTestSplit.TrainSet; // 用于训练的数据
var testData = trainTestSplit.TestSet; // 用于评估的数据
// 4. 构建数据处理和训练管道
// - Concatenate: 将所有特征列(这里是 StudyHours)合并到一个名为 "Features" 的列中,这是 ML.NET 的默认输入列名
// - Append: 追加一个回归训练器(SDCA 算法)
var pipeline = mlContext.Transforms.Concatenate("Features", new[] { "StudyHours" })
.Append(mlContext.Regression.Trainers.Sdca(labelColumnName: "Score", maximumNumberOfIterations: 100));
// 5. 在训练集上训练模型
var model = pipeline.Fit(trainData);
// 6. 在测试集上评估模型性能
var predictions = model.Transform(testData);
var metrics = mlContext.Regression.Evaluate(predictions, labelColumnName: "Score", scoreColumnName: "Score");
// 7. 输出评估指标
Console.WriteLine($"模型评估指标:");
Console.WriteLine($" R^2: {metrics.RSquared:F2}"); // 决定系数,越接近1越好
Console.WriteLine($" 平均绝对误差: {metrics.MeanAbsoluteError:F2}");
Console.WriteLine($" 均方根误差: {metrics.RootMeanSquaredError:F2}");
// 8. 使用模型进行单次预测
var predictionEngine = mlContext.Model.CreatePredictionEngine<StudentData, StudentPrediction>(model);
var newStudent = new StudentData { StudyHours = 6 };
var predictedScore = predictionEngine.Predict(newStudent);
Console.WriteLine($"\n预测结果:");
Console.WriteLine($"如果学习 {newStudent.StudyHours} 小时,预测成绩为 {predictedScore.PredictedScore:F2}");
4. 运行与结果
运行你的应用程序,你将看到类似下面的输出:
模型评估指标:
R^2: 0.92
平均绝对误差: 1.25
均方根误差: 1.58
预测结果:
如果学习 6 小时,预测成绩为 80.45
恭喜!你已经成功构建并训练了你的第一个 ML.NET 模型。
还有类似的模型可以自己去尝试练习:房价预测,和以上示例相同逻辑,代码非常的简单。
// 1. 定义数据模型:输入特征(用来预测的变量)和输出标签(要预测的结果)
// 房价的影响因素:面积、卧室数量、浴室数量
using Microsoft.ML;
using Microsoft.ML.Data;
public class HouseData
{
[LoadColumn(0)] // 对应数据文件的第1列(面积)
public float Size { get; set; }
[LoadColumn(1)] // 对应数据文件的第2列(卧室数量)
public float Bedrooms { get; set; }
[LoadColumn(2)] // 对应数据文件的第3列(浴室数量)
public float Bathrooms { get; set; }
[LoadColumn(3)] // 对应数据文件的第4列(房价,标签)
public float Price { get; set; }
}
// 2. 定义预测结果模型:只包含要预测的标签
public class HousePricePrediction
{
[ColumnName("Score")] // Score是ML.NET默认的预测结果列名
public float PredictedPrice { get; set; }
}
class Program
{
static void Main(string[] args)
{
// 3. 创建ML.NET环境(类似数据库连接,是所有操作的基础)
var mlContext = new MLContext();
// 4. 准备训练数据(实际项目中可以从Excel、数据库读取,这里用模拟数据)
var trainingData = new List<HouseData>
{
new HouseData { Size = 1400, Bedrooms = 3, Bathrooms = 2, Price = 250000 },
new HouseData { Size = 1600, Bedrooms = 4, Bathrooms = 2.5f, Price = 300000 },
new HouseData { Size = 1200, Bedrooms = 2, Bathrooms = 1.5f, Price = 200000 },
new HouseData { Size = 1800, Bedrooms = 4, Bathrooms = 3, Price = 350000 },
new HouseData { Size = 2000, Bedrooms = 5, Bathrooms = 3.5f, Price = 400000 },
// 实际训练需要更多数据,这里只是示例
};
// 5. 将数据转换成ML.NET能处理的IDataView
IDataView dataView = mlContext.Data.LoadFromEnumerable(trainingData);
// 6. 定义训练管道:数据处理→特征工程→模型算法
var pipeline = mlContext.Transforms.Concatenate("Features", nameof(HouseData.Size), nameof(HouseData.Bedrooms), nameof(HouseData.Bathrooms))
// 特征归一化:让不同量级的特征(比如面积1000+,卧室数2-5)统一范围,提高模型精度
.Append(mlContext.Transforms.NormalizeMinMax("Features"))
// 选择回归算法(房价预测是连续值,用回归),这里用SDCA算法(ML.NET推荐的高效算法)
.Append(mlContext.Regression.Trainers.Sdca(labelColumnName: nameof(HouseData.Price), featureColumnName: "Features"));
// 7. 训练模型(核心步骤,相当于让模型“学习”数据规律)
Console.WriteLine("开始训练模型...");
var model = pipeline.Fit(dataView);
Console.WriteLine("模型训练完成!");
// 8. 用训练好的模型做预测(测试数据:面积1500,3卧室,2浴室)
var predictionEngine = mlContext.Model.CreatePredictionEngine<HouseData, HousePricePrediction>(model);
var testHouse = new HouseData { Size = 1500, Bedrooms = 3, Bathrooms = 2 };
var prediction = predictionEngine.Predict(testHouse);
// 9. 输出预测结果
Console.WriteLine($"预测房价:{prediction.PredictedPrice:C}");
}
}
#ML.NET #机器学习 #开源框架 #跨平台 #ML.Net入门
看完本文有收获?请转发分享给更多人