详解YOLO目标检测核心参数与输出1. 数据输入与增强参数这类参数控制着图像在进入网络前的样子，直接影响模型的泛化能力

1. 数据输入与增强参数

这类参数控制着图像在进入网络前的样子，直接影响模型的泛化能力和鲁棒性。

这类参数定义了神经网络的长相和容量，通常在模型设计阶段就决定了（如 depth_multiple 和 width_multiple）。

这类参数控制着模型如何从数据中学习，是调参的重中之重。

通俗理解：

例子：

效果：

通俗理解：

例子：

效果：

除了 conf 和 iou，推理时还有两个重要参数。

这类参数用于评价模型，在验证集上计算。

总结

模型最终输出的是一堆原始的、未经筛选的预测结果，它们通常是一个巨大的张量（Tensor）。以之前提到的YOLOv8s为例，假设输入一张 640x640 的图片，它的原始输出形状大致是 [1, 84, 8400] 。

这个张量可以拆解为三个维度来理解：

1: 批次大小。指一次输入了几张图片，这里为1。
84: 每个预测框的“特征向量” 。它描述了每个潜在目标的信息。这84维包含了：
- 4：边界框坐标。通常是 [x_center, y_center, width, height] 的相对坐标（值在0到1之间）。
- 80：类别概率。因为YOLOv8s是在COCO数据集上预训练的，有80个类别，这里就是模型认为该框属于每个类别的概率值。
8400: 候选目标的数量。这8400个“候选人”是在不同特征图尺度（如80x80, 40x40, 20x20）上的每个网格点生成的初始预测框。

检测结果图片上干净、准确的框，是经过了复杂后处理的。模型输出的 [1, 84, 8400] 只是一个起点，它包含大量冗余和低质量的框。

所以，完整的流程是：

模型前向推理：输入图片 --> 输出原始张量 ([1, 84, 8400])，包含了8400个候选框的原始信息。
解码坐标：将相对坐标转换为相对于原图的实际像素坐标。
置信度过滤：这就是你之前问的 conf 参数。遍历所有8400个候选框，将每个框最大的类别概率作为它的置信度得分。丢掉所有得分 < conf 的框。这一步通常能过滤掉90%以上的候选框。
非极大值抑制（NMS） ：这就是你之前问的 iou 参数。对剩下的框，如果它们属于同一类，且相互重叠的面积（IoU） > iou阈值，则认为它们是在检测同一个物体，只保留其中得分最高的那个。
最终输出：经过上述层层筛选，得到最终的可视化结果。在代码中（如 results[0].boxes.data），你会看到一个形状为 [N, 6] 的张量，其中 N 是最终检测到的目标数量（远小于8400）。这6列通常是：
- [x1, y1, x2, y2, confidence, class]
- x1, y1, x2, y2: 边界框的左上角和右下角坐标（像素值）。
- confidence: 这个框最终的置信度分数。
- class: 检测到的目标所属的类别ID。

可以把这个过程想象成一次海选：