4、AI的"眼睛：计算机视觉AI的"眼睛：计算机视觉一、计算机如何"看"世界？ 1.1 从像素说起想象一下，当你看到

AI的"眼睛：计算机视觉

一、计算机如何"看"世界？

1.1 从像素说起

想象一下，当你看到一张照片时，你的眼睛能立即识别出照片中的内容，这就是人脑神奇的地方。但计算机看到的是什么呢？计算机能处理的都是各种形态的数据，最后转成0和1

一张照片对于计算机看到的是一个数字矩阵：

黑白图片：每个像素是0-255之间的数字
彩色图片：每个像素是(R,G,B)三个数字的组合

1.2 图像预处理：让计算机更容易"看"

就像我们看东西时会眯眼睛、调整角度一样，计算机也需要对图像进行预处理，比如转换颜色空间，变成灰度图，进行边缘检测等。

这里我会加一个python实现的示例，请参考：


# 基础图像处理示例
import cv2
import numpy as np
import matplotlib.pyplot as plt

def show_image_info(image_path):
    # 读取图片
    img = cv2.imread(image_path)
    if img is None:
        print(f"无法读取图片: {image_path}")
        return
    
    # 转换颜色空间（OpenCV使用BGR，而matplotlib使用RGB）
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    
    # 显示原始图片
    plt.figure(figsize=(15, 5))
    plt.subplot(131)
    plt.imshow(img_rgb)
    plt.title('Original Image')
    
    # 显示图片信息
    print(f"图片形状: {img.shape}")
    print(f"图片数据类型: {img.dtype}")
    print("\n左上角5x5像素的值:")
    print(img[0:5, 0:5])
    
    # 显示灰度图
    gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    plt.subplot(132)
    plt.imshow(gray_img, cmap='gray')
    plt.title('Gray Image')


    # 使用Canny算子进行边缘检测
    # 参数100是低阈值,200是高阈值
    # 低于低阈值的像素点会被认为不是边缘
    # 高于高阈值的像素点会被认为是边缘
    # 两个阈值之间的像素点,如果与确定的边缘像素点相连,则认为也是边缘
    edges = cv2.Canny(gray_img, 100, 200)
    
    # 显示边缘检测结果
    plt.subplot(133)  # 123表示1行2列的第3个位置
    plt.imshow(edges, cmap='gray')  # 使用灰度colormap显示边缘图
    plt.title('Edges')  # 设置标题为"Edges"
    
    plt.show()

if __name__ == "__main__":
    # 可以替换为你自己的图片路径
    image_path = "people.jpg"
    show_image_info(image_path)

二、计算机视觉的实际应用

2.1 人脸检测

使用opencv 库，使用预训练的模型Haar进行人脸检测，haarcascade_frontalface_default.xml 是一个预训练的 Haar 特征级联分类器模型文件，专门用于检测图像中的正面人脸，它包含了一系列的特征和阈值。这些特征和阈值是通过大量的正面人脸图像（正样本）和非人脸图像（负样本）训练得到的。

你可以理解为这个xml文件是人脸的特征数据，图片的像素提取特征之后与人脸特征对比，不是简单的对比需要多级分层对比，只有所含级联都输出为人脸，才得出是人脸的结果。

举一个简单的例子： Haar要识别苹果，它有一系列的规则（特征，不是文字描述出来，而是通过矩阵来表示特征值）：

水果是不是圆形的？
颜色是否是红色或者绿色？
表面是否有光泽，等等。

让我们实现一个简单的人脸检测程序，请参考：

# 人脸检测示例
import cv2
import matplotlib.pyplot as plt

def detect_faces(image_path):
    # 加载人脸检测器
    # 创建一个级联分类器对象用于人脸检测
    # 加载预训练的Haar特征分类器模型文件
    # haarcascade_frontalface_default.xml 包含了人脸检测所需的特征数据
    face_cascade = cv2.CascadeClassifier(
        cv2.data.haarcascades + 'haarcascade_frontalface_default.xml'
    )
    
    # 读取图片
    img = cv2.imread(image_path)
    if img is None:
        print(f"无法读取图片: {image_path}")
        return
    
    # 转换为灰度图，人脸级联检测必须要用灰度图
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # 检测人脸
    faces = face_cascade.detectMultiScale(gray, 1.1, 4)
    
    # 在检测到的人脸周围画框
    for (x, y, w, h) in faces:
        cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)
    
    # 显示结果
    plt.figure(figsize=(10, 6))
    plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
    plt.title(f'find {len(faces)} faces')
    plt.axis('off')
    plt.show()

if __name__ == "__main__":
    # 可以替换为你自己的图片路径
    image_path = "people.jpg"
    detect_faces(image_path)

2.2 物体识别

使用预训练的模型进行物体识别，请参考：

import ssl
import torch
from torchvision.models import resnet50, ResNet50_Weights
from torchvision import transforms
from PIL import Image

# 解决SSL证书问题
ssl._create_default_https_context = ssl._create_unverified_context

def load_imagenet_labels():
    """加载ImageNet标签（扩展版本）"""
    labels = {
        # 动物
        281: "虎斑猫", 282: "狗", 283: "马", 284: "绵羊",
        285: "奶牛", 286: "大象", 287: "棕熊", 288: "斑马",
        289: "长颈鹿", 290: "袋鼠", 291: "考拉", 292: "熊猫",
        293: "狮子", 294: "老虎", 295: "猎豹", 296: "北极熊",
    }
    return labels

def predict_image(image_path):
    try:
        # 加载预训练模型
        model = resnet50(weights=ResNet50_Weights.DEFAULT)
        model.eval()

        # 图像预处理
        transform = transforms.Compose([
            transforms.Resize(256),
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize(
                mean=[0.485, 0.456, 0.406], 
                std=[0.229, 0.224, 0.225]
            )
        ])

        # 加载并处理图片
        image = Image.open(image_path)
        input_tensor = transform(image).unsqueeze(0)

        # 预测
        with torch.no_grad():
            output = model(input_tensor)
            
        # 获取预测结果
        probabilities = torch.nn.functional.softmax(output[0], dim=0)
        top5_prob, top5_catid = torch.topk(probabilities, 5)
        
        # 加载标签
        labels = load_imagenet_labels()
        
        # 显示预测结果
        print("\n图片预测结果:")
        print("-" * 40)
        print(f"{'预测类别':<15} {'可能性':<10} {'类别ID':<8}")
        print("-" * 40)
        
        for i in range(5):
            catid = top5_catid[i].item()
            prob = top5_prob[i].item() * 100
            label = labels.get(catid, f"未知物体")
            if label == "未知物体":
                print(f"{label:<15} {prob:>6.2f}%    (ID: {catid})")
            else:
                print(f"{label:<15} {prob:>6.2f}%")
        
        print("-" * 40)
        print("注：如果显示'未知物体'，说明该物体不在我们的常见物品列表中")

    except FileNotFoundError:
        print(f"找不到图片文件: {image_path}")
    except Exception as e:
        print(f"处理图片时出错: {e}")

if __name__ == "__main__":
    # 可以替换为你自己的图片路径
    image_path = "lion.jpg"
    predict_image(image_path)

运行结果（效果不好，可以自行替换别的预训练模型）

图片预测结果:
----------------------------------------
预测类别            可能性        类别ID    
----------------------------------------
考拉               31.35%
大象                0.68%
未知物体              0.26%    (ID: 220)
未知物体              0.26%    (ID: 200)
未知物体              0.20%    (ID: 260)
----------------------------------------
注：如果显示'未知物体'，说明该物体不在我们的常见物品列表中