6、Python性能优化与分析Python性能优化与分析 1. 性能优化概述 Python作为一种解释型语言，在性能方面

Python性能优化与分析

1. 性能优化概述

Python作为一种解释型语言，在性能方面可能不如编译型语言。然而，通过合理的优化，可以显著提高Python程序的执行效率。性能优化是一个系统性工作，需要遵循科学的方法论。

graph TD
    A[性能优化流程] --> B[性能分析]
    B --> C[识别瓶颈]
    C --> D[优化代码]
    D --> E[验证改进]
    E --> B
    
    style A fill:#f9d,stroke:#333,stroke-width:2px
    style B fill:#bbf,stroke:#333,stroke-width:1px
    style C fill:#bbf,stroke:#333,stroke-width:1px
    style D fill:#bbf,stroke:#333,stroke-width:1px
    style E fill:#bbf,stroke:#333,stroke-width:1px

1.1 性能优化的原则

先分析后优化：在开始优化之前，先使用性能分析工具确定瓶颈
遵循二八法则：通常80%的执行时间花在20%的代码上，集中精力优化这些热点
可测量的改进：每次优化后都要测量性能变化，确保改进是真实的
权衡取舍：性能优化可能会降低代码可读性或增加复杂性，需要权衡
避免过早优化：过早优化是万恶之源，先确保代码正确，再考虑优化

2. 性能分析工具

2.1 时间分析工具

time模块

import time

start_time = time.time()
# 执行代码
result = do_something()
end_time = time.time()

execution_time = end_time - start_time
print(f"执行时间: {execution_time:.6f} 秒")

timeit模块

import timeit

# 测量单行代码
time_taken = timeit.timeit('[x**2 for x in range(1000)]', number=10000)
print(f"执行时间: {time_taken:.6f} 秒")

# 测量函数
def test_function():
    return [x**2 for x in range(1000)]

time_taken = timeit.timeit(test_function, number=10000)
print(f"函数执行时间: {time_taken:.6f} 秒")

# 比较不同实现
setup = "import random; data = [random.random() for _ in range(1000)]"
list_comp = timeit.timeit("sorted(data)", setup=setup, number=1000)
list_sort = timeit.timeit("data.sort()", setup=setup, number=1000)
print(f"sorted(): {list_comp:.6f} 秒")
print(f"list.sort(): {list_sort:.6f} 秒")

2.2 性能分析器

cProfile

import cProfile
import pstats
from pstats import SortKey

# 直接分析函数
def expensive_function():
    result = 0
    for i in range(1000000):
        result += i
    return result

cProfile.run('expensive_function()')

# 保存分析结果到文件
cProfile.run('expensive_function()', 'profile_stats')

# 分析结果
p = pstats.Stats('profile_stats')
p.strip_dirs().sort_stats(SortKey.CUMULATIVE).print_stats(10)  # 显示累计时间最长的10个函数

使用上下文管理器

import cProfile
import pstats
import io

def profile_func(func):
    def wrapper(*args, **kwargs):
        pr = cProfile.Profile()
        pr.enable()
        result = func(*args, **kwargs)
        pr.disable()
        s = io.StringIO()
        ps = pstats.Stats(pr, stream=s).sort_stats('cumulative')
        ps.print_stats(10)
        print(s.getvalue())
        return result
    return wrapper

@profile_func
def expensive_function():
    result = 0
    for i in range(1000000):
        result += i
    return result

expensive_function()

2.3 内存分析工具

memory_profiler

# 安装
pip install memory_profiler

from memory_profiler import profile

@profile
def memory_intensive_function():
    # 创建大型列表
    big_list = [i for i in range(10000000)]
    # 处理列表
    result = sum(big_list)
    return result

memory_intensive_function()

objgraph

# 安装
pip install objgraph

import objgraph

# 跟踪对象数量
objgraph.show_growth()
# 创建一些对象
x = []
y = [x, [x], dict(x=x)]
# 再次检查对象数量
objgraph.show_growth()

# 查找引用
objgraph.show_backrefs([x], filename='backrefs.png')

2.4 可视化性能分析

SnakeViz

# 安装
pip install snakeviz

# 生成性能分析文件
python -m cProfile -o program.prof my_script.py

# 可视化
snakeviz program.prof

py-spy

# 安装
pip install py-spy

# 实时监控
py-spy top --pid <进程ID>

# 生成火焰图
py-spy record -o profile.svg --pid <进程ID>

3. 代码优化技巧

3.1 数据结构选择

graph TD
    A[选择合适的数据结构] --> B[列表]
    A --> C[字典]
    A --> D[集合]
    A --> E[元组]
    A --> F[数组]
    A --> G[专用数据结构]
    
    B --> B1["有序、可变、索引访问"]
    C --> C1["键值对、快速查找"]
    D --> D1["唯一元素、成员检测"]
    E --> E1["不可变、轻量级"]
    F --> F1["同质数据、内存效率"]
    G --> G1["特定问题的优化结构"]
    
    style A fill:#f9d,stroke:#333,stroke-width:2px

常见数据结构的时间复杂度

操作	列表	字典	集合	数组
访问元素	O(1)	O(1)	-	O(1)
插入元素	O(n)	O(1)	O(1)	O(n)
删除元素	O(n)	O(1)	O(1)	O(n)
查找元素	O(n)	O(1)	O(1)	O(n)
遍历	O(n)	O(n)	O(n)	O(n)

数据结构选择示例

# 低效：使用列表进行频繁的成员检测
def find_common_slow(list1, list2):
    common = []
    for item in list1:
        if item in list2:  # O(n) 操作
            common.append(item)
    return common

# 高效：使用集合进行成员检测
def find_common_fast(list1, list2):
    set2 = set(list2)  # 转换为集合
    return [item for item in list1 if item in set2]  # O(1) 成员检测

# 低效：使用列表存储键值对
def get_value_slow(data, key):
    for k, v in data:  # O(n) 查找
        if k == key:
            return v
    return None

# 高效：使用字典存储键值对
def get_value_fast(data, key):
    return data.get(key)  # O(1) 查找

3.2 算法优化

避免不必要的计算

# 低效：重复计算
def fibonacci_slow(n):
    if n <= 1:
        return n
    return fibonacci_slow(n-1) + fibonacci_slow(n-2)  # 大量重复计算

# 高效：使用缓存
from functools import lru_cache

@lru_cache(maxsize=None)
def fibonacci_fast(n):
    if n <= 1:
        return n
    return fibonacci_fast(n-1) + fibonacci_fast(n-2)

# 更高效：迭代实现
def fibonacci_iterative(n):
    if n <= 1:
        return n
    a, b = 0, 1
    for _ in range(2, n + 1):
        a, b = b, a + b
    return b

减少循环中的操作

# 低效：在循环中执行不必要的操作
def process_data_slow(data):
    result = []
    for item in data:
        if len(data) > 0:  # 每次迭代都检查，但数据长度不变
            result.append(item * 2)
    return result

# 高效：将不变的条件移出循环
def process_data_fast(data):
    if len(data) == 0:
        return []
    result = []
    for item in data:
        result.append(item * 2)
    return result

# 更高效：使用列表推导式
def process_data_fastest(data):
    if not data:
        return []
    return [item * 2 for item in data]

3.3 使用内置函数和模块

# 低效：自定义实现
def sum_squares_slow(numbers):
    total = 0
    for num in numbers:
        total += num ** 2
    return total

# 高效：使用内置函数
def sum_squares_fast(numbers):
    return sum(num ** 2 for num in numbers)

# 低效：手动实现统计
def calculate_stats_slow(numbers):
    total = sum(numbers)
    count = len(numbers)
    mean = total / count
    
    squared_diff_sum = 0
    for num in numbers:
        squared_diff_sum += (num - mean) ** 2
    variance = squared_diff_sum / count
    std_dev = variance ** 0.5
    
    return mean, variance, std_dev

# 高效：使用statistics模块
import statistics

def calculate_stats_fast(numbers):
    mean = statistics.mean(numbers)
    variance = statistics.variance(numbers)
    std_dev = statistics.stdev(numbers)
    return mean, variance, std_dev

3.4 使用生成器和迭代器

# 低效：一次性加载所有数据到内存
def process_large_file_slow(filename):
    with open(filename, 'r') as f:
        lines = f.readlines()  # 加载所有行到内存
    
    results = []
    for line in lines:
        results.append(line.strip().upper())
    return results

# 高效：使用生成器逐行处理
def process_large_file_fast(filename):
    with open(filename, 'r') as f:
        for line in f:  # 逐行读取，不占用大量内存
            yield line.strip().upper()

# 使用示例
for processed_line in process_large_file_fast('large_file.txt'):
    print(processed_line)

3.5 并行和并发处理

多线程

import threading
import time

def process_chunk(chunk, results, index):
    # 处理数据块
    result = sum(x ** 2 for x in chunk)
    results[index] = result

def parallel_sum_squares(data, num_threads=4):
    # 划分数据
    chunk_size = len(data) // num_threads
    chunks = [data[i:i+chunk_size] for i in range(0, len(data), chunk_size)]
    
    # 存储结果
    results = [0] * len(chunks)
    
    # 创建线程
    threads = []
    for i, chunk in enumerate(chunks):
        thread = threading.Thread(target=process_chunk, args=(chunk, results, i))
        threads.append(thread)
        thread.start()
    
    # 等待所有线程完成
    for thread in threads:
        thread.join()
    
    # 合并结果
    return sum(results)

多进程

from multiprocessing import Pool
import time

def square(x):
    return x ** 2

def parallel_sum_squares(data, num_processes=4):
    with Pool(processes=num_processes) as pool:
        results = pool.map(square, data)
    return sum(results)

# 使用示例
if __name__ == '__main__':
    data = list(range(10000000))
    
    start = time.time()
    result = sum(x ** 2 for x in data)
    print(f"串行处理时间: {time.time() - start:.2f}秒")
    
    start = time.time()
    result = parallel_sum_squares(data)
    print(f"并行处理时间: {time.time() - start:.2f}秒")

异步IO

import asyncio
import aiohttp
import time

async def fetch_url(session, url):
    async with session.get(url) as response:
        return await response.text()

async def fetch_all_urls(urls):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_url(session, url) for url in urls]
        return await asyncio.gather(*tasks)

# 使用示例
async def main():
    urls = [
        'http://example.com',
        'http://example.org',
        'http://example.net',
        # 更多URL...
    ]
    
    start = time.time()
    results = await fetch_all_urls(urls)
    print(f"异步获取 {len(urls)} 个URL用时: {time.time() - start:.2f}秒")
    
    # 对比：同步获取
    start = time.time()
    import requests
    sync_results = [requests.get(url).text for url in urls]
    print(f"同步获取 {len(urls)} 个URL用时: {time.time() - start:.2f}秒")

if __name__ == '__main__':
    asyncio.run(main())

4. 内存优化

4.1 减少内存使用

flowchart TD
    A[内存优化策略] --> B[使用生成器]
    A --> C[使用__slots__]
    A --> D[避免内存泄漏]
    A --> E[使用适当的数据类型]
    A --> F[延迟加载]
    
    B --> B1["避免一次性加载大量数据"]
    C --> C1["减少实例字典开销"]
    D --> D1["及时释放不需要的引用"]
    E --> E1["使用array、numpy等节省内存"]
    F --> F1["按需加载数据"]
    
    style A fill:#f9d,stroke:#333,stroke-width:2px

使用slots

# 普通类
class PointRegular:
    def __init__(self, x, y):
        self.x = x
        self.y = y

# 使用__slots__的类
class PointSlots:
    __slots__ = ['x', 'y']
    
    def __init__(self, x, y):
        self.x = x
        self.y = y

# 内存使用比较
import sys

regular_points = [PointRegular(i, i) for i in range(1000000)]
slots_points = [PointSlots(i, i) for i in range(1000000)]

regular_size = sys.getsizeof(regular_points[0]) * len(regular_points)
slots_size = sys.getsizeof(slots_points[0]) * len(slots_points)

print(f"普通类对象大小: {regular_size / 1024 / 1024:.2f} MB")
print(f"使用__slots__的类对象大小: {slots_size / 1024 / 1024:.2f} MB")
print(f"节省: {(regular_size - slots_size) / regular_size * 100:.2f}%")

使用生成器代替列表

# 内存密集型：使用列表
def get_squares_list(n):
    return [i ** 2 for i in range(n)]

# 内存高效：使用生成器
def get_squares_generator(n):
    for i in range(n):
        yield i ** 2

# 内存使用比较
import sys
import tracemalloc

# 列表版本
tracemalloc.start()
squares_list = get_squares_list(10000000)
list_memory = tracemalloc.get_traced_memory()[1]
tracemalloc.stop()

# 生成器版本
tracemalloc.start()
squares_gen = get_squares_generator(10000000)
next(squares_gen)  # 启动生成器
gen_memory = tracemalloc.get_traced_memory()[1]
tracemalloc.stop()

print(f"列表内存使用: {list_memory / 1024 / 1024:.2f} MB")
print(f"生成器内存使用: {gen_memory / 1024 / 1024:.2f} MB")

4.2 避免内存泄漏

循环引用

import gc

class Node:
    def __init__(self, name):
        self.name = name
        self.children = []
    
    def add_child(self, child):
        self.children.append(child)

# 创建循环引用
def create_cycle():
    a = Node("A")
    b = Node("B")
    a.add_child(b)
    b.add_child(a)  # 循环引用
    
    # 局部变量在函数结束时会被销毁，但a和b相互引用，不会被垃圾回收

# 解决方法：使用弱引用
import weakref

class NodeWithWeakRef:
    def __init__(self, name):
        self.name = name
        self.children = []
        self.parents = []  # 存储弱引用
    
    def add_child(self, child):
        self.children.append(child)
        child.parents.append(weakref.ref(self))

# 手动触发垃圾回收
gc.collect()

大型对象缓存

import functools

# 不限制缓存大小，可能导致内存泄漏
@functools.lru_cache(maxsize=None)
def compute_expensive_unlimited(n):
    # 假设这是一个计算密集型函数
    return n ** 100

# 限制缓存大小
@functools.lru_cache(maxsize=100)
def compute_expensive_limited(n):
    # 同样的计算密集型函数
    return n ** 100

# 手动清除缓存
compute_expensive_limited.cache_clear()

4.3 使用适当的数据类型

使用array代替list

import array
import sys

# 使用列表存储整数
int_list = list(range(10000))

# 使用array存储整数
int_array = array.array('i', range(10000))

print(f"列表大小: {sys.getsizeof(int_list)} 字节")
print(f"数组大小: {sys.getsizeof(int_array)} 字节")

使用NumPy数组

import numpy as np
import sys

# 普通Python列表
py_list = list(range(10000))

# NumPy数组
np_array = np.arange(10000)

print(f"Python列表大小: {sys.getsizeof(py_list)} 字节")
print(f"NumPy数组大小: {sys.getsizeof(np_array) + np_array.nbytes} 字节")

# 操作性能比较
import time

# 列表操作
start = time.time()
result_list = [x ** 2 for x in py_list]
list_time = time.time() - start

# NumPy操作
start = time.time()
result_np = np_array ** 2
np_time = time.time() - start

print(f"列表操作时间: {list_time:.6f} 秒")
print(f"NumPy操作时间: {np_time:.6f} 秒")
print(f"NumPy加速比: {list_time / np_time:.2f}x")

5. 编译和扩展

5.1 使用PyPy

PyPy是Python的一个替代解释器，使用即时编译(JIT)技术，可以显著提高纯Python代码的执行速度。

# 安装PyPy
# 从官网下载: https://www.pypy.org/download.html

# 使用PyPy运行脚本
pypy script.py

# 比较CPython和PyPy性能
time python script.py
time pypy script.py

5.2 使用Cython

Cython是Python的超集，允许调用C函数并声明C类型的变量，可以将Python代码编译为C扩展模块。

# 安装Cython
pip install cython

# 普通Python函数 (slow.py)
def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

# Cython版本 (fast.pyx)
def fibonacci(int n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

# setup.py
from setuptools import setup
from Cython.Build import cythonize

setup(
    ext_modules = cythonize("fast.pyx")
)

# 编译Cython模块
python setup.py build_ext --inplace

# 使用编译后的模块
python -c "import fast; print(fast.fibonacci(30))"

5.3 使用Numba

Numba是一个JIT编译器，可以将Python函数编译为优化的机器代码。

# 安装Numba
pip install numba

from numba import jit
import numpy as np
import time

# 普通Python函数
def sum_of_squares(arr):
    result = 0.0
    for i in range(arr.shape[0]):
        result += arr[i] ** 2
    return result

# 使用Numba JIT编译的函数
@jit(nopython=True)
def sum_of_squares_numba(arr):
    result = 0.0
    for i in range(arr.shape[0]):
        result += arr[i] ** 2
    return result

# 性能比较
arr = np.random.random(10000000)

# 预热JIT编译器
sum_of_squares_numba(arr[:100])

# 测试普通函数
start = time.time()
result1 = sum_of_squares(arr)
py_time = time.time() - start
print(f"Python时间: {py_time:.6f} 秒")

# 测试Numba函数
start = time.time()
result2 = sum_of_squares_numba(arr)
numba_time = time.time() - start
print(f"Numba时间: {numba_time:.6f} 秒")
print(f"加速比: {py_time / numba_time:.2f}x")

6. 数据库和I/O优化

6.1 数据库查询优化

import sqlite3
import time

# 创建示例数据库
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# 创建表和索引
cursor.execute('CREATE TABLE users (id INTEGER PRIMARY KEY, name TEXT, email TEXT)')
cursor.execute('CREATE INDEX idx_users_email ON users (email)')

# 插入示例数据
for i in range(100000):
    cursor.execute('INSERT INTO users (name, email) VALUES (?, ?)', 
                  (f'User {i}', f'user{i}@example.com'))
conn.commit()

# 低效查询：不使用索引
def inefficient_query():
    start = time.time()
    cursor.execute("SELECT * FROM users WHERE name LIKE 'User 5%'")
    results = cursor.fetchall()
    query_time = time.time() - start
    print(f"不使用索引的查询时间: {query_time:.6f} 秒，返回 {len(results)} 条记录")

# 高效查询：使用索引
def efficient_query():
    start = time.time()
    cursor.execute("SELECT * FROM users WHERE email LIKE 'user5%@example.com'")
    results = cursor.fetchall()
    query_time = time.time() - start
    print(f"使用索引的查询时间: {query_time:.6f} 秒，返回 {len(results)} 条记录")

# 批量操作
def batch_insert():
    start = time.time()
    
    # 单条插入
    for i in range(10000):
        cursor.execute('INSERT INTO users (name, email) VALUES (?, ?)', 
                      (f'Batch User {i}', f'batch{i}@example.com'))
    conn.commit()
    single_time = time.time() - start
    
    # 批量插入
    start = time.time()
    batch_data = [(f'Batch User {i}', f'batch{i}@example.com') for i in range(10000, 20000)]
    cursor.executemany('INSERT INTO users (name, email) VALUES (?, ?)', batch_data)
    conn.commit()
    batch_time = time.time() - start
    
    print(f"单条插入时间: {single_time:.6f} 秒")
    print(f"批量插入时间: {batch_time:.6f} 秒")
    print(f"加速比: {single_time / batch_time:.2f}x")

inefficient_query()
efficient_query()
batch_insert()

6.2 文件I/O优化

import time
import io

# 低效：逐行写入
def write_file_inefficient(filename, lines):
    start = time.time()
    with open(filename, 'w') as f:
        for line in lines:
            f.write(line + '\n')  # 每行一次I/O操作
    return time.time() - start

# 高效：批量写入
def write_file_efficient(filename, lines):
    start = time.time()
    with open(filename, 'w') as f:
        f.write('\n'.join(lines) + '\n')  # 一次I/O操作
    return time.time() - start

# 使用缓冲I/O
def write_file_buffered(filename, lines):
    start = time.time()
    with open(filename, 'w', buffering=8192) as f:  # 8KB缓冲区
        for line in lines:
            f.write(line + '\n')
    return time.time() - start

# 使用StringIO
def write_file_stringio(filename, lines):
    start = time.time()
    buffer = io.StringIO()
    for line in lines:
        buffer.write(line + '\n')
    
    with open(filename, 'w') as f:
        f.write(buffer.getvalue())
    return time.time() - start

# 测试
lines = [f"This is line {i}" for i in range(100000)]

time1 = write_file_inefficient('test1.txt', lines)
time2 = write_file_efficient('test2.txt', lines)
time3 = write_file_buffered('test3.txt', lines)
time4 = write_file_stringio('test4.txt', lines)

print(f"逐行写入时间: {time1:.6f} 秒")
print(f"批量写入时间: {time2:.6f} 秒")
print(f"缓冲写入时间: {time3:.6f} 秒")
print(f"StringIO写入时间: {time4:.6f} 秒")

7. 性能优化案例研究

7.1 Web应用性能优化

sequenceDiagram
    participant Client as 客户端
    participant Server as Web服务器
    participant Cache as 缓存层
    participant DB as 数据库
    
    Client->>Server: 请求数据
    
    alt 缓存命中
        Server->>Cache: 检查缓存
        Cache-->>Server: 返回缓存数据
    else 缓存未命中
        Server->>DB: 查询数据库
        DB-->>Server: 返回数据
        Server->>Cache: 更新缓存
    end
    
    Server-->>Client: 响应请求

Flask应用优化示例

from flask import Flask, jsonify, request, Response
import functools
import time
import json
from werkzeug.contrib.cache import SimpleCache

app = Flask(__name__)
cache = SimpleCache()

# 性能监控装饰器
def performance_monitor(f):
    @functools.wraps(f)
    def decorated_function(*args, **kwargs):
        start_time = time.time()
        result = f(*args, **kwargs)
        duration = time.time() - start_time
        app.logger.info(f"函数 {f.__name__} 执行时间: {duration:.6f} 秒")
        return result
    return decorated_function

# 缓存装饰器
def cached(timeout=5 * 60, key='view/%s'):
    def decorator(f):
        @functools.wraps(f)
        def decorated_function(*args, **kwargs):
            cache_key = key % request.path
            rv = cache.get(cache_key)
            if rv is not None:
                return Response(rv, content_type='application/json')
            rv = f(*args, **kwargs)
            cache.set(cache_key, rv.data, timeout=timeout)
            return rv
        return decorated_function
    return decorator

# 未优化的路由
@app.route('/api/users')
def get_users():
    # 模拟数据库查询
    time.sleep(0.5)  # 假设查询需要0.5秒
    users = [{'id': i, 'name': f'User {i}'} for i in range(100)]
    return jsonify(users)

# 优化后的路由
@app.route('/api/users/optimized')
@cached(timeout=60)
@performance_monitor
def get_users_optimized():
    # 模拟数据库查询
    time.sleep(0.5)  # 假设查询需要0.5秒
    users = [{'id': i, 'name': f'User {i}'} for i in range(100)]
    return jsonify(users)

# 分页API
@app.route('/api/items')
def get_items():
    page = int(request.args.get('page', 1))
    per_page = int(request.args.get('per_page', 10))
    
    # 计算分页偏移
    offset = (page - 1) * per_page
    
    # 模拟数据库查询
    all_items = [{'id': i, 'name': f'Item {i}'} for i in range(1000)]
    
    # 应用分页
    paginated_items = all_items[offset:offset + per_page]
    
    return jsonify({
        'items': paginated_items,
        'total': len(all_items),
        'page': page,
        'per_page': per_page,
        'pages': (len(all_items) + per_page - 1) // per_page
    })

if __name__ == '__main__':
    app.run(debug=True)

7.2 数据处理性能优化

import pandas as pd
import numpy as np
import time

# 生成示例数据
def generate_data(rows=1000000):
    return pd.DataFrame({
        'id': range(rows),
        'value': np.random.randn(rows),
        'category': np.random.choice(['A', 'B', 'C', 'D'], rows),
        'date': pd.date_range(start='2020-01-01', periods=rows)
    })

# 未优化的数据处理
def process_data_slow(df):
    start = time.time()
    
    # 逐行处理
    result = []
    for i, row in df.iterrows():
        if row['category'] in ['A', 'B']:
            value = row['value'] * 2
            if value > 0:
                result.append({
                    'id': row['id'],
                    'processed_value': value,
                    'category': row['category']
                })
    
    duration = time.time() - start
    print(f"慢速处理时间: {duration:.2f} 秒")
    return pd.DataFrame(result)

# 优化后的数据处理
def process_data_fast(df):
    start = time.time()
    
    # 向量化操作
    filtered_df = df[df['category'].isin(['A', 'B'])].copy()
    filtered_df['processed_value'] = filtered_df['value'] * 2
    result = filtered_df[filtered_df['processed_value'] > 0][['id', 'processed_value', 'category']]
    
    duration = time.time() - start
    print(f"快速处理时间: {duration:.2f} 秒")
    return result

# 使用分块处理大数据集
def process_data_chunked(filename, chunksize=100000):
    start = time.time()
    
    reader = pd.read_csv(filename, chunksize=chunksize)
    results = []
    
    for chunk in reader:
        # 处理每个数据块
        filtered_chunk = chunk[chunk['category'].isin(['A', 'B'])].copy()
        filtered_chunk['processed_value'] = filtered_chunk['value'] * 2
        result_chunk = filtered_chunk[filtered_chunk['processed_value'] > 0][['id', 'processed_value', 'category']]
        results.append(result_chunk)
    
    # 合并结果
    final_result = pd.concat(results)
    
    duration = time.time() - start
    print(f"分块处理时间: {duration:.2f} 秒")
    return final_result

# 测试
df = generate_data()
result_slow = process_data_slow(df)
result_fast = process_data_fast(df)

# 验证结果一致性
print(f"慢速处理结果行数: {len(result_slow)}")
print(f"快速处理结果行数: {len(result_fast)}")

8. 性能监控与持续优化

8.1 性能监控工具

Prometheus + Grafana

from flask import Flask, Response
from prometheus_client import Counter, Histogram, generate_latest, CONTENT_TYPE_LATEST
import time

app = Flask(__name__)

# 定义指标
REQUEST_COUNT = Counter('app_requests_total', 'Total app HTTP requests', ['method', 'endpoint', 'status'])
REQUEST_LATENCY = Histogram('app_request_latency_seconds', 'Request latency in seconds', ['method', 'endpoint'])

@app.before_request
def before_request():
    request.start_time = time.time()

@app.after_request
def after_request(response):
    request_latency = time.time() - request.start_time
    REQUEST_COUNT.labels(request.method, request.path, response.status_code).inc()
    REQUEST_LATENCY.labels(request.method, request.path).observe(request_latency)
    return response

@app.route('/metrics')
def metrics():
    return Response(generate_latest(), mimetype=CONTENT_TYPE_LATEST)

@app.route('/')
def index():
    return "Hello World!"

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

使用statsd

from flask import Flask
import statsd
import time
import random

app = Flask(__name__)
statsd_client = statsd.StatsClient('localhost', 8125, prefix='myapp')

@app.route('/')
def index():
    # 记录请求计数
    statsd_client.incr('index.requests')
    
    # 记录处理时间
    with statsd_client.timer('index.response_time'):
        # 模拟处理时间
        time.sleep(random.random() * 0.5)
        return "Hello World!"

@app.route('/api/data')
def get_data():
    # 记录请求计数
    statsd_client.incr('api.data.requests')
    
    # 记录处理时间
    with statsd_client.timer('api.data.response_time'):
        # 模拟处理时间
        time.sleep(random.random() * 0.8)
        return {"data": "some data"}

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

8.2 性能基准测试

import pytest
import time

# 被测试的函数
def fibonacci_recursive(n):
    if n <= 1:
        return n
    return fibonacci_recursive(n-1) + fibonacci_recursive(n-2)

def fibonacci_iterative(n):
    if n <= 1:
        return n
    a, b = 0, 1
    for _ in range(2, n + 1):
        a, b = b, a + b
    return b

# 基准测试
@pytest.mark.benchmark(group="fibonacci")
def test_fibonacci_recursive(benchmark):
    result = benchmark(fibonacci_recursive, 20)
    assert result == 6765

@pytest.mark.benchmark(group="fibonacci")
def test_fibonacci_iterative(benchmark):
    result = benchmark(fibonacci_iterative, 20)
    assert result == 6765

8.3 持续性能优化流程

graph TD
    A[持续性能优化] --> B[设置性能基准]
    B --> C[监控生产环境]
    C --> D[识别性能问题]
    D --> E[分析根本原因]
    E --> F[实施优化]
    F --> G[验证改进]
    G --> C
    
    style A fill:#f9d,stroke:#333,stroke-width:2px
    style C fill:#bbf,stroke:#333,stroke-width:1px
    style D fill:#bbf,stroke:#333,stroke-width:1px
    style E fill:#bbf,stroke:#333,stroke-width:1px
    style F fill:#bbf,stroke:#333,stroke-width:1px
    style G fill:#bbf,stroke:#333,stroke-width:1px

性能预算

import time
import functools

# 性能预算装饰器
def performance_budget(max_time_seconds):
    def decorator(func):
        @functools.wraps(func)
        def wrapper(*args, **kwargs):
            start_time = time.time()
            result = func(*args, **kwargs)
            execution_time = time.time() - start_time
            
            if execution_time > max_time_seconds:
                print(f"性能预算超出: {func.__name__} 执行时间 {execution_time:.6f} 秒, "
                      f"超出预算 {execution_time - max_time_seconds:.6f} 秒")
            
            return result
        return wrapper
    return decorator

# 使用示例
@performance_budget(0.1)
def process_data(data):
    # 模拟处理
    time.sleep(0.2)  # 将超出性能预算
    return data * 2

result = process_data(10)

9. 练习：性能优化实战

练习1：优化斐波那契数列计算

# 原始递归实现
def fibonacci_original(n):
    if n <= 1:
        return n
    return fibonacci_original(n-1) + fibonacci_original(n-2)

# 使用缓存优化
from functools import lru_cache

@lru_cache(maxsize=None)
def fibonacci_cached(n):
    if n <= 1:
        return n
    return fibonacci_cached(n-1) + fibonacci_cached(n-2)

# 迭代实现
def fibonacci_iterative(n):
    if n <= 1:
        return n
    a, b = 0, 1
    for _ in range(2, n + 1):
        a, b = b, a + b
    return b

# 矩阵幂优化
def fibonacci_matrix(n):
    if n <= 1:
        return n
    
    def matrix_multiply(A, B):
        a = A[0][0] * B[0][0] + A[0][1] * B[1][0]
        b = A[0][0] * B[0][1] + A[0][1] * B[1][1]
        c = A[1][0] * B[0][0] + A[1][1] * B[1][0]
        d = A[1][0] * B[0][1] + A[1][1] * B[1][1]
        return [[a, b], [c, d]]
    
    def matrix_power(A, n):
        if n == 1:
            return A
        if n % 2 == 0:
            return matrix_power(matrix_multiply(A, A), n // 2)
        else:
            return matrix_multiply(A, matrix_power(matrix_multiply(A, A), (n - 1) // 2))
    
    result = matrix_power([[1, 1], [1, 0]], n)
    return result[0][1]

# 性能比较
import time

def measure_time(func, n):
    start = time.time()
    result = func(n)
    end = time.time()
    return result, end - start

# 测试不同n值的性能
for n in [10, 20, 30]:
    print(f"计算斐波那契数列第{n}项:")
    
    # 对于较大的n，原始递归实现会非常慢，可以跳过
    if n <= 20:
        result, duration = measure_time(fibonacci_original, n)
        print(f"  原始递归: {result}, 耗时: {duration:.6f} 秒")
    
    result, duration = measure_time(fibonacci_cached, n)
    print(f"  缓存递归: {result}, 耗时: {duration:.6f} 秒")
    
    result, duration = measure_time(fibonacci_iterative, n)
    print(f"  迭代实现: {result}, 耗时: {duration:.6f} 秒")
    
    result, duration = measure_time(fibonacci_matrix, n)
    print(f"  矩阵幂法: {result}, 耗时: {duration:.6f} 秒")
    
    print()

练习2：优化文本处理

import time
import re

# 示例文本
def generate_text(size=1000000):
    import random
    words = ["python", "performance", "optimization", "analysis", "profiling", 
             "memory", "cpu", "algorithm", "data", "structure"]
    return " ".join(random.choice(words) for _ in range(size // 10))

# 未优化的单词计数
def count_words_slow(text):
    start = time.time()
    
    # 分割文本并计数
    word_counts = {}
    for word in text.split():
        if word in word_counts:
            word_counts[word] += 1
        else:
            word_counts[word] = 1
    
    duration = time.time() - start
    print(f"慢速单词计数: {duration:.6f} 秒")
    return word_counts

# 优化的单词计数
from collections import Counter

def count_words_fast(text):
    start = time.time()
    
    # 使用Counter
    word_counts = Counter(text.split())
    
    duration = time.time() - start
    print(f"快速单词计数: {duration:.6f} 秒")
    return word_counts

# 未优化的文本替换
def replace_words_slow(text, old, new):
    start = time.time()
    
    # 逐个替换
    result = text
    for o, n in zip(old, new):
        result = result.replace(o, n)
    
    duration = time.time() - start
    print(f"慢速文本替换: {duration:.6f} 秒")
    return result

# 优化的文本替换
def replace_words_fast(text, old, new):
    start = time.time()
    
    # 使用正则表达式一次性替换
    pattern = '|'.join(map(re.escape, old))
    replacement_dict = dict(zip(old, new))
    
    def replace_match(match):
        return replacement_dict[match.group(0)]
    
    result = re.sub(pattern, replace_match, text)
    
    duration = time.time() - start
    print(f"快速文本替换: {duration:.6f} 秒")
    return result

# 测试
text = generate_text()
print(f"文本大小: {len(text)} 字符")

# 单词计数
counts_slow = count_words_slow(text)
counts_fast = count_words_fast(text)
print(f"单词种类数: {len(counts_slow)}")

# 文本替换
old_words = ["python", "performance", "optimization"]
new_words = ["Python", "Performance", "Optimization"]
replaced_slow = replace_words_slow(text, old_words, new_words)
replaced_fast = replace_words_fast(text, old_words, new_words)
print(f"替换后文本大小: {len(replaced_fast)} 字符")

10. 今日总结

性能优化是一个系统性工作，需要遵循"先分析后优化"的原则
Python提供了多种性能分析工具，如cProfile、memory_profiler等
选择合适的数据结构和算法是优化的基础
使用内置函数和模块通常比自定义实现更高效
生成器和迭代器可以有效减少内存使用
并行和并发处理可以充分利用多核CPU
内存优化包括使用__slots__、适当的数据类型和避免内存泄漏
PyPy、Cython和Numba等工具可以显著提高Python代码的执行速度
数据库查询和文件I/O优化对于数据密集型应用尤为重要
持续性能监控和基准测试是保持应用性能的关键

11. 明日预告

明天我们将学习Python安全最佳实践，包括如何防止常见的安全漏洞、保护敏感数据、安全地处理用户输入，以及如何进行安全审计和测试。这些知识对于构建安全可靠的Python应用程序至关重要。