LLM微调方法与技巧完全指南：7个必知技巧+实战代码å¨AIæµªæ½®æ±¹æ¶çä»å¤©ï¼å¤§å

çç¹ä»£ç ç¤ºä¾ï¼

# åè®¾è¿æ¯ä¸ä¸ªåºç¡LLMçæ¨¡ææ¥å£
class GenericLLM:
    def generate(self, prompt: str) -> str:
        # æ¨¡æLLMçéç¨åçé»è¾
        if "TechCorp" in prompt:
            return "TechCorp æ¯ä¸å®¶é«ç§æå¬å¸ï¼è´åäºåæ°åææ¯åå±ãä»ä»¬æå¾å¤äº§ååæå¡ã"
        elif "æ³å¾æ¡æ¬¾" in prompt:
            return "æ³å¾æ¡æ¬¾éå¸¸åå«æå©ãä¹å¡åè´£ä»»çåå®¹ï¼å·ä½éæ¥éç¸å³æ³å¾æä»¶ã"
        else:
            return "ææ¯ä¸ä¸ªå¤§åè¯è¨æ¨¡åï¼å¯ä»¥åçå¤ç§é®é¢ã"

# å®ä¾åéç¨LLM
base_llm = GenericLLM()

# ç¨æ·å°è¯è¯¢é®ç¹å®é®é¢
question_1 = "TechCorp å¨ææ°çå£åº¦è´¢æ¥ä¸æåäºåªäºæ°çAIæç¥ï¼"
question_2 = "è¯·æ ¹æ®TechCorpçåé¨è§èï¼æ°åä¸ä»½å³äºé¡¹ç®å»¶æçéç¥ã"

print(f"**é®é¢1:** {question_1}")
print(f"**éç¨LLMåç:** {base_llm.generate(question_1)}
") # æ³æ³èè°ï¼ç¼ºä¹å·ä½è´¢æ¥ä¿¡æ¯

print(f"**é®é¢2:** {question_2}")
print(f"**éç¨LLMåç:** {base_llm.generate(question_2)}
") # æ æ³çè§£åé¨è§èï¼ç»åºéç¨åç

ç¬¬ä¸ç« ï¼LLMå¾®è°åºç¡ï¼ä¸ºä»ä¹éè¦å¾®è°ï¼

1.1 ä»ä¹æ¯LLMå¾®è°ï¼é¢è®ç»ä¸å¾®è°çå¥¥ç§

ä¸ºä»ä¹è¦å¾®è°ï¼

é¢åéåºæ§ä¸è¶³ï¼éç¨LLMå¯è½ä¸çè§£ç¹å®è¡ä¸æ¯è¯ãè¡è¯æä¸å¡é»è¾ãå¾®è°è½è®©æ¨¡åâå¦ä¹ âè¿äºä¸ä¸ç¥è¯ï¼ä¾å¦å»çé¢åçä¸ä¸æ¯è¯æéèè¡ä¸çé£é©è¯ä¼°è§åã
æ§è½ç¶é¢ï¼å¨æäºç¹å®ä»»å¡ï¼å¦ææåæãä»£ç çæãæ³å¾é®çï¼ä¸ï¼éç¨LLMçæ§è½å¯è½è¾¾ä¸å°è¦æ±ãå¾®è°è½æ¾èæåè¿äºä»»å¡çåç¡®æ§åç¸å³æ§ï¼ä½¿å¶è¾åºæ´ç²¾åãæ´ç¬¦åé¢æã
**è¡ä¸ºæ¨¡å¼å®å¶**ï¼æä»¬å¯è½å¸æLLMä»¥ç¹å®çè¯æ°ãé£æ ¼ææ ¼å¼è¿è¡åå¤ãå¾®è°å¯ä»¥å¼å¯¼æ¨¡åäº§çææçè¡ä¸ºï¼ä¾å¦ä»¥å¹½é»çå£å»åå¤ãä¸¥æ ¼éµå¾ªJSONæ ¼å¼è¾åºæ°æ®ï¼æé¿åçæææåå®¹ã
ææ¬æçï¼ä»é¶å¼å§è®ç»ä¸ä¸ªä¸GPT-3/4åçè§æ¨¡çLLMæ¯å¤©ææ°åçº§çæå¥ï¼æ è®ºæ¯è®¡ç®èµæºè¿æ¯æ¶é´ææ¬é½æé«ãå¾®è°ä¸ä¸ªç°ææ¨¡åï¼è½å¤ä»¥ç¸å¯¹è¾ä½çææ¬è·å¾é«æ§è½ï¼è¿å¯¹äºå¤§å¤æ°ä¸ªäººå¼åèåä¼ä¸æ¥è¯´ï¼æ¯æ´ç»æµãæ´é«æçéæ©ã

1.2 ä¼ ç»å¾®è°çææï¼ç®åä¸âéå¿çâ

**ç®åéæ±å·¨å¤§**ï¼ä¸ä¸ªæ°ç¾äº¿åæ°çLLMï¼å³ä½¿ä½¿ç¨16ä½æµ®ç¹æ°ï¼FP16ï¼è¡¨ç¤ºï¼å¶æ¨¡åæéä¹ä¼å ç¨æ°ç¾GBçGPUååãå¨è®ç»è¿ç¨ä¸ï¼è¿éè¦åå¨æ¢¯åº¦ãä¼åå¨ç¶æçï¼è¿ä½¿å¾å¨éå¾®è°éè¦å¤åé«ç«¯GPUéç¾¤ï¼ä¾å¦NVIDIA A100æH100ï¼è¿å¯¹äºå¤§å¤æ°ä¸ªäººå¼åèåä¸å°åä¼ä¸èè¨æ¯é¾ä»¥æ¿åçææ¬ãé«æçç¡¬ä»¶æå¥åçµåæ¶èï¼æä¸ºäºå¨éå¾®è°çä¸éé¨æ§ã
**è®ç»æ¶é´æ¼«é¿**ï¼å³ä¾¿æè¶³å¤çèµæºï¼æ´æ°å¦æ¤åºå¤§çåæ°éåä¹éè¦æ¼«é¿çæ¶é´ãè®ç»å¨æå¯è½ä»æ°å¤©å°æ°å¨ä¸çï¼è¿å¤§å¤§å»¶é¿äºæ¨¡åè¿ä»£åé¨ç½²çå¨æï¼éä½äºå¼åæçã
ç¾é¾æ§éå¿ï¼Catastrophic Forgettingï¼ï¼å¨å¾®è°è¿ç¨ä¸ï¼æ¨¡åå¯è½ä¼âéå¿âå¨é¢è®ç»é¶æ®µå¦å°çä¸äºéç¨ç¥è¯ï¼å°¤å¶æ¯å¨æ°ä»»å¡æ°æ®ä¸é¢è®ç»æ°æ®åå¸å·®å¼è¾å¤§æ¶ãè¿å°±åä¸ä¸ªå¦çä¸ºäºåºå¯¹ä¸é¨æ°èè¯ï¼è¿åº¦ä¸æ³¨äºæ°ç¥è¯èæä»¥åå¦çéç¨ç¥è¯é½å¿äºãè¿ç§ç°è±¡ä¼å¯¼è´æ¨¡åå¨å¾®è°ä»»å¡ä¸è¡¨ç°åºè²ï¼ä½å¨éç¨è½åä¸ææéåï¼å½±åå¶æ³åè½åã

ä¼ ç»å¾®è°çæ°æ®åå¤ä¸ææï¼æ¦å¿µæ§ä»£ç ï¼ï¼

# åºç¡ç¤ºä¾ä»£ç ï¼åå¤ç¨äºä¼ ç»å¾®è°çæ°æ®é
# éç¨äºPyTorchåHugging Face Transformersåº

from datasets import Dataset
from transformers import AutoTokenizer

# åè®¾æä»¬æä¸ä¸ªåå«æä»¤åçæ¡çåå§æ°æ®é
# è¿æ¯ä¸ä¸ªéå¸¸ç®åçç¤ºä¾ï¼å®éæ°æ®ä¼æ´å¤æï¼ä¸éè¦ç»ä¸æ ¼å¼
raw_data = [
    {"instruction": "è¯·ä»ç»ä¸ä¸LoRAå¾®è°çåçã", "output": "LoRAï¼Low-Rank Adaptationï¼æ¯ä¸ç§åæ°é«æå¾®è°æ¹æ³ï¼éè¿å¼å¥ä½ç§©ç©éµæ¥æ´æ°æ¨¡åã"},
    {"instruction": "è§£éä¸ä¸QLoRAä¸LoRAçåºå«ã", "output": "QLoRAæ¯LoRAçéåçæ¬ï¼éè¿éååºåº§æ¨¡åè¿ä¸æ¥éä½ååæ¶èã"},
    {"instruction": "å¦ä½åå¤LLMå¾®è°æ°æ®ï¼", "output": "LLMå¾®è°æ°æ®éå¸¸éè¦éµå¾ªæä»¤å¾®è°æ ¼å¼ï¼å¹¶è¿è¡æ¸æ´åæ ¼å¼åã"}
]

# å°åå§æ°æ®è½¬æ¢ä¸ºHugging Face Datasetå¯¹è±¡
# æä»¬ä¼å°instructionåoutputæ¼æ¥æä¸ä¸ªå®æ´çè¾å¥ææ¬ï¼è¿æ¯ä¼ ç»çç£å¾®è°çå¸¸è§åæ³
def format_instruction_data(example):
    # å®éåºç¨ä¸ï¼ä½ å¯è½éè¦æ´å¤æçpromptæ¨¡æ¿ï¼æ¯å¦ChatMLæ ¼å¼
    example["text"] = f"### Instruction:
{example['instruction']}
### Output:
{example['output']}"
    return example

# åå»ºå¹¶æ ¼å¼åæ°æ®é
dataset = Dataset.from_list(raw_data)
formatted_dataset = dataset.map(format_instruction_data)

print("åå§æ°æ®æ ·ä¾ï¼")
print(raw_data[0])
print("
æ ¼å¼ååçæ°æ®æ ·ä¾ï¼")
print(formatted_dataset[0])

# å è½½é¢è®ç»æ¨¡åçTokenizerï¼è¿éä½¿ç¨google/gemma-2bä½ä¸ºç¤ºä¾
# æ³¨æï¼ä½ éè¦ç¡®ä¿ä½ çç¯å¢å¯ä»¥è®¿é®è¿ä¸ªæ¨¡åï¼æèä½¿ç¨æ¬å°æ¨¡åè·¯å¾
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b")

# å¦ætokenizeræ²¡æå¡«åtokenï¼éè¦æå¨æ·»å ï¼ä»¥ä¾¿æ¹å¤ç
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})

# å¯¹ææ¬è¿è¡tokenize
def tokenize_function(examples):
    # truncation=True: æªæè¶é¿åºå
    # max_length: éå¶æå¤§é¿åº¦ï¼æ ¹æ®æ¨¡åä¸ä¸æçªå£åæ°æ®å®éæåµè°æ´
    # padding="max_length": å¡«åå°max_lengthï¼å¦æä½¿ç¨DataCollatorï¼ä¹å¯ä»¥è®¾ç½®ä¸ºFalse
    return tokenizer(examples["text"], truncation=True, max_length=512, padding="max_length")

tokenized_dataset = formatted_dataset.map(tokenize_function, batched=True, remove_columns=["instruction", "output", "text"])

print("
Tokenizedæ°æ®æ ·ä¾ (åå ä¸ªtoken_ids):")
print(tokenized_dataset[0]["input_ids"][:10])
print("Tokenizedæ°æ®æ ·ä¾ (attention_mask):")
print(tokenized_dataset[0]["attention_mask"][:10])

# å¨å®éçä¼ ç»å¨éå¾®è°ä¸ï¼æä»¬è¿éè¦åå»ºä¸ä¸ªDataCollatoråHugging Face Traineræ¥å¼å§è®ç»ã
# ä½å¶é«æçèµæºæ¶èï¼ä¿ä½¿æä»¬å¯»æ¾æ´ä¼è§£ââåæ°é«æå¾®è° (PEFT)ã

2.1 PEFTæ¦è¿°ï¼ä»¥å°åå¤§çæºæ§

PEFTæ¹æ³çä¼å¿æ¾èæè§ï¼

æ¾èéä½ç®åéæ±ï¼ç±äºåªè®ç»å°éåæ°ï¼æéçGPUåååè®¡ç®èµæºå¤§å¹åå°ï¼ä½¿å¾å¨æ¶è´¹çº§GPUä¸å¾®è°å¤§åæ¨¡åæä¸ºå¯è½ã
ç¼©çè®ç»æ¶é´ï¼åæ°éçåå°ç´æ¥æå³çè®ç»éåº¦çæåï¼å éäºæ¨¡åè¿ä»£å¨æã
ç¼è§£ç¾é¾æ§éå¿ï¼PEFTæ¹æ³éå¸¸ä¼å»ç»å¤§é¨åé¢è®ç»æéï¼åªä¿®æ¹ææ·»å å°éåæ°ï¼ä»èæ´å¥½å°ä¿çäºæ¨¡åå¨é¢è®ç»é¶æ®µå¦å°çéç¨ç¥è¯ã
**å¤ä»»å¡éåºæ§**ï¼ç±äºæ¯ä¸ªä»»å¡åªå¼å¥å°éåæ°ï¼æä»¬å¯ä»¥ä¸ºä¸åçä»»å¡è®ç»ä¸åçPEFTééå¨ï¼å¹¶å¨æ¨çæ¶æ ¹æ®éè¦å è½½ï¼å®ç°æ¨¡åçâæ¨¡ååâåâæä»¶åâã

2.2 LoRA (Low-Rank Adaptation)ï¼ä½ç§©ééçç²¾é«

å·ä½æ¥è¯´ï¼å¯¹äºåå§æéç©éµ $W_0 \in \mathbb{R}^{d imes k}$ ï¼LoRA å¼å¥ä¸¤ä¸ªè¾å°çç©éµ $A \in \mathbb{R}^{d imes r}$ å $B \in \mathbb{R}^{r imes k}$ ï¼å¶ä¸ $r$ æ¯è¿å°äº $d$ å $k$ çâç§©âï¼rankï¼ãå¾®è°æ¶ï¼æä»¬åªè®ç» $A$ å $B$ ï¼è $W_0$ ä¿æä¸åãæ´æ°é $\Delta W = BA$ ãç±äº $r \ll d, k$ ï¼éè¦è®ç»çåæ°é $d imes r + r imes k$ è¿å°äº $d imes k$ ãä¸¾ä¾æ¥è¯´ï¼å¦æ $W_0$ æ¯ä¸ä¸ª $1024 imes 1024$ çç©éµï¼åæ°éä¸º $1024^2 pprox 10^6$ ãå¦æ $r=8$ ï¼é£ä¹LoRAçåæ°éæ¯ $1024 imes 8 + 8 imes 1024 = 2 imes 8 imes 1024 pprox 1.6 imes 10^4$ ï¼ä»ä¸ºåå§åæ°ç1.6%ï¼è¿ç§å·§å¦çè®¾è®¡ï¼ä½¿å¾LoRAè½å¤å¨ä¿ææ¨¡åæ§è½çåæ¶ï¼å¤§å¹ååè®ç»ææ¬ã

ä»£ç ç¤ºä¾ï¼ä½¿ç¨ peft åºéç½® LoRA

# è¿é¶å®æä»£ç ï¼ä½¿ç¨peftåºéç½®LoRAåæ°
# è¿æ®µä»£ç å±ç¤ºäºå¦ä½ä¸ºLLMççº¿æ§å±ï¼éå¸¸æ¯attentionæ¨¡åï¼éç½®LoRA

from peft import LoraConfig, TaskType, get_peft_model
from transformers import AutoModelForCausalLM
import torch

# 1. å è½½ä¸ä¸ªé¢è®ç»çLLMæ¨¡å
# ä½¿ç¨ä¸ä¸ªè¾å°çæ¨¡åè¿è¡æ¼ç¤ºï¼ä¾å¦Googleçgemma-2b
# æ³¨æï¼å®éåºç¨ä¸ä½ ä¼å è½½æ´å¤§çæ¨¡åï¼ä¾å¦Llama-2, Mistralç
print(" æ£å¨å è½½é¢è®ç»æ¨¡å...")
model_name_or_path = "google/gemma-2b" # æèä½ æ¬å°çæ¨¡åè·¯å¾
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    torch_dtype=torch.bfloat16, # æ¨èä½¿ç¨bfloat16è¿è¡é«æè®ç»ï¼èçåå
    device_map="auto" # èªå¨åéå°å¯ç¨GPU (å¦æåªæä¸ä¸ªGPUï¼éå¸¸æ¯cuda:0)
)

print("
 æ£å¨éç½®LoRA...")
# 2. å®ä¹LoRAéç½®
# target_modules: å³é®åæ°ï¼éå¸¸æ¯æ³¨æåæºå¶ä¸ççº¿æ§å±ï¼å¦q_proj, k_proj, v_proj, o_projï¼
#                 å¯¹äºä¸åçæ¨¡åæ¶æï¼å¦Llama, Mixtral, Gemmaï¼ï¼è¿äºæ¨¡ååå¯è½ç¥æä¸åã
#                 ä½ å¯ä»¥éè¿ `model.print_trainable_parameters()` æ `model.named_modules()` æ¥æ¢ç´¢æ¨¡åç»æã
# r: LoRAçç§©ï¼å³å®äºæ°å¢åæ°çæ°éåæ¨¡åçè¡¨è¾¾è½åï¼éå¸¸å¨8-64ä¹é´ãrè¶å¤§ï¼åæ°è¶å¤ï¼è¡¨è¾¾è½åè¶å¼ºï¼ä½å¯è½å¢å è¿æåé£é©ã
# lora_alpha: LoRAçç¼©æ¾å åï¼éå¸¸æ¯rçä¸¤åæä¸rç¸çãå®æ§å¶äºLoRAæ´æ°å¯¹åå§æ¨¡åçå½±åå¼ºåº¦ã
# lora_dropout: Dropoutçï¼ç¨äºæ£ååï¼é²æ¢è¿æåã
# bias: æ¯å¦å¯¹åç½®é¡¹è¿è¡LoRAééï¼éå¸¸è®¾ç½®ä¸º"none"ã

lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM, # ä»»å¡ç±»åï¼å æè¯è¨å»ºæ¨¡ (å¤§é¨åLLMéç¨)
    inference_mode=False, # è®ç»æ¨¡å¼
    r=16, # LoRAçç§©ï¼å½±ååæ°éåè¡¨è¾¾è½å
    lora_alpha=32, # LoRAçç¼©æ¾å åï¼éå¸¸æ¯rçä¸¤å
    lora_dropout=0.1, # Dropoutçï¼ç¨äºæ£åå
    # å³é®åæ°ï¼æå®åªäºæ¨¡åéè¦åºç¨LoRAã
    # å¯¹äºGemmaç³»åï¼å¸¸è§ççº¿æ§å±æ¨¡ååå¯è½åå«'q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj'
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    bias="none" # ä¸å¯¹åç½®é¡¹è¿è¡LoRAéé
)

# 3. å°LoRAéç½®åºç¨å°åå§æ¨¡åä¸
# get_peft_modelä¼è¿åä¸ä¸ªPEFTæ¨¡åï¼å®åªæ´é²LoRAåæ°ä¸ºå¯è®ç»ç
peft_model = get_peft_model(model, lora_config)

print(f"
 LoRAæ¨¡ååæ°ç»è®¡ï¼")
peft_model.print_trainable_parameters() # æå°å¯è®ç»åæ°æ°éåå æ¯

# æ£æ¥LoRAåºç¨åï¼åªæLoRAå±æ¯å¯è®ç»ç
print("
 æ£æ¥é¨åå¯è®ç»åæ°ï¼")
found_trainable = False
for name, param in peft_model.named_parameters():
    if param.requires_grad:
        print(f"Trainable parameter after LoRA: {name}")
        found_trainable = True
        if "lora_A" in name: # ç¤ºä¾ï¼åªæå°å ä¸ªLoRAå±ï¼å±ç¤ºå¶å¼
            if len(param.shape) > 1: # é¿åæå°åç½®é¡¹ææ éåæ°
                print(f"  Shape: {param.shape}, Values: {param.data[0, :5].tolist()}...")
        # ä¸ºäºé¿åè¾åºè¿å¤ï¼åªæå°ä¸é¨å
        if sum(1 for p_name, _ in peft_model.named_parameters() if p_name.startswith("base_model.model.model.layers") and "lora_A" in p_name) > 5:
            break # æå°å ä¸ªLoRAå±ååæ¢ï¼é¿åè¿å¤è¾åº

if not found_trainable:
    print("æªè½æ¾å°LoRAå¯è®ç»åæ°ï¼è¯·æ£æ¥target_moduleséç½®ææ¨¡åç»æã")
else:
    print("
 LoRAéç½®æåï¼ç°å¨å¯ä»¥å¼å§è®ç»åªåå«å°éå¯è®ç»åæ°çæ¨¡åäºã")

è¿æ®µä»£ç å±ç¤ºäºå¦ä½ä½¿ç¨peftåºä¸ºHugging Faceæ¨¡åæ·»å LoRAééå¨ãéè¿lora_configçtarget_modulesåæ°ï¼æä»¬å¯ä»¥ç²¾ç¡®æ§å¶åªäºæ¨¡åå°è¢«LoRAåãpeft_model.print_trainable_parameters()ä¼æ¸æ°å°æ¾ç¤ºï¼ç¸æ¯äºåå§æ¨¡åçå¨é¨åæ°ï¼å¯è®ç»åæ°æ°éå¤§å¹åå°ï¼è¿æ£æ¯LoRAçéåæå¨ï¼

2.3 QLoRA (Quantized Low-Rank Adaptation)ï¼éåå éä¸ååä¼å

ä»£ç ç¤ºä¾ï¼ä½¿ç¨ bitsandbytes å peft éç½® QLoRA

# è¿é¶å®æä»£ç ï¼ä½¿ç¨bitsandbytesåpeftåºéç½®QLoRA
# è¿æ®µä»£ç å±ç¤ºäºå¦ä½ç»å4-bitéååLoRAè¿è¡å¾®è°

from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import LoraConfig, TaskType, get_peft_model
import torch

print(" æ£å¨éç½®4-bitéå...")
# 1. å®ä¹BitsAndByteséç½®ï¼å¯ç¨4-bitéå
# load_in_4bit=True: å¯ç¨4ä½éå
# bnb_4bit_quant_type="nf4": ä½¿ç¨4-bit NormalFloatéåç±»åï¼æ¨èç¨äºtransformeræ¨¡åã
#                            NF4æ¯ä¸ä¸ºæ£æåå¸æéè®¾è®¡çï¼æ¯å¶ä»4ä½éåæ¹æ³æææ´å¥½ã
# bnb_4bit_use_double_quant=True: å¯ç¨åµå¥éåï¼å°éåå¸¸æ°æ¬èº«ä¹éåï¼è¿ä¸æ¥èçååï¼éå¸¸è½é¢å¤èççº¦0.4 bit/åæ°ã
# bnb_4bit_compute_dtype=torch.bfloat16: å¨éåæ¨¡åä¸æ§è¡è®¡ç®æ¶ä½¿ç¨çæ°æ®ç±»åã
#                                       éå¸¸è®¾ç½®ä¸ºbfloat16æfloat16ï¼ä»¥ä¿æè®¡ç®ç²¾åº¦ã
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
)

# 2. å è½½é¢è®ç»æ¨¡åï¼å¹¶åºç¨éåéç½®
print(" æ£å¨å è½½é¢è®ç»æ¨¡åå¹¶åºç¨QLoRAéå...")
model_name_or_path = "google/gemma-2b"
quantized_model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    quantization_config=quantization_config,
    device_map="auto" # èªå¨å°æ¨¡åå è½½å°å¯ç¨è®¾å¤
)

# 3. éç½®LoRAï¼ä¸ä¹åLoRAéç½®ç±»ä¼¼ï¼ä½ç°å¨æ¯ä½ç¨å¨éåæ¨¡åä¸
# QLoRAéå¸¸å¯ä»¥æ¯ææ´å¤§çç§© (r)ï¼å ä¸ºå®å¯¹ååçååæ´å°ï¼å¯è½å¸¦æ¥æ´å¥½çæ§è½ã
lora_config_qlora = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=32, # å¯ä»¥éæ©æ´å¤§çç§©ï¼å ä¸ºååååæ´å°ï¼å¯è½å¸¦æ¥æ´å¥½çæ§è½
    lora_alpha=64, # ç¸åºçç¼©æ¾å å
    lora_dropout=0.05,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    bias="none"
)

# 4. å°LoRAéç½®åºç¨å°éåæ¨¡åä¸
qlora_model = get_peft_model(quantized_model, lora_config_qlora)

print(f"
 QLoRAæ¨¡ååæ°ç»è®¡ï¼")
qlora_model.print_trainable_parameters()

print("
 QLoRAéç½®æåï¼æå¤§å°èçäºGPUååï¼è®©æ´å¤äººææºä¼å¾®è°å¤§åLLMã")

# æ³¨æï¼å¦æä½ æ³æ£æ¥å®éçååå ç¨ï¼å¯ä»¥ä½¿ç¨nvidia-smiå½ä»¤ã
# QLoRAå¨å è½½æ¨¡åæ¶å°±ä¼æ¾èåå°ååå ç¨ï¼ä¾å¦ä¸ä¸ª7Bæ¨¡åå¯è½åªéè¦8-10GB GPUååã
# è¿æ¯ä¸ä¸ªæå¤§çä¼å¿ï¼è®©å¨åå¼ RTX 3090/4090ä¸å¾®è°å¤§åæ¨¡åæä¸ºå¯è½ã

2.4 Prompt Tuning / P-Tuning / Prefix Tuningï¼ä¸å¨å¦å±±çæ¨¡åä¸»ä½

Prompt Tuningï¼è¿æ¯æç®åçä¸ç§å½¢å¼ï¼åªè®ç»è¾å¥åµå¥å±åçä¸äºè¿ç»åéãè¿äºåéä¸åå§è¾å¥æ¼æ¥å¨ä¸èµ·ï¼å±åè¾å¥ç»æ¨¡åãæ¨¡åæ¬èº«æ éä¿®æ¹ã
P-Tuningï¼å¨Prompt Tuningçåºç¡ä¸ï¼P-Tuningå¼å¥äºä¸ä¸ªå°åç¥ç»ç½ç»ï¼å¦LSTMï¼æ¥çæè¿äºè½¯æç¤ºãè¿æ ·åä½¿å¾è½¯æç¤ºæ´å·è¡¨è¾¾åï¼å ä¸ºå®ä»¬ä¸åæ¯ç®åçåºå®åéï¼èæ¯éè¿ä¸ä¸ªå°åæ¨¡åå¨æçæçï¼ä»èè½å¤æ´å¥½å°éåºä¸åçè¾å¥ã
Prefix Tuningï¼è¿ç§æ¹æ³æ¯Prompt Tuningæ´è¿ä¸æ¥ï¼å®ä¸ä»å¨è¾å¥å±æ·»å è½¯æç¤ºï¼èæ¯å¨Transformerçæ¯ä¸å±é½æ·»å å¯è®ç»çåç¼åéãè¿äºåç¼åéè¢«æ·»å å°èªæ³¨æåæºå¶çé®ï¼Keyï¼åå¼ï¼Valueï¼ç©éµä¸ï¼ä»èå¨æ¨¡åçæ¯ä¸å±é½å¯¹ä¿¡æ¯æµè¿è¡å¼å¯¼ã

ä»£ç ç¤ºä¾ï¼ä½¿ç¨ peft åºéç½® Prefix Tuning

# æ¯è¾ä»£ç ç¤ºä¾ï¼éç½®Prefix Tuning
# è¿æ®µä»£ç å±ç¤ºäºä¸LoRA/QLoRAä¸åçåæ°é«æå¾®è°æ¹æ³ï¼åæ°éæå°

from peft import PrefixTuningConfig, TaskType, get_peft_model
from transformers import AutoModelForCausalLM
import torch

print(" æ£å¨å è½½é¢è®ç»æ¨¡å...")
model_name_or_path = "google/gemma-2b"
model_prefix = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

print("
 æ£å¨éç½®Prefix Tuning...")
# å®ä¹Prefix Tuningéç½®
# num_virtual_tokens: èætokençæ°éï¼è¿äºtokençåµå¥å°è¢«è®ç»ãæ°éè¶å¤ï¼è¡¨è¾¾è½åå¯è½è¶å¼ºï¼ä½åæ°éä¹è¶å¤ã
# encoder_hidden_size: éå¸¸æ¯æ¨¡åéèå±çå¤§å°ï¼ç¨äºåå§åPrefixçç»´åº¦ãè¿æ¯å³é®ï¼å¿é¡»ä¸æ¨¡åå¹éã
# prefix_projection: æ¯å¦æå½±åç¼ï¼ä½¿å¶æ´å¤æãè®¾ç½®ä¸ºTrueæ¶ï¼ä¼åéè¿ä¸ä¸ªå°åMLPè¿è¡æå½±ï¼éå¸¸æææ´å¥½ï¼ä½åæ°éç¥å¢ã
prefix_config = PrefixTuningConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    num_virtual_tokens=30, # å¢å èætokenæ°éä»¥æä¾æ´å¤è¡¨è¾¾åï¼ä¾å¦è®¾ç½®ä¸º20-100
    encoder_hidden_size=model_prefix.config.hidden_size, # è·åæ¨¡åçéèå±å¤§å°
    prefix_projection=False # ç®åèµ·è§ï¼ä¸è¿è¡æå½±ãå¦æè®¾ä¸ºTrueï¼éå¸¸æææ´å¥½ï¼ä½åæ°éç¥å¢ã
)

# å°Prefix Tuningéç½®åºç¨å°åå§æ¨¡åä¸
peft_model_prefix = get_peft_model(model_prefix, prefix_config)

print(f"
 Prefix Tuningæ¨¡ååæ°ç»è®¡ï¼")
peft_model_prefix.print_trainable_parameters()

print("
 Prefix Tuningéç½®æåï¼ä»¥æå°çåæ°éè¿è¡å¾®è°ã")

# å¯¹æ¯åæï¼
# LoRAåQLoRAéè¿ä¿®æ¹æ¨¡ååé¨çæéç©éµæ¥éåºä»»å¡ï¼éå¸¸å¨ææä¸æ´æ¥è¿å¨éå¾®è°ï¼
# éç¨äºéè¦æ¨¡åå¯¹ç¹å®é¢åç¥è¯ææ´æ·±çè§£æå¤æè¡ä¸ºè°æ´çåºæ¯ã
# Prefix Tuningåéè¿ä¿®æ¹è¾å¥æç¤ºæ¥å¼å¯¼æ¨¡åè¡ä¸ºï¼å¯¹æ¨¡ååé¨ç»ææ¹å¨æå°ï¼
# æ´éåå¯¹æ¨¡åè¡ä¸ºè¿è¡è½»éçº§è°æ´ãé£æ ¼æ§å¶æå¨Few-shotåºæ¯ä¸å¿«éééï¼ä½å¯è½ä¸å¦LoRAå¨å¤æä»»å¡ä¸è¡¨ç°å¥½ã

3.1 æä»¤å¾®è°æ°æ®æ ¼å¼ï¼è®©æ¨¡åçè§£ä½ çæå¾

æ¨èæ ¼å¼ç¤ºä¾ï¼

[
  {
    "instruction": "è¯·æ»ç»ä»¥ä¸æç« çæ ¸å¿è§ç¹ã",
    "input": "å¤§åè¯è¨æ¨¡åï¼LLMï¼çå¾®è°æ¹æ³...",
    "output": "æç« ä¸»è¦è®¨è®ºäºLLMå¾®è°çéè¦æ§ãPEFTæ¹æ³ï¼å¦LoRA, QLoRA, Prefix Tuningï¼çåçä¸å®è·µï¼ä»¥åæ°æ®åå¤çå³é®æå·§ã"
  },
  {
    "instruction": "æ¨èä¸é¨å³äºAIçç§å¹»çµå½±ã",
    "input": "", // æ ä¸ä¸æ
    "output": "1. ã2001å¤ªç©ºæ¼«æ¸¸ã 2. ãé¶ç¿¼ææã 3. ãæºæ¢°å§¬ã"
  },
  {
    "instruction": "è¯·å°ä»¥ä¸è±æå¥åç¿»è¯æä¸æï¼å¹¶ä¿æä¸ä¸æ¯è¯ä¸åã",
    "input": "Large Language Models (LLMs) are revolutionizing the field of Artificial Intelligence.",
    "output": "å¤§åè¯è¨æ¨¡åï¼LLMï¼æ£å¨å½»åºæ¹åäººå·¥æºè½é¢åã"
  }
]

ä»£ç ç¤ºä¾ï¼å è½½ä¸æ ¼å¼åæä»¤å¾®è°æ°æ®é

# åºç¡ç¤ºä¾ä»£ç ï¼ä½¿ç¨Hugging Face `datasets`åºå è½½åæ ¼å¼åæ°æ®

from datasets import Dataset
import pandas as pd
import random

# æ¨¡æä¸ä¸ªæä»¤å¾®è°æ°æ®é
# çå®åºæ¯ä¸ï¼ä½ ä¼ä»JSONLãCSVçæä»¶å è½½ä½ çæ°æ®é
instruction_data = [
    {"instruction": "è¯·ç¨ä¸å¥è¯æ¦æ¬Pythonè¯è¨çç¹ç¹ã", "input": "", "output": "Pythonæ¯ä¸ç§é«çº§çãè§£éåçãéç¨çç¼ç¨è¯è¨ï¼ä»¥å¶ç®æ´æäºçè¯æ³åå¼ºå¤§çåºçæç³»ç»èé»åã"},
    {"instruction": "å¦ä½è®¡ç®åè¡¨[1,2,3,4,5]çå¹³åå¼ï¼", "input": "", "output": "å¯ä»¥ä½¿ç¨Pythonåç½®ç`sum()`å½æ°å`len()`å½æ°ï¼å³`sum(my_list) / len(my_list)`ã"},
    {"instruction": "è¯·è§£éä¸ä¸æ¢¯åº¦ä¸éï¼Gradient Descentï¼ç®æ³ã", "input": "", "output": "æ¢¯åº¦ä¸éæ¯ä¸ç§ä¼åç®æ³ï¼ç¨äºå¯»æ¾å½æ°æå°å¼ï¼éè¿æ²¿çå½æ°æ¢¯åº¦ï¼æçï¼çåæ¹åè¿ä»£ç§»å¨æ¥å®ç°ã"},
    {"instruction": "å°ä»¥ä¸å¥åç¿»è¯ææ³è¯ï¼'Hello, how are you?'", "input": "", "output": "Bonjour, comment allez-vous ?"},
    {"instruction": "è¯·æ ¹æ®ä»¥ä¸ä¿¡æ¯ï¼çæä¸ä»½ç®ççäº§ååå¸éç¥é®ä»¶ãäº§ååç§°ï¼AIå©æV1.0ï¼åå¸æ¥æï¼2023å¹´10æ26æ¥ï¼äº®ç¹ï¼æºè½é®çãå¤è¯è¨æ¯æã", "input": "äº§ååç§°ï¼AIå©æV1.0ï¼åå¸æ¥æï¼2023å¹´10æ26æ¥ï¼äº®ç¹ï¼æºè½é®çãå¤è¯è¨æ¯æã", "output": "ä¸»é¢ï¼AIå©æV1.0ééåå¸ï¼

äº²ç±çç¨æ·ï¼

æä»¬æ¿å¨å°å®£å¸ï¼AIå©æV1.0å°äº2023å¹´10æ26æ¥æ£å¼ä¸çº¿ï¼æ°çæ¬å¸¦æ¥äºæºè½é®çãå¤è¯è¨æ¯æçå¼ºå¤§åè½ï¼æ¨å¨ä¸ºæ¨æä¾æ´é«æãæ´ä¾¿æ·çæºè½ä½éªã

æè°¢æ¨çæ¯æï¼
AIå©æå¢é"}
]

# å°åå§æ°æ®è½¬æ¢ä¸ºHugging Face Datasetå¯¹è±¡
dataset = Dataset.from_list(instruction_data)

# å®ä¹ä¸ä¸ªæ ¼å¼åå½æ°ï¼éµå¾ªAlpaca-likeçPromptæ¨¡æ¿
def format_alpaca_prompt(example):
    instruction = example["instruction"]
    input_text = example["input"]
    output_text = example["output"]

    if input_text:
        # åå«ä¸ä¸æçæ¨¡æ¿
        full_text = (
            f"### Instruction:
{instruction}

"
            f"### Input:
{input_text}

"
            f"### Response:
{output_text}"
        )
    else:
        # ä¸å«ä¸ä¸æçæ¨¡æ¿
        full_text = (
            f"### Instruction:
{instruction}

"
            f"### Response:
{output_text}"
        )
    return {"text": full_text}

# åºç¨æ ¼å¼åå½æ°
formatted_dataset = dataset.map(format_alpaca_prompt)

print("åå§æ°æ®æ ·ä¾ (éæºä¸ä¸ª):")
print(random.choice(instruction_data))
print("
æ ¼å¼ååçæ°æ®æ ·ä¾ (éæºä¸ä¸ª):")
print(random.choice(formatted_dataset)["text"])

# å¥½çå®è·µï¼æ°æ®æ¸æ´ä¸è¿æ»¤
def clean_and_filter_data(example):
    # ç¤ºä¾ï¼ç§»é¤è¿çæè¿é¿çæ ·æ¬ï¼æ£æ¥æ¯å¦æç©ºå¼
    if not example["text"] or len(example["text"]) < 50 or len(example["text"]) > 2000:
        return False # è¿æ»¤æä¸ç¬¦åé¿åº¦è¦æ±çæ ·æ¬
    # å¯ä»¥å¨è¿éæ·»å æ´å¤æçé»è¾ï¼ä¾å¦æ£æ¥JSONæ ¼å¼æ¯å¦ææãç§»é¤éå¤æ°æ®ç
    return True

# è¿æ»¤æ°æ®
cleaned_dataset = formatted_dataset.filter(clean_and_filter_data)
print(f"
åå§æ ·æ¬æ°: {len(formatted_dataset)}, æ¸æ´åæ ·æ¬æ°: {len(cleaned_dataset)}")

# ä¸å¥½çå®è·µï¼ç®åç²æ´å°ç§»é¤ææåå«ç¹å®å³é®è¯çæ ·æ¬ï¼å¯è½å¯¼è´è¯¯å 
# def bad_filter_data(example):
#     if "å¹¿å" in example["text"] or "ä¿é" in example["text"]:
#         return False
#     return True
# bad_cleaned_dataset = formatted_dataset.filter(bad_filter_data)
# print(f"ç²æ´è¿æ»¤åæ ·æ¬æ°: {len(bad_cleaned_dataset)}") # å¯è½ä¼è¯¯å ä¸å¹¿åç¸å³çæ£å¸¸äº¤æµ

# æ¨èåæ³ï¼ä½¿ç¨æ´æºè½çå³é®è¯å¹éææ¨¡åè¿è¡æ°æ®æ æ³¨åè¿æ»¤
# ä¾å¦ï¼å¯ä»¥ä½¿ç¨ä¸ä¸ªå°çææ¬åç±»æ¨¡åæ¥è¯å«ä½è´¨éæä¸ç¸å³çæ ·æ¬ã
# æèä½¿ç¨æ£åè¡¨è¾¾å¼è¿è¡æ´ç²¾ç¡®çå¹éï¼å¹¶äººå·¥å¤æ ¸ã

ç¬¬åç« ï¼è¿é¶æå·§ä¸å®æï¼ä¼åãé·é±ä¸é¨ç½²

4.1 æ§è½ä¼åçç¥ï¼ä¸ä»ä»æ¯QLoRA

# æ§è½ä¼åä»£ç ç¤ºä¾ï¼æ¢¯åº¦ç´¯ç§¯ä¸æ··åç²¾åº¦è®ç»  
from transformers import TrainingArguments, Trainer  
import torch

# åè®¾æä»¬å·²ç»æäºpeft_model, tokenizer, tokenized_dataset

# peft_model = ...

# tokenizer = ...

# tokenized_dataset = ...

# æ¨èåæ³ï¼éç½®TrainingArgumentsè¿è¡æ¢¯åº¦ç´¯ç§¯åæ··åç²¾åº¦

training_args = TrainingArguments(  
output_dir="./fine_tuned_model",  
num_train_epochs=3,  
per_device_train_batch_size=4, # å®éçbatch size  
gradient_accumulation_steps=8, # æ¢¯åº¦ç´¯ç§¯æ¥æ°ï¼ææbatch size = 4 * 8 = 32  
learning_rate=2e-4,  
logging_steps=10,  
save_strategy="epoch",  
fp16=False, # ç¦ç¨fp16ï¼å ä¸ºæä»¬å·²ç»å¨QLoRAä¸ä½¿ç¨äºbfloat16  
bf16=True, # å¯ç¨bfloat16æ··åç²¾åº¦è®ç»ï¼å¤§å¹æåéåº¦åç¨³å®æ§  
optim="paged_adamw_8bit", # QLoRAæ¨èçä¼åå¨ï¼è¿ä¸æ¥èçåå  
report_to="tensorboard",  
)

# ä¸æ¨èï¼ä¸ä½¿ç¨æ¢¯åº¦ç´¯ç§¯åæ··åç²¾åº¦ï¼å¯è½å¯¼è´OOMæè®ç»æçä½ä¸

# bad_training_args = TrainingArguments(

# output_dir="./bad_model",

# per_device_train_batch_size=32, # å¦æGPUååä¸è¶³ï¼ä¼OOM

# fp16=False, # ä¸ä½¿ç¨æ··åç²¾åº¦ï¼è®ç»éåº¦æ¢

# )

# å®ä¾åTrainer

# trainer = Trainer(

# model=peft_model,

# args=training_args,

# train_dataset=tokenized_dataset,

# tokenizer=tokenizer,

# )

# trainer.train()

print(" TrainingArgumentséç½®å®æï¼åå«æ¢¯åº¦ç´¯ç§¯åbfloat16æ··åç²¾åº¦ã")  
print(f" ææBatch Size: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")  
print(f" æ··åç²¾åº¦è®ç»: {'bfloat16' if training_args.bf16 else ('fp16' if training_args.fp16 else 'Disabled')}")  
print(f" ä¼åå¨: {training_args.optim}")  
` `` **å³é®ç¹è§£æ**ï¼éè¿ `gradient_accumulation_steps=8`ï¼æä»¬å¯ä»¥å¨ä»æå°`batch_size=4`çæåµä¸ï¼å®ç°ç¸å½äº`batch_size=32`çè®ç»ææã

æ··åç²¾åº¦è®ç»ï¼Mixed Precision Trainingï¼ï¼
ç°ä»£GPUï¼å¦NVIDIA A100ãH100ï¼ææ¶è´¹çº§çRTX 30ç³»ã40ç³»ï¼æ¯æFP16æBF16ï¼bfloat16ï¼æµ®ç¹æ°æ ¼å¼ãå¨è®ç»æ¶ï¼ä½¿ç¨BF16è¿è¡å¤§é¨åè®¡ç®ï¼åæ¶ä¿æé¨åå³é®è®¡ç®ï¼å¦æéæ´æ°ï¼ä½¿ç¨FP32ï¼å¯ä»¥å¨ä¸æå¤±å¤ªå¤ç²¾åº¦çæåµä¸ï¼æ¾èå éè®ç»å¹¶åå°ååå ç¨ãtransformersåºçTraineréè¿è®¾ç½®fp16=Trueæbf16=Trueå³å¯è½»æ¾å¯ç¨ãBF16éå¸¸æ¯FP16æ´ç¨³å®ï¼å ä¸ºå®ææ´å®½çææ°èå´ã
FlashAttention / xFormersï¼
FlashAttentionæ¯ä¸ç§é«æçæ³¨æåæºå¶å®ç°ï¼éè¿åå°ååI/Oæä½ï¼æ¾èå éTransformeræ¨¡åçè®ç»åæ¨çãå®éå¸¸ä¸xFormersåºéæï¼å¨Hugging Face transformersæ¨¡åä¸ï¼éè¿å®è£xFormerså¹¶è®¾ç½®attn_implementation="flash_attention_2"å³å¯å¯ç¨ï¼å¯¹è®¡ç®å¯éåä»»å¡æå·¨å¤§æåã
python # æ§è½ä¼åä»£ç ç¤ºä¾ï¼å¯ç¨FlashAttention (æ¦å¿µæ§) # ç¡®ä¿ä½ å·²ç»å®è£äºxformers: pip install xformers # from transformers import AutoModelForCausalLM # model_flash = AutoModelForCausalLM.from_pretrained( # "google/gemma-2b", # torch_dtype=torch.bfloat16, # device_map="auto", # attn_implementation="flash_attention_2" # å³é®åæ°ï¼å¯ç¨FlashAttention # ) print(" å¯ç¨FlashAttention_2 (éå®è£xformers)ï¼å¯è¿ä¸æ¥æåæ³¨æåè®¡ç®éåº¦ã")
å³é®ç¹è§£æï¼FlashAttention 2 å¯ä»¥å¸¦æ¥ 2-4 åçéåº¦æåï¼å¹¶åå°ååå ç¨é«è¾¾ 2 åï¼å°¤å¶å¨é¿åºåå¤çæ¶æææ¾èã

4.2 å¸¸è§é·é±ä¸è§£å³æ¹æ¡ï¼é¿å¼å¾®è°ä¹è·¯çâåâ

ç¾é¾æ§éå¿ï¼Catastrophic Forgettingï¼ï¼
- é·é±ï¼å¨å¾®è°ç¹å®ä»»å¡æ¶ï¼æ¨¡åå¯è½å¿è®°å¶å¨é¢è®ç»é¶æ®µå¦å°çéç¨ç¥è¯ï¼å¯¼è´æ³åè½åä¸éã
- è§£å³æ¹æ¡ï¼
  - ä½¿ç¨PEFTæ¹æ³ï¼å¦LoRAï¼å®å»ç»äºå¤§é¨ååå§æéï¼åªæ´æ°å°éåæ°ï¼ææä¿çäºéç¨ç¥è¯ã
  - æ°æ®æ··åï¼Data Blendingï¼ï¼å¨å¾®è°æ°æ®ä¸æ··åå°ééç¨é¢åæ°æ®æå¤ä»»å¡æ°æ®ï¼ä»¥æéæ¨¡åä¸è¦å¿è®°éç¨ç¥è¯ã
  - ç¥è¯è¸é¦ï¼Knowledge Distillationï¼ï¼ä½¿ç¨æªå¾®è°çåå§æ¨¡åä½ä¸ºâæå¸æ¨¡åâï¼éè¿è¸é¦çæ¹å¼å°éç¨ç¥è¯è¿ç§»å°å¾®è°åçâå¦çæ¨¡åâä¸ã
è¿æåï¼Overfittingï¼ä¸æ¬ æåï¼Underfittingï¼ï¼
- é·é±ï¼
  - è¿æåï¼æ¨¡åå¨è®ç»æ°æ®ä¸è¡¨ç°æå¥½ï¼ä½å¨æªè§è¿çæ°æ®ä¸è¡¨ç°å·®ãè¿éå¸¸æ¯ç±äºè®ç»æ°æ®éä¸è¶³ãå¦ä¹ çè¿é«ãè®ç»è½®æ¬¡è¿å¤ææ¨¡åå¤æåº¦è¿é«ï¼å¦LoRAçrå¼è¿å¤§ï¼å¯¼è´ã
  - æ¬ æåï¼æ¨¡åå¨è®ç»æ°æ®åæµè¯æ°æ®ä¸é½è¡¨ç°ä¸ä½³ãè¿å¯è½æ¯å ä¸ºè®ç»æ°æ®éè¿å°ãæ¨¡åå¤æåº¦ä¸è¶³ï¼å¦LoRAçrå¼è¿å°ï¼ãå¦ä¹ çè¿ä½æè®ç»è½®æ¬¡ä¸è¶³ã
- è§£å³æ¹æ¡ï¼
  - æ°æ®å¢å¼ºï¼æ©åè®ç»æ°æ®éï¼æé«æ°æ®çå¤æ ·æ§ã
  - æ£ååï¼å¨LoRAéç½®ä¸å¢å lora_dropoutï¼æä½¿ç¨æéè¡°åï¼weight_decayï¼ã
  - æ©åï¼Early Stoppingï¼ï¼çæ§éªè¯éä¸çæ§è½ï¼å½æ§è½ä¸åæåæ¶åæ¢è®ç»ã
  - è¶åæ°è°ä¼ï¼ä»ç»è°æ´å¦ä¹ çãLoRAçrålora_alphaçåæ°ã
  å¸¸è§é·é±ä»£ç ç¤ºä¾ï¼æ©åçç¥ (æ¦å¿µæ§)
  
  from transformers import EarlyStoppingCallback
  
  training_args_with_early_stopping = TrainingArguments(
  
  output_dir="./fine_tuned_model_early_stop",
  
  evaluation_strategy="steps", # æ¯éä¸å®æ¥æ°è¯ä¼°ä¸æ¬¡
  
  eval_steps=50, # è¯ä¼°é´é
  
  load_best_model_at_end=True, # è®ç»ç»æåå è½½éªè¯éä¸è¡¨ç°æå¥½çæ¨¡å
  
  metric_for_best_model="eval_loss", # çæ§ææ
  
  greater_is_better=False, # æå¤±è¶å°è¶å¥½
  
  # ... å¶ä»åæ° ...
  
  )
  
  trainer_with_early_stopping = Trainer(
  
  model=peft_model,
  
  args=training_args_with_early_stopping,
  
  train_dataset=tokenized_dataset,
  
  eval_dataset=tokenized_validation_dataset, # éè¦æä¾éªè¯é
  
  callbacks=[EarlyStoppingCallback(early_stopping_patience=3)], # è¿ç»3æ¬¡éªè¯æå¤±ä¸ä¸éååæ¢
  
  tokenizer=tokenizer,
  
  )
  
  trainer_with_early_stopping.train()
  
  print("
  æ©åçç¥æ¯é²æ¢è¿æåçææææ®µï¼éè¿çæ§éªè¯éæ§è½æ¥å³å®ä½æ¶åæ¢è®ç»ã")
æ°æ®è´¨éé®é¢ï¼
- é·é±ï¼è®ç»æ°æ®ä¸åå«åªå£°ãéè¯¯ãä¸ä¸è´çæ ¼å¼ãåè§æä¸ç¸å³çä¿¡æ¯ã
- è§£å³æ¹æ¡ï¼
  - ä¸¥æ ¼çæ°æ®æ¸æ´ï¼å»é¤éå¤ãæªæãæ ¼å¼éè¯¯çæ°æ®ã
  - äººå·¥å®¡æ ¸ä¸æ æ³¨ï¼å¯¹äºå³é®æ°æ®ï¼è¿è¡é«è´¨éçäººå·¥å®¡æ ¸åæ æ³¨ã
  - æ°æ®å»åï¼è¯å«å¹¶å°è¯åå°æ°æ®ä¸çåè§ï¼ç¡®ä¿å¤æ ·æ§åä»£è¡¨æ§ã
  - ä»£ç ç¤ºä¾ï¼æ°æ®æ¸æ´ï¼ï¼
  æ¨èåæ³ï¼é²æ£çæ°æ®æ¸æ´å½æ°
  
  def robust_data_cleaner(example):
  text = example["text"]
  
  1. ç§»é¤å¤ä½çç©ºç½ç¬¦
  
  text = ' '.join(text.split())
  
  2. ç»ä¸æ ç¹ç¬¦å· (ä¾å¦ï¼å°å¨è§éå·è½¬æ¢ä¸ºåè§)
  
  text = text.replace('ï¼', ',').replace('ã', '.')
  
  3. æ£æ¥æ¯å¦æææ¾çä¹±ç æHTMLæ ç¾
  
  if "" in text or "<html" in text:
  return None # è¿æ»¤æç½é¡µåå®¹
  
  4. æ£æ¥é¿åº¦æææ§ (é¿åæç«¯é¿çå¥)
  
  if len(text) < 30 or len(text) > 3000:
  return None
  
  5. å¯éï¼ä½¿ç¨æ£åè¡¨è¾¾å¼å»é¤ç¹å®æ¨¡å¼ï¼å¦URLãé®ç®±çï¼
  
  import re
  text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
  example["text"] = text
  return example
  
  cleaned_dataset_robust = formatted_dataset.map(robust_data_cleaner).filter(lambda x: x is not None)
  
  print(f"
  
  é²æ£æ¸æ´åçæ ·æ¬æ°: {len(cleaned_dataset_robust)}")
  
  ä¸æ¨èï¼ä¸è¿è¡ä»»ä½æ¸æ´ï¼ç´æ¥ä½¿ç¨åå§æ°æ®ï¼å¯è½å¼å¥å¤§éåªå£°ã
  
  bad_data = ["è¿æ¯ä¸ä¸ªæµè¯ã", "è¿æ¯ä¸ä¸ªæµè¯ã", "åå¾æ°æ®", "å¾çã"]
  
  raw_dataset = Dataset.from_dict({"text": bad_data})
  
  print(f"
  
  æªæ¸æ´æ°æ®æ ·ä¾: {raw_dataset['text']}")
```
**å³é®ç¹è§£æ**ï¼æ°æ®æ¸æ´æ¯ä¸ä¸ªè¿ä»£çè¿ç¨ï¼éè¦ç»åé¢åç¥è¯åèªå¨åå·¥å·ã
```
è¶åæ°è°ä¼ï¼Hyperparameter Tuningï¼ï¼
- é·é±ï¼ç²ç®éæ©å¦ä¹ çãLoRAç§©ï¼rï¼ãlora_alphaçï¼å¯¼è´è®ç»ä¸ç¨³å®ææ§è½ä¸ä½³ã
- è§£å³æ¹æ¡ï¼
  - ç½æ ¼æç´¢/éæºæç´¢ï¼å¯¹å³é®è¶åæ°è¿è¡ç³»ç»æ§æ¢ç´¢ã
  - è´å¶æ¯ä¼åï¼æ´é«æçè¶åæ°æç´¢æ¹æ³ï¼å¦ä½¿ç¨OptunaæRay Tuneï¼ã
  - å¦ä¹ çè°åº¦å¨ï¼Learning Rate Schedulerï¼ï¼ä½¿ç¨ä½å¼¦éç«ï¼Cosine Annealingï¼çè°åº¦å¨ï¼å¨æè°æ´å¦ä¹ çï¼å¸®å©æ¨¡åæ´å¥½å°æ¶æã

å¾®è°å®æåï¼å¦ä½å°æ¨¡åé¨ç½²å°çäº§ç¯å¢æ¯å³é®ä¸æ¥ã

# å®æ´é¡¹ç®ä»£ç  (ç®å)ï¼LoRAæ¨¡åä¿åä¸åå¹¶  
# from peft import PeftModel  
# from transformers import AutoModelForCausalLM, AutoTokenizer

# peft_model = ... # åè®¾è¿æ¯æä»¬è®ç»å¥½çPEFTæ¨¡å

# tokenizer = ... # å¯¹åºçtokenizer

# ä¿åLoRAééå¨

# peft_model.save_pretrained("./my_lora_adapter")

# tokenizer.save_pretrained("./my_lora_adapter")

print("  
LoRAééå¨å·²ä¿åå° `./my_lora_adapter`ã")

# å è½½åºåº§æ¨¡å

# base_model = AutoModelForCausalLM.from_pretrained(

# "google/gemma-2b",

# torch_dtype=torch.bfloat16,

# )

#

# # å°LoRAééå¨åå¹¶å°åºåº§æ¨¡å

# merged_model = PeftModel.from_pretrained(base_model, "./my_lora_adapter")

# merged_model = merged_model.merge_and_unload() # åå¹¶å¹¶å¸è½½PEFTç»æ

#

# # ä¿ååå¹¶åçæ¨¡å

# merged_model.save_pretrained("./my_merged_model")

# tokenizer.save_pretrained("./my_merged_model")

print(" LoRAééå¨å¯ä»¥ä¸åºåº§æ¨¡ååå¹¶ï¼å½¢æä¸ä¸ªå®æ´çå¾®è°æ¨¡åï¼ä¾¿äºé¨ç½²ã")

æ¨¡åæå¡ï¼Model Servingï¼ï¼
å¯¹äºçäº§ç¯å¢ï¼ç´æ¥ä½¿ç¨Hugging Faceçpipelineè¿è¡æ¨çå¯è½æçä¸é«ãå¯ä»¥èèä½¿ç¨ä¸é¨çLLMæå¡æ¡æ¶ï¼
- **vLLM**ï¼ä¸ä¸ªé«æ§è½çLLMæ¨çåæå¡å¼æï¼æ¯æè¿ç»æ¹å¤çï¼continuous batchingï¼åPagedAttentionç®æ³ï¼æ¾èæé«ååéåéä½å»¶è¿ã
- Text Generation Inference (TGI) ï¼Hugging Faceå¼åççäº§çº§æ¨çè§£å³æ¹æ¡ï¼æ¯æå¤ç§ä¼åï¼å¦FlashAttentionãéåãè¿ç»æ¹å¤çï¼ã
è¿äºå·¥å·è½å¤å¸®å©ä½ å¨æéçç¡¬ä»¶èµæºä¸ï¼ä¸ºå¤ä¸ªç¨æ·æä¾é«æãç¨³å®çLLMæå¡ã

ç¬¬äºç« ï¼æ»ç»ä¸å±æï¼å¼å¯ä½ çä¸å±LLMä¹æ

5.1 æ ¸å¿ç¥è¯ç¹åé¡¾

**LLMå¾®è°çå¿è¦æ§**ï¼éç¨LLMå¨ç¹å®é¢åæä»»å¡ä¸è¡¨ç°ä¸è¶³ï¼å¾®è°æ¯æåå¶ä¸ä¸æ§åè¡ä¸ºæ¨¡å¼çå³é®ã
ä¼ ç»å¾®è°çææï¼é«ç®åãé¿æ¶é´åç¾é¾æ§éå¿æ¯å¶ä¸»è¦ç¶é¢ã
PEFTï¼åæ°é«æå¾®è°ï¼ï¼ä»¥å°åå¤§ççç¥ï¼éè¿å¼å¥å°éå¯è®ç»åæ°æä¿®æ¹è¾å¥æç¤ºï¼å®ç°é«æå¾®è°ã
Prompt Tuning / Prefix Tuningï¼å»ç»æ¨¡åä¸»ä½ï¼åªè®ç»è½¯æç¤ºæåç¼ï¼ä»¥æå°åæ°å¼å¯¼æ¨¡åè¡ä¸ºã
æ°æ®ä¸ºçï¼é«è´¨éãæ ¼å¼è§èçæä»¤å¾®è°æ°æ®æ¯æåçåºç³ï¼æ°æ®æ¸æ´åæ¨¡æ¿åè³å³éè¦ã
æ§è½ä¼åï¼æ¢¯åº¦ç´¯ç§¯ãæ··åç²¾åº¦è®ç»ãFlashAttentionçææ¯å¯è¿ä¸æ¥æåè®ç»æçã
å¸¸è§é·é±ï¼ç¾é¾æ§éå¿ãè¿æåãæ°æ®è´¨éé®é¢åè¶åæ°è°ä¼æ¯å¾®è°è¿ç¨ä¸çä¸»è¦ææã
æ¨¡åé¨ç½²ï¼è®ç»åçLoRAæéå¯åå¹¶ï¼å¹¶éè¿vLLMãTGIçå·¥å·è¿è¡é«ææå¡ã

5.2 å®æå»ºè®®

ä»å°å¤çæï¼ä»ä¸ä¸ªè¾å°çæ¨¡åï¼å¦Gemma-2BãLlama-3-8Bï¼åå°éæ°æ®å¼å§ï¼å¿«éè¿ä»£ï¼éªè¯ææã
éæ©åéçPEFTæ¹æ³ï¼
- èµæºæéä¸è¿½æ±æè´ååä¼åï¼QLoRAæ¯é¦éã
- **å¸æå¨æ§è½åèµæºé´åå¾å¹³è¡¡**ï¼LoRAæ¯éç¨ä¸å¼ºå¤§çéæ©ã
- åæ°é¢ç®æä½ï¼æä»éè¿è¡è½»éçº§è¡ä¸ºå¼å¯¼ï¼Prompt Tuning/Prefix Tuningå¯è½æ´åéã
æå¥æ°æ®åå¤ï¼è±è¶³å¤çæ¶é´æ¶éãæ¸æ´åæ ¼å¼åæ°æ®ãæ°æ®è´¨éæ¯æ°æ®æ°éæ´éè¦ã
ç»è´è°ä¼è¶åæ°ï¼å¦ä¹ çãLoRAçrålora_alphaå¯¹æ¨¡åæ§è½å½±åå·¨å¤§ï¼å¤åå®éªã
çæ§ä¸è¯ä¼°ï¼å¨è®ç»è¿ç¨ä¸æç»çæ§è®ç»æå¤±åéªè¯éææ ï¼åæ¶åç°è¿æåææ¬ æåã

5.3 è¿é¶æ¹åä¸æªæ¥è¶å¿

åå¥½å¯¹é½ï¼Preference Alignmentï¼ï¼å¦DPOï¼Direct Preference Optimizationï¼ å RLHFï¼Reinforcement Learning from Human Feedbackï¼ï¼éè¿äººç±»åé¦è¿ä¸æ¥ä¼åæ¨¡åè¡ä¸ºï¼ä½¿å¶æ´å¥½å°ç¬¦åäººç±»ä»·å¼è§ååå¥½ã
æ£ç´¢å¢å¼ºçæï¼RAG, Retrieval Augmented Generationï¼ï¼å°LLMä¸å¤é¨ç¥è¯åºç»åï¼ä½¿å¶è½å¤æ£ç´¢ææ°ãæåç¡®çä¿¡æ¯è¿è¡çæï¼è§£å³LLMçâå¹»è§âé®é¢ã
Agentic Workflowsï¼å¾®è°LLMä½¿å¶è½å¤ä½ä¸ºæºè½ä½ï¼èªä¸»è§åãè°ç¨å·¥å·ãæ§è¡å¤æä»»å¡ã

LLM微调方法与技巧完全指南：7个必知技巧+实战代码

ç¬¬ä¸ç« ï¼LLMå¾®è°åºç¡ï¼ä¸ºä»ä¹éè¦å¾®è°ï¼

1.1 ä»ä¹æ¯LLMå¾®è°ï¼é¢è®­ç»ä¸å¾®è°çå¥¥ç§

1.2 ä¼ ç»å¾®è°çææï¼ç®åä¸âéå¿çâ

ç¬¬äºç« ï¼é«æå¾®è°æ¹æ³ï¼PEFTï¼çæ ¸å¿åçï¼å°æ¹å¨ï¼å¤§æåï¼

2.1 PEFTæ¦è¿°ï¼ä»¥å°åå¤§çæºæ §

2.2 LoRA (Low-Rank Adaptation)ï¼ä½ç§©éé çç²¾é«

2.3 QLoRA (Quantized Low-Rank Adaptation)ï¼éåå éä¸å å­ä¼å

2.4 Prompt Tuning / P-Tuning / Prefix Tuningï¼ä¸å¨å¦å±±çæ¨¡åä¸»ä½

ç¬¬ä¸ç« ï¼æ°æ®åå¤ä¸å¤ççèºæ¯ï¼ä¼è´¨æ°æ®æ¯å¾®è°æåçåºç³

3.1 æä»¤å¾®è°æ°æ®æ ¼å¼ï¼è®©æ¨¡åçè§£ä½ çæå¾

ç¬¬åç« ï¼è¿é¶æå·§ä¸å®æï¼ä¼åãé·é±ä¸é¨ç½²

4.1 æ§è½ä¼åç­ç¥ï¼ä¸ä» ä» æ¯QLoRA

4.2 å¸¸è§é·é±ä¸è§£å³æ¹æ¡ï¼é¿å¼å¾®è°ä¹è·¯çâåâ

å¸¸è§é·é±ä»£ç ç¤ºä¾ï¼æ©åç­ç¥ (æ¦å¿µæ§)

from transformers import EarlyStoppingCallback

training_args_with_early_stopping = TrainingArguments(

output_dir="./fine_tuned_model_early_stop",

evaluation_strategy="steps", # æ¯éä¸å®æ­¥æ°è¯ä¼°ä¸æ¬¡

eval_steps=50, # è¯ä¼°é´é

load_best_model_at_end=True, # è®­ç»ç»æåå è½½éªè¯éä¸è¡¨ç°æå¥½çæ¨¡å

metric_for_best_model="eval_loss", # çæ§ææ 

greater_is_better=False, # æå¤±è¶å°è¶å¥½

# ... å ¶ä»åæ° ...

)

trainer_with_early_stopping = Trainer(

model=peft_model,

args=training_args_with_early_stopping,

train_dataset=tokenized_dataset,

eval_dataset=tokenized_validation_dataset, # éè¦æä¾éªè¯é

callbacks=[EarlyStoppingCallback(early_stopping_patience=3)], # è¿ç»­3æ¬¡éªè¯æå¤±ä¸ä¸éååæ­¢

tokenizer=tokenizer,

)

trainer_with_early_stopping.train()

æ¨èåæ³ï¼é²æ£çæ°æ®æ¸ æ´å½æ°

1. ç§»é¤å¤ä½çç©ºç½ç¬¦

2. ç»ä¸æ ç¹ç¬¦å· (ä¾å¦ï¼å°å ¨è§éå·è½¬æ¢ä¸ºåè§)

3. æ£æ¥æ¯å¦æææ¾çä¹±ç æHTMLæ ç­¾

4. æ£æ¥é¿åº¦æææ§ (é¿å æç«¯é¿ç­å¥)

5. å¯éï¼ä½¿ç¨æ­£åè¡¨è¾¾å¼å»é¤ç¹å®æ¨¡å¼ï¼å¦URLãé®ç®±ç­ï¼

cleaned_dataset_robust = formatted_dataset.map(robust_data_cleaner).filter(lambda x: x is not None)

print(f"

ä¸æ¨èï¼ä¸è¿è¡ä»»ä½æ¸ æ´ï¼ç´æ¥ä½¿ç¨åå§æ°æ®ï¼å¯è½å¼å ¥å¤§éåªå£°ã

bad_data = ["è¿æ¯ä¸ä¸ªæµè¯ã", "è¿æ¯ä¸ä¸ªæµè¯ã", "åå¾æ°æ®", "å¾ç­ã"]

raw_dataset = Dataset.from_dict({"text": bad_data})

print(f"

4.3 å¾®è°åçé¨ç½²ä¸åºç¨ï¼è®©æ¨¡åè½å°

ç¬¬äºç« ï¼æ»ç»ä¸å±æï¼å¼å¯ä½ çä¸å±LLMä¹æ

5.1 æ ¸å¿ç¥è¯ç¹åé¡¾

5.2 å®æå»ºè®®

5.3 è¿é¶æ¹åä¸æªæ¥è¶å¿

ç¬¬ä¸ç« ï¼LLMå¾®è°åºç¡ï¼ä¸ºä»ä¹éè¦å¾®è°ï¼

1.1 ä»ä¹æ¯LLMå¾®è°ï¼é¢è®ç»ä¸å¾®è°çå¥¥ç§

1.2 ä¼ ç»å¾®è°çææï¼ç®åä¸âéå¿çâ

ç¬¬äºç« ï¼é«æå¾®è°æ¹æ³ï¼PEFTï¼çæ ¸å¿åçï¼å°æ¹å¨ï¼å¤§æåï¼

2.1 PEFTæ¦è¿°ï¼ä»¥å°åå¤§çæºæ§

2.2 LoRA (Low-Rank Adaptation)ï¼ä½ç§©ééçç²¾é«

2.3 QLoRA (Quantized Low-Rank Adaptation)ï¼éåå éä¸ååä¼å

2.4 Prompt Tuning / P-Tuning / Prefix Tuningï¼ä¸å¨å¦å±±çæ¨¡åä¸»ä½

ç¬¬ä¸ç« ï¼æ°æ®åå¤ä¸å¤ççèºæ¯ï¼ä¼è´¨æ°æ®æ¯å¾®è°æåçåºç³

3.1 æä»¤å¾®è°æ°æ®æ ¼å¼ï¼è®©æ¨¡åçè§£ä½ çæå¾

ç¬¬åç« ï¼è¿é¶æå·§ä¸å®æï¼ä¼åãé·é±ä¸é¨ç½²

4.1 æ§è½ä¼åçç¥ï¼ä¸ä»ä»æ¯QLoRA

4.2 å¸¸è§é·é±ä¸è§£å³æ¹æ¡ï¼é¿å¼å¾®è°ä¹è·¯çâåâ

å¸¸è§é·é±ä»£ç ç¤ºä¾ï¼æ©åçç¥ (æ¦å¿µæ§)

evaluation_strategy="steps", # æ¯éä¸å®æ¥æ°è¯ä¼°ä¸æ¬¡

eval_steps=50, # è¯ä¼°é´é

load_best_model_at_end=True, # è®ç»ç»æåå è½½éªè¯éä¸è¡¨ç°æå¥½çæ¨¡å

metric_for_best_model="eval_loss", # çæ§ææ

greater_is_better=False, # æå¤±è¶å°è¶å¥½

# ... å¶ä»åæ° ...

eval_dataset=tokenized_validation_dataset, # éè¦æä¾éªè¯é

callbacks=[EarlyStoppingCallback(early_stopping_patience=3)], # è¿ç»3æ¬¡éªè¯æå¤±ä¸ä¸éååæ¢

æ¨èåæ³ï¼é²æ£çæ°æ®æ¸æ´å½æ°

1. ç§»é¤å¤ä½çç©ºç½ç¬¦

2. ç»ä¸æ ç¹ç¬¦å· (ä¾å¦ï¼å°å¨è§éå·è½¬æ¢ä¸ºåè§)

3. æ£æ¥æ¯å¦æææ¾çä¹±ç æHTMLæ ç¾

4. æ£æ¥é¿åº¦æææ§ (é¿åæç«¯é¿çå¥)

5. å¯éï¼ä½¿ç¨æ£åè¡¨è¾¾å¼å»é¤ç¹å®æ¨¡å¼ï¼å¦URLãé®ç®±çï¼

ä¸æ¨èï¼ä¸è¿è¡ä»»ä½æ¸æ´ï¼ç´æ¥ä½¿ç¨åå§æ°æ®ï¼å¯è½å¼å¥å¤§éåªå£°ã

bad_data = ["è¿æ¯ä¸ä¸ªæµè¯ã", "è¿æ¯ä¸ä¸ªæµè¯ã", "åå¾æ°æ®", "å¾çã"]

4.3 å¾®è°åçé¨ç½²ä¸åºç¨ï¼è®©æ¨¡åè½å°

ç¬¬äºç« ï¼æ»ç»ä¸å±æï¼å¼å¯ä½ çä¸å±LLMä¹æ

5.1 æ ¸å¿ç¥è¯ç¹åé¡¾

5.2 å®æå»ºè®®

5.3 è¿é¶æ¹åä¸æªæ¥è¶å¿