深入理解LLM多模态融合：从原理到实战å¼è¨ï¼æç ´ææ¬çè¾¹çï¼æ¥æ±å¤

å¼è¨ï¼æç ´ææ¬çè¾¹çï¼æ¥æ±å¤æ¨¡ææºè½

# è¿æ¯ä¸ä¸ªçº¯ææ¬LLMé¢å¯¹å¾åçä¼ªä»£ç 
class TextOnlyLLM:
    def generate_description(self, prompt: str, image_path: str = None) -> str:
        if image_path:
            # çº¯ææ¬LLMæ æ³ç´æ¥å¤çå¾åæä»¶
            return f"å¯¹ä¸èµ·ï¼ææ æ³ç´æ¥çè§£å¾åæä»¶ãè¯·æ¨ç¨æåæè¿°å¾ååå®¹ï¼æä¼å°½åçæãæ¨æå°äºï¼'{prompt}'"
        else:
            # åªè½å¤çææ¬æç¤º
            return self._text_generation_logic(prompt)

# åºæ¯ï¼ç¨æ·ä¸ä¼ ä¸å¼ ç«åªå¾çï¼å¹¶é®âè¿æ¯ä»ä¹ï¼â
llm = TextOnlyLLM()
image_file = "path/to/cat_image.jpg"
response = llm.generate_description(prompt="è¯·æè¿°è¿å¼ å¾ç", image_path=image_file)
print(response)
# è¾åº: å¯¹ä¸èµ·ï¼ææ æ³ç´æ¥çè§£å¾åæä»¶ãææ æ³ç´æ¥çè§£å¾åæä»¶ãè¯·æ¨ç¨æåæè¿°å¾ååå®¹ï¼æä¼å°½åçæãæ¨æå°äºï¼'è¯·æè¿°è¿å¼ å¾ç'

ç¬¬ä¸ç« ï¼ä¸ºä½å¤æ¨¡æèåå¿å¨å¿è¡ï¼

1.1 LLMçâç²åºâä¸âèåºâï¼ææ¬çå±éæ§

# çº¯ææ¬LLMå¤çææ¬ï¼æ æ³å³èå¾å
def analyze_text_llm(text_input: str) -> str:
    if "ç«" in text_input:
        return "ææ¬ä¸æå°äºç«ï¼è¿æ¯ä¸ç§å¸¸è§çå® ç©ã"
    return "ææ¬å¤çç»æã"

# å¤çå¾åçå½æ°ï¼ä½LLMæ æ³è°ç¨æçè§£å¶è¾åºï¼
def process_image_vision_model(image_data: bytes) -> str:
    # åè®¾è¿æ¯ä¸ä¸ªç¬ç«çè§è§æ¨¡åï¼è½å¤è¯å«å¾ååå®¹
    # å®éä¸ä¼è¿åå¾åçåç±»ãæ£æµç»æææè¿°
    if b"cat_features" in image_data: # æ¨¡ææ£æµå°ç«çç¹å¾
        return "å¾åä¸åå«ä¸åªç«ã"
    return "å¾åè¯å«ç»æã"

# åºæ¯ï¼ç¨æ·å±ç¤ºä¸å¼ ç«çå¾çï¼å¹¶é®ï¼âè¿æ¯ä»ä¹ï¼â
user_image_data = b"...åå§ç«åªå¾çäºè¿å¶æ°æ®..." # æ¨¡æå¾çæ°æ®
user_text_question = "è¿æ¯ä»ä¹ï¼"

# çº¯ææ¬LLMçååº
llm_response = analyze_text_llm(user_text_question)
print(f"LLM (text-only) ååº: {llm_response}")
# è¾åº: LLM (text-only) ååº: ææ¬å¤çç»æã (å ä¸ºé®é¢ä¸æ²¡æç´æ¥æå°âç«âå)

# è§è§æ¨¡åçååºï¼ä¸LLMè±èï¼
vision_response = process_image_vision_model(user_image_data)
print(f"è§è§æ¨¡åååº: {vision_response}")
# è¾åº: è§è§æ¨¡åååº: å¾åä¸åå«ä¸åªç«ã

# ä¸¤ä¸ªæ¨¡åæ æ³ååå·¥ä½ï¼å¯¼è´æ´ä½æºè½ä¸è¶³ãLLMæ æ³å©ç¨è§è§æ¨¡åçç»ææ¥åçé®é¢ã

1.2 å¤æ¨¡ææºè½çå·¨å¤§ä»·å¼

æºè½å®¢æä¸èæå©æï¼ ä¸åä»ä»ä¾èµæåï¼å¯ä»¥ç´æ¥çè§£ç¨æ·ä¸ä¼ çæªå¾ãè¯é³æ¶æ¯ï¼æä¾æ´åç¡®ãæ´äººæ§åçæå¡ãä¾å¦ï¼ç¨æ·æä¸çµå¨æéç§çï¼AIå¯ä»¥ç´æ¥è¯æå¹¶æä¾ç»´ä¿®å»ºè®®ï¼éè¿è¯é³è¯å«ç¨æ·é®é¢ï¼å¹¶ç»åå±å¹åå®¹è¿è¡æä½æå¯¼ãè¿æå¤§å°æåäºç¨æ·ä½éªåé®é¢è§£å³æçã
èªå¨é©¾é©¶ï¼ ç»åè§è§ï¼æåå¤´ï¼ãé·è¾¾ãæ¿åé·è¾¾æ°æ®ä¸è¯è¨çè§£ï¼å®ç°æ´ç²¾åçç¯å¢æç¥ãå³çä¸äººè½¦äº¤äºãå¤æ¨¡æLLMå¯ä»¥çè§£âåæ¹çº¢ç¯å³è½¬âè¿æ ·çæä»¤ï¼å¹¶ç»åä¼ æå¨æ°æ®å¤æè·¯åµï¼è§åå®å¨è·¯å¾ï¼çè³å¨ç´§æ¥æåµä¸ä¸ä¹å®¢è¿è¡æ²éï¼è§£éå½åæåµã
å»çè¯æï¼ ç»åå»å¦å½±åï¼XåãCTãMRIï¼ãççæ¥åãçµåçåææ¬ï¼è¾å©å»çè¿è¡æ´å¨é¢çè¯æåæ²»çæ¹æ¡å»ºè®®ãAIå¯ä»¥è¯å«å½±åä¸çå¼å¸¸ï¼å³èçå²ä¸çå³é®ä¿¡æ¯ï¼å¹¶ç¨èªç¶è¯è¨è§£éè¯æç»æåæ¨èæ²»çæ¹æ¡ï¼æä¸ºå»ççå¾åå©æã
æºè½é¶å®ä¸å·¥ä¸æ£æµï¼ éè¿åæé¡¾å®¢å¨åºåçè¡ä¸ºè§é¢ãè¯é³ãæåäº¤æµï¼æä¾ä¸ªæ§åæ¨èåè´ç©ä½éªãå¨å·¥ä¸é¢åï¼ç»åå¾åæ£æµäº§åç¼ºé·ãå£°é³è¯å«è®¾å¤å¼å¸¸ï¼å¹¶ç¨è¯è¨æ¥åé®é¢åæä¾è§£å³æ¹æ¡ï¼å®ç°æºè½è´¨æ£åé¢æµæ§ç»´æ¤ã
åå®¹åä½ä¸æè²ï¼ æ ¹æ®ç¨æ·æä¾çå¾ççææäºãè¯æãçµå½±å§æ¬ï¼æèæ ¹æ®æåæè¿°çæå¾åãå¨æè²é¢åï¼å¤æ¨¡æLLMå¯ä»¥çè§£å¦çæäº¤çæåä½ä¸å¾çï¼å¹¶æä¾ä¸ªæ§åçæ¹æ¹åè®²è§£ã

# çæ³çå¤æ¨¡æLLMå¦ä½å¤çä¸è¿°åºæ¯çä¼ªä»£ç 
class MultimodalLLM:
    def understand_and_respond(self, prompt: str, image_data: bytes = None) -> str:
        # æ ¸å¿èåæ¥éª¤ï¼å°å¤æ¨¡æä¿¡æ¯æ´åä¸ºä¸ä¸ªç»ä¸çä¸ä¸æè¡¨ç¤º
        multimodal_context = self._fuse_modalities(prompt, image_data) 

        # åºäºèååçä¸ä¸æè¿è¡çè§£åçæ
        if "ç«" in multimodal_context and "å¾åä¸åå«ä¸åªç«" in multimodal_context:
            return "æçå°å¾åä¸æä¸åªå¯ç±çç«åªï¼å®å¯è½æ£å¨ç©èãæ¨æ³ç¥éå³äºå®ä»ä¹å¢ï¼"
        elif image_data and "æé" in prompt:
            # æ¨¡æçè§£å¾çä¸çæéç°è±¡å¹¶ç»åææ¬é®é¢è¿è¡è¯æ
            if "çµçº¿" in multimodal_context and "ç£¨æ" in multimodal_context:
                return "æ ¹æ®å¾çæ¾ç¤ºï¼çµçº¿æç£¨æè¿¹è±¡ï¼è¿å¯è½æ¯å¯¼è´æéçåå ãå»ºè®®ç«å³æ£æ¥å¹¶æ´æ¢åæçµçº¿ã"
            return f"æçè§£äºå¾ååæ¨çææ¬ï¼'{prompt}'ãè¯·é®æè½ä¸ºæ¨åäºä»ä¹ï¼"
        else:
            # å¦ææ²¡æå¾åæç¹å®å¤æ¨¡æäº¤äºï¼åéåä¸ºçº¯ææ¬çæ
            return self._text_generation_logic(prompt)

    def _fuse_modalities(self, text: str, image: bytes = None) -> str:
        # è¿æ¯ä¸ä¸ªç®åçèåé»è¾ï¼å®éæ¶åå¤æçç¹å¾æååå¯¹é½
        fused_info = f"ææ¬ä¿¡æ¯ï¼{text}"
        if image:
            # åè®¾è¿éè°ç¨äºä¸ä¸ªè§è§ç¼ç å¨å¹¶å°å¶è¾åºè½¬æ¢æææ¬æè¿°æç¹å¾Token
            vision_features_as_text = self._vision_encoder_to_text(image)
            fused_info += f"
è§è§ä¿¡æ¯ï¼{vision_features_as_text}"
        return fused_info

    def _vision_encoder_to_text(self, image_data: bytes) -> str:
        # æ¨¡æè§è§ç¼ç å¨å°å¾åè½¬åä¸ºLLMå¯çè§£çææ¬å½¢å¼æTokenåºå
        # ä¾å¦ï¼"å¾åä¸æä¸ä¸ªç©ä½ï¼ç¹å¾åéè¡¨ç¤ºï¼[0.1, 0.5, ...]" æèç´æ¥çæå¾åæè¿°
        if b"cat_features" in image_data:
            return "å¾åä¸åå«ä¸åªç«ï¼èæ¯æ¯å®¢åã"
        elif b"broken_wire" in image_data:
            return "å¾åæ¾ç¤ºä¸æ ¹çµçº¿æææ¾ç£¨æï¼å¯è½å¯¼è´çè·¯ã"
        return "å¾åè¯å«ç»æã"

# åºæ¯1ï¼ç¨æ·å±ç¤ºä¸å¼ ç«çå¾çï¼å¹¶é®ï¼âè¿æ¯ä»ä¹ï¼â
multimodal_llm = MultimodalLLM()
user_image_data_cat = b"cat_features" # æ¨¡æç«åªå¾çäºè¿å¶æ°æ®
user_text_question_cat = "è¿æ¯ä»ä¹ï¼"

response_cat = multimodal_llm.understand_and_respond(user_text_question_cat, user_image_data_cat)
print(f"å¤æ¨¡æLLMååº (ç«åª): {response_cat}")
# é¢æè¾åº: å¤æ¨¡æLLMååº (ç«åª): æçå°å¾åä¸æä¸åªå¯ç±çç«åªï¼å®å¯è½æ£å¨ç©èãæ¨æ³ç¥éå³äºå®ä»ä¹å¢ï¼

# åºæ¯2ï¼ç¨æ·ä¸ä¼ ä¸å¼ çµå¨æéå¾çï¼å¹¶è¯¢é®åå 
user_image_data_fault = b"broken_wire" # æ¨¡æçµå¨æéå¾ç
user_text_question_fault = "æççµå¨ä¸å·¥ä½äºï¼è¿æ¯ä»ä¹æåµï¼"

response_fault = multimodal_llm.understand_and_respond(user_text_question_fault, user_image_data_fault)
print(f"å¤æ¨¡æLLMååº (æé): {response_fault}")
# é¢æè¾åº: å¤æ¨¡æLLMååº (æé): æ ¹æ®å¾çæ¾ç¤ºï¼çµçº¿æç£¨æè¿¹è±¡ï¼è¿å¯è½æ¯å¯¼è´æéçåå ãå»ºè®®ç«å³æ£æ¥å¹¶æ´æ¢åæçµçº¿ã

ç¬¬äºç« ï¼å¤æ¨¡æèåçæ ¸å¿çç¥ä¸èå¼

2.1 æ©æèå (Early Fusion)ï¼æ°æ®å±é¢çäº²å¯æ¥è§¦

# æ©æèåç¤ºä¾ï¼å¾åç¹å¾ä¸ææ¬ç¹å¾çç®åæ¼æ¥
import numpy as np
import torch
import torch.nn as nn

# åè®¾æä»¬æç¬ç«çå¾åç¼ç å¨åææ¬ç¼ç å¨
class ImageEncoder(nn.Module):
    def __init__(self, output_dim=128):
        super().__init__()
        # ç®åï¼ç´æ¥è¿åéæºç¹å¾ãå®éä¸è¿éæ¯ä¸ä¸ªCNNæVision Transformer
        self.output_dim = output_dim
        self.linear = nn.Linear(224*224*3, output_dim) # æ¨¡æå¤çåå§å¾ååç´ 
    def forward(self, image_input): # image_inputå¯ä»¥æ¯å¾ååç´ æé¢å¤çåçTensor
        # å®éä¸ä¼ç»è¿å¤å±å·ç§¯æTransformerå±
        return self.linear(image_input.view(image_input.size(0), -1)) # å±å¹³å¾å

class TextEncoder(nn.Module):
    def __init__(self, output_dim=128):
        super().__init__()
        # ç®åï¼ç´æ¥è¿åéæºç¹å¾ãå®éä¸è¿éæ¯ä¸ä¸ªBERTæTransformer
        self.output_dim = output_dim
        self.embedding = nn.Embedding(1000, output_dim) # æ¨¡æè¯åµå¥
        self.lstm = nn.LSTM(output_dim, output_dim) # æ¨¡æåºåå¤ç

    def forward(self, text_input_ids): # text_inputå¯ä»¥æ¯ææ¬Token IDæEmbedding
        # å®éä¸ä¼å¤çtokenåºåï¼è¿éç®åä¸ºåç¬¬ä¸ä¸ªtokençLSTMè¾åº
        embedded = self.embedding(text_input_ids)
        _, (hidden, _) = self.lstm(embedded.unsqueeze(0)) # åè®¾batch_size=1
        return hidden.squeeze(0)


# åå§åç¼ç å¨
image_encoder = ImageEncoder(output_dim=256)
text_encoder = TextEncoder(output_dim=256)

# æ¨¡æè¾å¥æ°æ®
image_data = torch.randn(1, 224, 224, 3) # æ¨¡æä¸å¼ å¾ç (Batch=1)
text_data_ids = torch.randint(0, 1000, (1, 5)) # æ¨¡æä¸æ®µææ¬çToken ID (Batch=1, SeqLen=5)

# 1. åèªç¼ç è·åç¹å¾
image_features = image_encoder(image_data)
text_features = text_encoder(text_data_ids)

print(f"å¾åç¹å¾ç»´åº¦: {image_features.shape}") # ä¾å¦: torch.Size([1, 256])
print(f"ææ¬ç¹å¾ç»´åº¦: {text_features.shape}") # ä¾å¦: torch.Size([1, 256])

# 2. æ©æèåï¼ç¹å¾æ¼æ¥
fused_features_early = torch.cat((image_features, text_features), dim=-1)

print(f"æ©æèååç¹å¾ç»´åº¦: {fused_features_early.shape}") # ä¾å¦: torch.Size([1, 512])

# 3. æ¼æ¥åçç¹å¾éå¥ä¸æ¸¸LLMæä»»å¡å¤´
class UnifiedFusionModel(nn.Module):
    def __init__(self, input_dim, num_classes):
        super().__init__()
        self.classifier = nn.Linear(input_dim, num_classes) # ä¾å¦ï¼åç±»ä»»å¡

    def forward(self, fused_features):
        return self.classifier(fused_features)

fusion_model = UnifiedFusionModel(fused_features_early.shape[-1], 2) # ä¾å¦ï¼2åç±»ä»»å¡
output = fusion_model(fused_features_early)
print(f"èåæ¨¡åè¾åº (ä¾å¦åç±»logits): {output}")

# æ¨èåæ³ï¼
# ä¼ç¹ï¼çè®ºä¸è½ææå°æç»ç²åº¦çæ¨¡æé´äº¤äºï¼å¯¹ä¸æ¸¸ä»»å¡æä¾æå¨é¢çåå§ä¿¡æ¯ã
# ç¼ºç¹ï¼è¦æ±æ¨¡æå¨æ¶é´æè¯ä¹ä¸é«åº¦å¯¹é½ï¼ç¹å¾ç»´åº¦å¯è½è¿é«ï¼ä¸å®¹æå°åªå£°æ··åã
# å®éåºç¨ä¸ï¼ç±äºåå§æ°æ®ç»´åº¦è¾é«ï¼éå¸¸ä¼å¨æ¼æ¥åè¿è¡ä¸å®ç¨åº¦çç¹å¾æååéç»´ã

2.2 ææèå (Late Fusion)ï¼å³çå±é¢çæºæ§åå

# ææèåç¤ºä¾ï¼ç¬ç«æ¨¡åè¾åºçèå
import torch
import torch.nn as nn

# åè®¾æä»¬æç¬ç«çå¾ååç±»å¨åææ¬ææåææ¨¡å

class ImageClassifier(nn.Module):
    def __init__(self):
        super().__init__()
        # åè®¾è½è¯å«å¾åæ¯å¦ä¸ºâå¼å¿â
        self.linear = nn.Linear(256, 2) # ä¾å¦ï¼è¾åº [is_happy, not_happy]
    def forward(self, image_features):
        return torch.softmax(self.linear(image_features), dim=-1)

class TextSentimentAnalyzer(nn.Module):
    def __init__(self):
        super().__init__()
        # åè®¾è½è¯å«ææ¬æ¯å¦ä¸ºâå¼å¿â
        self.linear = nn.Linear(256, 2) # ä¾å¦ï¼è¾åº [is_happy, not_happy]
    def forward(self, text_features):
        return torch.softmax(self.linear(text_features), dim=-1)

# å®ä¾åå¹¶æ¨¡æç¹å¾æå (å¤ç¨ä¹åçEncoder)
class DummyImageEncoder(nn.Module): # ç®åçï¼ç´æ¥è¿åéæºç¹å¾
    def __init__(self, output_dim):
        super().__init__()
        self.output_dim = output_dim
    def forward(self, image_input):
        return torch.randn(1, self.output_dim)

class DummyTextEncoder(nn.Module): # ç®åçï¼ç´æ¥è¿åéæºç¹å¾
    def __init__(self, output_dim):
        super().__init__()
        self.output_dim = output_dim
    def forward(self, text_input):
        return torch.randn(1, self.output_dim)

image_encoder_late = DummyImageEncoder(output_dim=256)
text_encoder_late = DummyTextEncoder(output_dim=256)

image_features_late = image_encoder_late(None) # æ¨¡æå¾åæ°æ®è¾å¥
text_features_late = text_encoder_late(None) # æ¨¡æææ¬æ°æ®è¾å¥

# å®ä¾åç¬ç«åç±»å¨
image_classifier = ImageClassifier()
text_sentiment_analyzer = TextSentimentAnalyzer()

# 1. åèªæ¨¡åç¬ç«é¢æµ
image_pred_probs = image_classifier(image_features_late)
text_pred_probs = text_sentiment_analyzer(text_features_late)

print(f"å¾åæ¨¡åé¢æµæ¦ç (ä¾å¦ï¼[ä¸å¼å¿, å¼å¿]): {image_pred_probs}")
print(f"ææ¬æ¨¡åé¢æµæ¦ç (ä¾å¦ï¼[ä¸å¼å¿, å¼å¿]): {text_pred_probs}")

# 2. ææèåï¼ç»æå æå¹³åï¼ææç¥¨ï¼
# åè®¾å¾ååææ¬å¯¹âå¼å¿âçé¢æµæéç¸å
final_pred_probs = (image_pred_probs + text_pred_probs) / 2

# æç»å³ç
predicted_class_id = torch.argmax(final_pred_probs).item()
classes = ["ä¸å¼å¿", "å¼å¿"]
print(f"ææèåæç»é¢æµ: {classes[predicted_class_id]} (æ¦ç: {final_pred_probs[0][predicted_class_id]:.4f})")

# æ¨èåæ³ï¼
# ä¼ç¹ï¼æ¨¡åæ¨¡ååï¼æäºè°è¯åæ©å±ï¼åæ¨¡ææ¨¡åå¯ç¬ç«ä¼åï¼å¯¹æ¨¡æé´çå¼æ¥æ§å®¹å¿åº¦é«ã
# ç¼ºç¹ï¼æ æ³æè·æ¨¡æé´æ·±å±æ¬¡çäº¤äºåä¾èµå³ç³»ï¼å¯è½éè¿ä¸äºåªæå¨ä½å±æè½åç°çå³èã
# éç¨äºä»»å¡å¯è¢«åè§£ä¸ºå¤ä¸ªç¬ç«åä»»å¡çåºæ¯ã

2.3 æ··å/è·¨æ¨¡æèå (Hybrid/Cross-modal Fusion)ï¼æ·±å±äº¤äºä¸å¦ä¹

# æ··å/è·¨æ¨¡æèåç¤ºä¾ï¼ç®åçè·¨æ¨¡ææ³¨æåå±ä¼ªä»£ç 
import torch
import torch.nn as nn
import torch.nn.functional as F

class CrossModalAttention(nn.Module):
    def __init__(self, query_dim, key_dim, value_dim, output_dim, num_heads=4):
        super().__init__()
        self.num_heads = num_heads
        self.head_dim = value_dim // num_heads
        assert self.head_dim * num_heads == value_dim, "value_dim must be divisible by num_heads"

        # çº¿æ§å±ç¨äºå°è¾å¥æå½±å°Q, K, Vç©ºé´
        self.wq = nn.Linear(query_dim, value_dim)
        self.wk = nn.Linear(key_dim, value_dim)
        self.wv = nn.Linear(value_dim, value_dim) # è¿éç®åï¼éå¸¸kvæ¯æ¥èªåä¸æºï¼key_dim=value_dim

        self.fc_out = nn.Linear(value_dim, output_dim)

    def forward(self, query_features, key_features, value_features):
        # query_features (ä¾å¦ï¼ææ¬åµå¥): [batch_size, query_seq_len, query_dim]
        # key_features (ä¾å¦ï¼å¾ååºåç¹å¾): [batch_size, key_seq_len, key_dim]
        # value_features (ä¾å¦ï¼å¾ååºåç¹å¾): [batch_size, value_seq_len, value_dim]

        batch_size = query_features.shape[0]

        # å°Q, K, Væå½±å¹¶åå²ä¸ºå¤å¤´
        Q = self.wq(query_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        K = self.wk(key_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        V = self.wv(value_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)

        # è®¡ç®æ³¨æååæ° (Q @ K^T)
        energy = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)

        attention_weights = F.softmax(energy, dim=-1)

        # å ææ±å (Attention @ V)
        x = torch.matmul(attention_weights, V)

        # æ¼æ¥å¤å¤´ç»æå¹¶éå¥è¾åºçº¿æ§å±
        x = x.transpose(1, 2).contiguous().view(batch_size, -1, self.num_heads * self.head_dim)

        return self.fc_out(x)

# æ¨¡æè¾å¥ï¼ææ¬ä½ä¸ºQueryï¼å¾åä½ä¸ºKeyåValue
# åè®¾ææ¬å·²ç»ç¼ç æåºåç¹å¾ (ä¾å¦ï¼æ¯ä¸ªtokençembedding)
text_query_embeddings = torch.randn(1, 10, 768) # Batch=1, 10ä¸ªtoken, dim=768
# åè®¾å¾ååºåç¹å¾ (ä¾å¦ï¼ä»Vision Transformerçpatch embeddings)
image_key_value_features = torch.randn(1, 49, 768) # Batch=1, 49ä¸ªpatch, dim=768

# å®ä¾åè·¨æ¨¡ææ³¨æåå±
cross_attention_layer = CrossModalAttention(
    query_dim=768, key_dim=768, value_dim=768, output_dim=768 # è¾åºç»´åº¦ä¸LLMè¾å¥ç»´åº¦å¹é
)

# æ§è¡è·¨æ¨¡ææ³¨æåï¼è®©ææ¬æ¥è¯¢å¾åä¿¡æ¯
fused_output_from_attention = cross_attention_layer(
    query_features=text_query_embeddings,
    key_features=image_key_value_features,
    value_features=image_key_value_features
)

print(f"ææ¬ä¸å¾åè·¨æ¨¡ææ³¨æåèååçè¾åºç»´åº¦: {fused_output_from_attention.shape}") # ä¾å¦: torch.Size([1, 10, 768])
# è¿ä¸ªè¾åºå¯ä»¥ä½ä¸ºLLMçè¾å¥ï¼LLMç°å¨è½å¤âæç¥âå¾åç¸å³çä¿¡æ¯äºã

# æ¨èåæ³ï¼
# ä¼ç¹ï¼è½å¤å®ç°æ¨¡æé´çæ·±å±ãå¨æäº¤äºï¼æè·å¤æçè¯ä¹å³èã
# ç¼ºç¹ï¼æ¨¡åå¤æåº¦é«ï¼è®¡ç®éå¤§ï¼å¯¹è®ç»æ°æ®åå¯¹é½è¦æ±ä¹æ´é«ã
# å®æ¯ç®åæå»ºå¼ºå¤§å¤æ¨¡æLLMçä¸»æµæ¹æ³ï¼éè¿ç²¾å·§çè®¾è®¡å¹³è¡¡äºæ§è½ä¸æçã

ç¬¬ä¸ç« ï¼ä¸»æµLLMå¤æ¨¡æèåæ¹æ¡æ·±åº¦è§£æ

3.1 CLIPï¼ä»å¯¹æ¯å¦ä¹ å°è·¨æ¨¡æå¯¹é½

# ç¤ºä¾ï¼ä½¿ç¨Hugging Face Transformersæ¨¡æCLIPçå¾å-ææ¬å¹é
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import requests
import torch

# 1. å è½½é¢è®ç»çCLIPæ¨¡ååå¤çå¨
# æ¨¡åä¸è½½å¯è½éè¦ä¸äºæ¶é´ï¼è¯·ç¡®ä¿ç½ç»è¿æ¥
print("å è½½CLIPæ¨¡ååå¤çå¨...")
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
print("CLIPæ¨¡åå è½½å®æã")

# 2. åå¤å¾ååææ¬è¾å¥
# æ¨¡æä»ç½ç»å è½½å¾å
url = "http://images.cocodataset.org/val2017/000000039769.jpg" # ä¸åªç«
print(f"ä¸è½½å¾ç: {url}")
image = Image.open(requests.get(url, stream=True).raw)

texts = ["ä¸åªç«åå¨æ²åä¸", "ä¸åªçå¨èå°ä¸è·", "ä¸ç¾¤äººå¨è¡ä¸èµ°", "ä¸åªèèå¨ç¡è§"]

# 3. å¤çè¾å¥æ°æ®
# processorä¼èªå¨å¯¹å¾åè¿è¡resizeãå½ä¸åï¼å¯¹ææ¬è¿è¡tokenization
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True).to(device)

# 4. æ¨¡åæ¨çï¼è·åå¾ååææ¬çåµå¥
with torch.no_grad():
    outputs = model(**inputs)

# 5. è·åå¾ååææ¬ç¹å¾
image_features = outputs.image_embeds # å¾åçå¨å±ç¹å¾
text_features = outputs.text_embeds # æ¯ä¸ªææ¬æè¿°çç¹å¾

# 6. è®¡ç®å¾åä¸ææ¬ä¹é´çç¸ä¼¼åº¦ (ä½å¼¦ç¸ä¼¼åº¦)
# å½ä¸åç¹å¾åéï¼ä½¿å¶L2èæ°åä¸º1ï¼æ¹ä¾¿è®¡ç®ä½å¼¦ç¸ä¼¼åº¦
image_features_norm = image_features / image_features.norm(dim=-1, keepdim=True)
text_features_norm = text_features / text_features.norm(dim=-1, keepdim=True)

# è®¡ç®å¾åç¹å¾ä¸ææææ¬ç¹å¾çç¸ä¼¼åº¦
# logits_per_image[i][j] è¡¨ç¤ºç¬¬iä¸ªå¾åä¸ç¬¬jä¸ªææ¬çç¸ä¼¼åº¦
logits_per_image = torch.matmul(image_features_norm, text_features_norm.T)

print("
å¾åæè¿°å¹éå¾å (logits_per_image):")
for i, text in enumerate(texts):
    print(f"  '{text}': {logits_per_image[0][i].item():.4f}")

# æ¨èåæ³ï¼
# éè¿å¯¹æ¯å¦ä¹ ï¼CLIPä½¿å¾å¾ååææ¬è½å¤å¨å±åçè¯ä¹ç©ºé´ä¸è¿è¡æ¯è¾åå¹éã
# è¿æ¯è®¸å¤åç»å¤æ¨¡æLLMæ¹æ¡çåºç¡ï¼å ä¸ºå®æä¾äºä¸ä¸ªå¼ºå¤§çæ¨¡æå¯¹é½âæ¡¥æ¢âã
# CLIPæ¬èº«ä¸ç´æ¥æ¯LLMï¼ä½å¶å¦å°çå¯¹é½è½åæ¯å®ç°LLMå¤æ¨¡ææç¥çå³é®ï¼
# å°¤å¶æ¯å¨é¶æ ·æ¬çè§£åè·¨æ¨¡ææ£ç´¢æ¹é¢è¡¨ç°åè¶ã

3.2 BLIPä¸BLIP-2ï¼æå»ºè§è§-è¯è¨å¤§æ¨¡åçåºç³

æ¦å¿µè§£éï¼BLIP (Bootstrapping Language-Image Pre-training) åå¶åç» BLIP-2 æ¯ Salesforce AI æåºçæ¨å¨æå»ºæ´éç¨çè§è§-è¯è¨é¢è®ç»æ¨¡åãå®ä»¬çç®æ æ¯å¼¥åè§è§æ¨¡ååè¯è¨æ¨¡åä¹é´çå·¨å¤§é¸¿æ²ï¼è®©å»ç»çï¼Frozenï¼LLMä¹è½âçæâå¾åãBLIPéè¿å¤ä»»å¡å¦ä¹ ï¼åæ¬å¾å-ææ¬å¯¹æ¯å¦ä¹ ãå¾å-ææ¬å¹éãå¾ååå¹çæï¼æ¥æåè§è§-è¯è¨çè§£åçæè½åã

# ç¤ºä¾ï¼BLIP-2çè§è§ç¹å¾æåä¸LLMäº¤äºç®åç¤ºä¾ï¼ä¼ªä»£ç åæ¦å¿µå®ç°ï¼
import torch
import torch.nn as nn

# æ¨¡æBLIP-2çå³é®ç»ä»¶

class FrozenImageEncoder(nn.Module):
    def __init__(self): # è¿æ¯é¢è®ç»å¥½çå¤§æ¨¡åï¼åæ°å»ç»
        super().__init__()
        # å®éæ¯ä¸ä¸ªViTçï¼è¿éç®åè¾åºåºå®ç»´åº¦ç¹å¾
        # ä¾å¦ï¼ViTä¼è¾åºä¸ä¸ªCLS tokenåä¸ç³»åpatch tokens
        self.output_dim = 1024 # æ¯ä¸ªtokençç»´åº¦
        self.num_image_tokens = 257 # ä¾å¦ï¼1ä¸ªCLS token + 256ä¸ªpatch tokens (16x16)
    def forward(self, image_input): 
        # æ¨¡æå¾åç¼ç å¨è¾åºçç¹å¾åºå
        return torch.randn(1, self.num_image_tokens, self.output_dim) 

class QFormer(nn.Module):
    def __init__(self, image_feature_dim, num_query_tokens, llm_embedding_dim):
        super().__init__()
        # å¯å¦ä¹ çQuery Tokensï¼è¿äºTokensä¼éè¿äº¤åæ³¨æåä»å¾åç¹å¾ä¸æåä¿¡æ¯
        self.query_tokens = nn.Parameter(torch.randn(1, num_query_tokens, llm_embedding_dim))

        # æ ¸å¿æ¯äº¤åæ³¨æåï¼è®©Query Tokenså»å³æ³¨å¾åç¹å¾
        # è¿éå¤ç¨ä¹åçCrossModalAttentionç»æ
        self.cross_attention = CrossModalAttention( 
            query_dim=llm_embedding_dim, 
            key_dim=image_feature_dim, 
            value_dim=image_feature_dim, 
            output_dim=llm_embedding_dim
        )
        # å®éQ-Formeræ´å¤æï¼åå«èªæ³¨æåå±åå¤ä¸ªäº¤åæ³¨æåå±ï¼ä»¥åFFN
        # è¿éçoutput_linearæ¯ä¸ºäºç¡®ä¿è¾åºç»´åº¦ä¸LLMçembeddingç»´åº¦å¹é
        self.output_linear = nn.Linear(llm_embedding_dim, llm_embedding_dim) 

    def forward(self, image_features):
        # query_tokensä½ä¸ºQueryï¼å¾åç¹å¾ä½ä¸ºKeyåValue
        # Q-Formerçæ ¸å¿ï¼éè¿query tokensä»å¾åç¹å¾ä¸æåç¸å³ä¿¡æ¯
        # expandæ¯ä¸ºäºéébatch_size
        extracted_features = self.cross_attention(
            query_features=self.query_tokens.expand(image_features.shape[0], -1, -1),
            key_features=image_features,
            value_features=image_features
        )
        return self.output_linear(extracted_features) # è¿åLLMå¯æ¥åçè§è§Tokens

class FrozenLLM(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super().__init__()
        # è¿æ¯ä¸ä¸ªé¢è®ç»å¥½çå¤§è¯è¨æ¨¡åï¼åæ°å»ç»
        self.token_embeddings = nn.Embedding(vocab_size, embedding_dim)
        # å®éLLMåå«å¤å±Transformerè§£ç å¨ï¼è¿éç®åä¸ºä¸å±
        self.decoder_layer = nn.TransformerDecoderLayer(d_model=embedding_dim, nhead=4, batch_first=True)
        self.output_head = nn.Linear(embedding_dim, vocab_size) # è¾åºå°è¯è¡¨

    def forward(self, input_embeddings, attention_mask=None):
        # ç®åï¼ç´æ¥éè¿ä¸ä¸ªè§£ç å±ï¼å®éä¼æ´å¤æ
        # è¿éçtgt_maskåmemory_maskçåæ°å¨å®éLLMä¸ä¼æ ¹æ®èªæ³¨æååäº¤åæ³¨æåéæ±è®¾ç½®
        output_hidden_states = self.decoder_layer(input_embeddings, input_embeddings) 
        return self.output_head(output_hidden_states) # è¿åè¯è¡¨logits

# æ¨¡ææ°æ®åç»ä»¶
image_data_blip = torch.randn(1, 224, 224, 3) # æ¨¡æå¾å
text_prompt_blip = "è¿å¼ å¾çæè¿°äºä»ä¹ï¼" # åè®¾LLMä¼æ ¹æ®è§è§ä¿¡æ¯çææè¿°

# å®ä¾åç»ä»¶
frozen_image_encoder = FrozenImageEncoder()
# Q-Formerçè¾åºtokensæ°é (ä¾å¦32ä¸ª) å³å®äºLLMæ¥æ¶çè§è§ä¿¡æ¯å¯åº¦
q_former = QFormer(image_feature_dim=frozen_image_encoder.output_dim, num_query_tokens=32, llm_embedding_dim=768) 
frozen_llm = FrozenLLM(vocab_size=50000, embedding_dim=768)

# 1. å¾åç¼ç  (å»ç»)
image_features_blip = frozen_image_encoder(image_data_blip)
print(f"å»ç»å¾åç¼ç å¨è¾åºç¹å¾å½¢ç¶: {image_features_blip.shape}")

# 2. Q-Formeræåè§è§ä¿¡æ¯ (å¯è®ç»)
vision_tokens_for_llm = q_former(image_features_blip)
print(f"Q-Formerè¾åºçè§è§Tokenså½¢ç¶: {vision_tokens_for_llm.shape}") # ä¾å¦: torch.Size([1, 32, 768])

# 3. ææ¬ç¼ç  (å»ç»LLMçEmbeddingå±)
# åè®¾ææ¬"è¿å¼ å¾çæè¿°äºä»ä¹ï¼"è¢«ç¼ç ä¸ºLLMçtoken embeddings
# å®éä¸ä¼ç¨LLMçtokenizerï¼è¿éç®åä¸ºå ä¸ªèætoken ID
text_input_ids = torch.tensor([[100, 200, 300]]) # æ¨¡æææ¬çtoken IDs
text_embeddings_blip = frozen_llm.token_embeddings(text_input_ids)
print(f"LLMææ¬åµå¥å½¢ç¶: {text_embeddings_blip.shape}")

# 4. æ¼æ¥è§è§Tokensåææ¬Tokensï¼è¾å¥ç»å»ç»çLLM
# éå¸¸ï¼è§è§Tokensä¼ä½ä¸ºåç¼ï¼å¼å¯¼LLMçæåå®¹
fused_llm_input = torch.cat((vision_tokens_for_llm, text_embeddings_blip), dim=1)
print(f"éè¿Q-Formerèååï¼LLMçè¾å¥åºåé¿åº¦: {fused_llm_input.shape[1]}") # ä¾å¦: 32 + 3 = 35

# 5. LLMçæååº (å»ç»)
llm_output_logits = frozen_llm(fused_llm_input)
# å®éè¿éè¿éè¦ä¸ä¸ªçº¿æ§å±å°è¾åºembeddingæ å°å°è¯è¡¨logitsï¼ç¶åè¿è¡éæ ·çæ
print(f"LLMè¾åºlogitså½¢ç¶: {llm_output_logits.shape}")
print("LLMç°å¨å¯ä»¥æ ¹æ®å¾åä¿¡æ¯è¿è¡ææ¬çæäºï¼")

# æ¨èåæ³ï¼
# BLIP-2çQ-Formeræ¯ä¸ä¸ªéå¸¸é«æä¸ææçæ¨¡ææ¡¥æ¥å¨ï¼å®è½å°é«ç»´å¾åä¿¡æ¯åç¼©å¹¶è½¬æ¢ä¸ºLLMå¯çè§£çæ ¼å¼ï¼
# ä»èå¨ä¸ä¿®æ¹æå¤§å¹è®ç»LLMçåæä¸ï¼èµäºå¶å¼ºå¤§çè§è§çè§£è½åãè¿ç§å»ç»-æ¡¥æ¥-å»ç»çèå¼ï¼
# å¤§å¹éä½äºè®ç»å¤æ¨¡æå¤§æ¨¡åçé¨æ§ã

3.3 LLaVAï¼æä»¤éµå¾ªä¸çè§è§å©æ

# ç¤ºä¾ï¼LLaVAé£æ ¼çè§è§é®çï¼VQAï¼ç®åå®ç°
import torch
import torch.nn as nn

# 1. å»ç»çè§è§ç¼ç å¨ (ä¾å¦CLIPçViT)
class FrozenVisionEncoder(nn.Module):
    def __init__(self, output_dim=768):
        super().__init__()
        # æ¨¡æVision Transformerè¾åºçpatch featuresï¼æpooler output
        self.output_dim = output_dim
        # åè®¾è¾åºçæ¯ä¸ä¸ªè¡¨ç¤ºå¾åæ´ä½çç¹å¾åé
    def forward(self, image_input):
        # å®éä¼éè¿ä¸ä¸ªViTï¼è¿åå¾åç¹å¾åºåææ´ä½ç¹å¾
        # è¿éæ¨¡æè¿åä¸ä¸ª batch_size x feature_dim çå¼ é
        return torch.randn(image_input.shape[0], self.output_dim) 

# 2. æ¨¡æå¯¹é½ççº¿æ§æå½±å± (éå¸¸æ¯ä¸ä¸ªMLPï¼è¿éç®åä¸ºçº¿æ§å±)
class ProjectionLayer(nn.Module):
    def __init__(self, vision_feature_dim, llm_embedding_dim):
        super().__init__()
        # è¿ä¸ªçº¿æ§å±å°è§è§ç¹å¾ç»´åº¦æ å°å°LLMçè¯åµå¥ç»´åº¦
        self.linear = nn.Linear(vision_feature_dim, llm_embedding_dim)
        self.activation = nn.GELU() # LLaVAéå¸¸ä¼ä½¿ç¨GELUæ¿æ´»å½æ°
        self.norm = nn.LayerNorm(llm_embedding_dim)

    def forward(self, vision_features):
        projected = self.linear(vision_features)
        projected = self.activation(projected)
        return self.norm(projected)

# 3. å»ç»çLLM (ä¾å¦LLaMA)
class FrozenLLaMA(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super().__init__()
        self.token_embeddings = nn.Embedding(vocab_size, embedding_dim)
        # ç®åLLaMAä¸ºä¸ä¸ªTransformerè§£ç å¨å±ï¼å®éæ¯å¤å±
        self.transformer_decoder = nn.TransformerDecoderLayer(d_model=embedding_dim, nhead=4, batch_first=True) 
        self.output_head = nn.Linear(embedding_dim, vocab_size)

    def forward(self, input_embeddings):
        # å®éLLaMAæ¨¡åï¼è¿éç®åä¸ä¸ªDecoderå±çååä¼ æ
        # å¨LLaVAä¸ï¼è§è§ç¹å¾ä½ä¸ºä¸ä¸æä¿¡æ¯ï¼ææ¬tokenä½ä¸ºqueryè¾å¥å°LLM
        output_hidden_states = self.transformer_decoder(input_embeddings, input_embeddings) # ç®åèªæ³¨æå
        return self.output_head(output_hidden_states)

# æ¨¡ææ°æ®åç»ä»¶
image_data_llava = torch.randn(1, 3, 224, 224) # æ¨¡æä¸å¼ å¾å (batch, C, H, W)
# ç¨æ·æä»¤ï¼è¯·æè¿°è¿å¼ å¾çä¸åççäºæ
instruction_text = "è¯·æè¿°è¿å¼ å¾çä¸åççäºæã"

# å®ä¾åç»ä»¶
vision_encoder_llava = FrozenVisionEncoder(output_dim=768) # åè®¾è¾åº768ç»´å¾åç¹å¾
projection_layer = ProjectionLayer(vision_feature_dim=768, llm_embedding_dim=768)
llama_model = FrozenLLaMA(vocab_size=32000, embedding_dim=768) # LLaMAéå¸¸çembeddingç»´åº¦

# 1. å¾åç¹å¾æå (å»ç»)
raw_vision_features = vision_encoder_llava(image_data_llava)
print(f"åå§è§è§ç¹å¾å½¢ç¶: {raw_vision_features.shape}")

# 2. æå½±å°LLMåµå¥ç©ºé´ (å¯è®ç»)
# è§è§ç¹å¾è¢«æå½±æä¸ä¸ªæå¤ä¸ªâèæâtokençåµå¥
projected_vision_tokens = projection_layer(raw_vision_features)
# LLaVAéå¸¸å°å¾åç¹å¾è¡¨ç¤ºä¸ºä¸ä¸ªåºåï¼å³ä½¿åå§æ¯ä¸ä¸ªåéï¼è¿éä¹æ¨¡ææåºå
projected_vision_tokens = projected_vision_tokens.unsqueeze(1) # æ¨¡ææä¸ä¸ªtokenåºå

print(f"æå½±åçè§è§Tokenså½¢ç¶: {projected_vision_tokens.shape}") # ä¾å¦: torch.Size([1, 1, 768])

# 3. åå¤ææ¬æä»¤ï¼åå«å¾åå ä½ç¬¦ï¼
# å®éä¸ï¼LLaVAä¼å°å¾åtokenæ¿æ¢æ<image_placeholder>
# è¿éæ¨¡æææ¬æä»¤çtokenåµå¥
text_input_ids_instruction = torch.randint(0, 32000, (1, 15)) # æ¨¡æ15ä¸ªtoken
text_tokens_embeddings = llama_model.token_embeddings(text_input_ids_instruction)
print(f"ææ¬æä»¤åµå¥å½¢ç¶: {text_tokens_embeddings.shape}")

# 4. æ¼æ¥è§è§Tokensåææ¬Tokensï¼ä½ä¸ºLLMçè¾å¥
# LLaVAéå¸¸å°å¾åç¹å¾æ¾å¨ææ¬æä»¤ä¹åï¼ä½ä¸ºä¸ä¸æ
fused_input_for_llama = torch.cat((projected_vision_tokens, text_tokens_embeddings), dim=1)
print(f"LLaVAé£æ ¼èååï¼LLMçè¾å¥åºåé¿åº¦: {fused_input_for_llama.shape[1]}") # ä¾å¦: 1 + 15 = 16

# 5. LLMæ ¹æ®èååçè¾å¥çæåå¤ (å»ç»ï¼ä½å¨å¾®è°é¶æ®µå¶åæ°ä¼æ´æ°)
llm_output_logits_llava = llama_model(fused_input_for_llama)
# ç»è¿è§£ç å±åè¾åºå¤´ï¼æç»çæææ¬åå¤
print(f"LLMè¾åºlogitså½¢ç¶: {llm_output_logits_llava.shape}")
print("LLMç°å¨å¯ä»¥æ ¹æ®è§è§æä»¤è¿è¡é®çææè¿°äºï¼")

# æ¨èåæ³ï¼
# LLaVAè¯æäºéè¿ç®åçæå½±å±åæä»¤å¾®è°ï¼å¯ä»¥ææå°å°LLMè½¬åä¸ºå¼ºå¤§çå¤æ¨¡æå©æã
# å®çæåå¨äºå·§å¦å°å©ç¨äºé¢è®ç»è§è§åè¯è¨æ¨¡åçå¼ºå¤§è½åï¼å¹¶ä¸æ³¨äºæ¨¡æé´çå¯¹é½ä¸æä»¤éµå¾ªå¦ä¹ ï¼
# ä¸ºåç»çå¼æºå¤æ¨¡æLLMæä¾äºéè¦çèä¾ã

3.4 Flamingoï¼æç¥å¨ä¸å»ç»LLMçç»å

æ¦å¿µè§£éï¼Google DeepMind ç Flamingo æ¨¡åæ¯å¦ä¸ä¸ªéè¦çå¤æ¨¡æLLMãå®çè®¾è®¡ç®æ æ¯å®ç°å¤æ¨¡æçå°æ ·æ¬å¦ä¹ (Few-shot Learning) è½åï¼å³å¨åªçå°å°éç¤ºä¾çæåµä¸å°±è½å¿«ééåºæ°çå¤æ¨¡æä»»å¡ãFlamingoçæ ¸å¿ç»ä»¶æ¯Perceiver Resampler åé¨æ§äº¤åæ³¨æåå± (Gated Cross-Attention) ãPerceiver Resampler è´è´£ä»é«ç»´ãå¯åé¿åº¦çè§è§ï¼æå¤æ¨¡æï¼è¾å¥ä¸æåå°éãåºå®é¿åº¦çâæç¥å¨è¾åºï¼Perceiver Outputï¼âï¼å°å¶è½¬æ¢ä¸ºä¸LLMè¯åµå¥å¼å®¹çTokenãè¿äºTokenéåéè¿é¨æ§äº¤åæ³¨æåå±ï¼æ³¨å¥å°å»ç»çLLMçTransformerå±ä¹é´ï¼å®ç°è§è§ä¿¡æ¯å¯¹LLMçè°å¶ï¼ä½¿å¶è½å¤æ ¹æ®è§è§ä¸ä¸æçæææ¬ã

# ç¤ºä¾ï¼æ¨¡æPerceiver Resamplerå¦ä½å°è§è§ç¹å¾è½¬æ¢ä¸ºLLMå¯æ¥åçTokens
import torch
import torch.nn as nn
import torch.nn.functional as F

# å¤ç¨ä¹åçCrossModalAttentionå®ä¹
class CrossModalAttention(nn.Module):
    def __init__(self, query_dim, key_dim, value_dim, output_dim, num_heads=4):
        super().__init__()
        self.num_heads = num_heads
        self.head_dim = value_dim // num_heads
        assert self.head_dim * num_heads == value_dim, "value_dim must be divisible by num_heads"

        self.wq = nn.Linear(query_dim, value_dim)
        self.wk = nn.Linear(key_dim, value_dim)
        self.wv = nn.Linear(value_dim, value_dim)
        self.fc_out = nn.Linear(value_dim, output_dim)

    def forward(self, query_features, key_features, value_features):
        batch_size = query_features.shape[0]

        Q = self.wq(query_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        K = self.wk(key_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        V = self.wv(value_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)

        energy = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)
        attention_weights = F.softmax(energy, dim=-1)
        x = torch.matmul(attention_weights, V)
        x = x.transpose(1, 2).contiguous().view(batch_size, -1, self.num_heads * self.head_dim)
        return self.fc_out(x)


class PerceiverResampler(nn.Module):
    def __init__(self, input_dim, output_len, output_dim, num_layers=2):
        super().__init__()
        # å¯å¦ä¹ çQuery Latentsï¼å¶æ°éå³å®äºè¾åºè§è§Tokençæ°é
        self.query_latents = nn.Parameter(torch.randn(1, output_len, output_dim)) 

        # ç®åçäº¤åæ³¨æåå±ï¼è¿éå¯ä»¥å¤ç¨ä¹åçCrossModalAttentionï¼
        # å®éFlamingoçPerceiver Resampleråå«å¤å±Transformerå
        self.cross_attention_block = CrossModalAttention(
            query_dim=output_dim, key_dim=input_dim, value_dim=input_dim, output_dim=output_dim
        )
        self.norm = nn.LayerNorm(output_dim)

    def forward(self, visual_features):
        # visual_features: [batch_size, num_visual_tokens, input_dim]
        batch_size = visual_features.shape[0]

        # Query Latentsä½ä¸ºQueryï¼è§è§ç¹å¾ä½ä¸ºKeyåValue
        # éè¿å¤å±äº¤åæ³¨æåï¼ä»å¤§éè§è§ç¹å¾ä¸âéæ ·âåºå°éæä»£è¡¨æ§çä¿¡æ¯
        # expandæ¯ä¸ºäºéébatch_size
        resampled_tokens = self.cross_attention_block(
            query_features=self.query_latents.expand(batch_size, -1, -1),
            key_features=visual_features,
            value_features=visual_features
        )
        return self.norm(resampled_tokens)

class GatedCrossAttention(nn.Module):
    def __init__(self, llm_hidden_dim, vision_token_dim, num_heads=4):
        super().__init__()
        # äº¤åæ³¨æåå±ï¼è®©LLMçéèç¶æä½ä¸ºQueryï¼è§è§Tokensä½ä¸ºKey/Value
        self.cross_attention = CrossModalAttention(
            query_dim=llm_hidden_dim, key_dim=vision_token_dim, value_dim=vision_token_dim, output_dim=llm_hidden_dim
        )
        # é¨æ§æºå¶ï¼ä¸ä¸ªçº¿æ§å±åæ¥Sigmoidï¼æ§å¶è§è§ä¿¡æ¯æ³¨å¥çå¼ºåº¦
        self.gate = nn.Linear(llm_hidden_dim, 1) 
        self.sigmoid = nn.Sigmoid()

    def forward(self, llm_hidden_states, vision_tokens):
        # llm_hidden_states: [batch_size, seq_len, llm_hidden_dim]
        # vision_tokens: [batch_size, num_vision_tokens, vision_token_dim]

        # LLMçéèç¶ææ¥è¯¢è§è§Tokensï¼è·åè§è§ä¸ä¸æä¿¡æ¯
        attended_vision_info = self.cross_attention(
            query_features=llm_hidden_states,
            key_features=vision_tokens,
            value_features=vision_tokens
        )

        # é¨æ§æºå¶ï¼è®¡ç®ä¸ä¸ª0å°1ä¹é´çé¨æ§å¼ï¼æ§å¶è§è§ä¿¡æ¯æ³¨å¥LLMçç¨åº¦
        gate_values = self.sigmoid(self.gate(llm_hidden_states))

        # å°LLMçåå§éèç¶æä¸é¨æ§åçè§è§ä¿¡æ¯ç¸å 
        return llm_hidden_states + gate_values * attended_vision_info

# æ¨¡æè¾å¥
video_features = torch.randn(1, 1000, 1024) # æ¨¡æ1000å¸§ï¼æ¯å¸§1024ç»´çè§é¢ç¹å¾
llm_hidden_states = torch.randn(1, 50, 768) # æ¨¡æLLMä¸é´å±çéç¶æ (Batch=1, SeqLen=50, Dim=768)

# å®ä¾åç»ä»¶
perceiver_resampler = PerceiverResampler(input_dim=1024, output_len=64, output_dim=768) # å°è§é¢ç¹å¾åç¼©å°64ä¸ªToken
gated_cross_attention_layer = GatedCrossAttention(llm_hidden_dim=768, vision_token_dim=768)

# 1. Perceiver Resamplerå¤çè§é¢ç¹å¾ï¼çæåºå®æ°éçè§è§Token
compressed_vision_tokens = perceiver_resampler(video_features)
print(f"Perceiver Resamplerè¾åºçè§è§Tokenç»´åº¦: {compressed_vision_tokens.shape}") # ä¾å¦: torch.Size([1, 64, 768])

# 2. é¨æ§äº¤åæ³¨æåå±å°è§è§Tokenæ³¨å¥LLMçéèç¶æ
modulated_llm_hidden_states = gated_cross_attention_layer(llm_hidden_states, compressed_vision_tokens)

print(f"é¨æ§äº¤åæ³¨æååLLMçéèç¶æç»´åº¦: {modulated_llm_hidden_states.shape}") # ä¾å¦: torch.Size([1, 50, 768])
# è¿äºè¢«è°å¶çéèç¶æä¼ç»§ç»æµç»LLMçåç»å±ï¼ä»èå½±åæç»çææ¬çæã

# æ¨èåæ³ï¼
# FlamingoçPerceiver Resamplerè§£å³äºå¤æ¨¡æè¾å¥é¿åº¦ä¸ä¸ãä¿¡æ¯éè¿å¤§çé®é¢ï¼
# å°¤å¶éç¨äºè§é¢è¿ç±»åºåé¿åº¦å¯åçæ¨¡æã
# èé¨æ§äº¤åæ³¨æååå¨ä¸ç ´åLLMåæè¯è¨è½åçåæä¸ï¼å®ç°äºè§è§ä¿¡æ¯çæææ³¨å¥ï¼
# è¿ä½¿å¾Flamingoå¨å°æ ·æ¬å¦ä¹ åºæ¯ä¸è¡¨ç°åºä¼ï¼è½å¤å¿«ééåºæ°çå¤æ¨¡æä»»å¡ã

ç¬¬åç« ï¼LLMå¤æ¨¡æèåçå®æææä¸ä¼å

4.1 æ°æ®å¯¹é½ä¸æ æ³¨ï¼é«è´¨éèåçåºç³

# æ¨¡ææ°æ®éé¢å¤çä¸çå¯¹é½æ¥éª¤ä¼ªä»£ç 
import torch
import torchvision.transforms as transforms
from PIL import Image
import numpy as np

def load_and_transform_image(path): 
    # å®éä¼ä»æä»¶å è½½å¾çå¹¶è¿è¡é¢å¤ç
    # è¿éæ¨¡æè¿åä¸ä¸ªå¼ é
    return torch.randn(1, 3, 224, 224) 

def tokenize_text(text): 
    # å®éä¼ä½¿ç¨LLMçtokenizerå°ææ¬è½¬æ¢ä¸ºtoken IDs
    return torch.randint(0, 1000, (1, 20)) # æ¨¡æToken IDsï¼é¿åº¦20

def process_audio(audio): 
    # å®éä¼å¤çé³é¢æä»¶ï¼æåå£°å¦ç¹å¾ï¼å¦Melé¢è°±å¾
    return torch.randn(1, 100, 128) # æ¨¡æé³é¢ç¹å¾ï¼100å¸§ï¼æ¯å¸§128ç»´

def check_semantic_consistency(img_tensor, txt_tensor): 
    # å®éæ¯å¤æçæ¨¡åå¤ææäººå·¥æ ¡éªãä¾å¦ï¼éè¿CLIPè®¡ç®å¾ååææ¬çç¸ä¼¼åº¦ã
    # è¿éç®åä¸ºéæºè¿åTrue/False
    return np.random.rand() > 0.1 # 90%æ¦çè¯ä¹ä¸è´

def check_temporal_alignment(aud_tensor, txt_tensor): 
    # å®éæ¯å¤æçç®æ³å¤æï¼å¦æ¶é´åºåå¯¹é½ç®æ³
    return np.random.rand() > 0.05 # 95%æ¦çæ¶åºå¯¹é½

def preprocess_multimodal_data(image_path, text_caption, audio_segment=None):
    # 1. å¾åé¢å¤ç (resize, normalize)
    image_tensor = load_and_transform_image(image_path)

    # 2. ææ¬é¢å¤ç (tokenize, pad)
    text_tokens = tokenize_text(text_caption)

    # 3. é³é¢é¢å¤ç (resample, mel-spectrogram)
    audio_tensor = None
    if audio_segment:
        audio_tensor = process_audio(audio_segment)

    # 4. æ¨¡æå¯¹é½æ ¡éª (ç®åçä¼ªä»£ç ï¼å®ééæ´å¤æé»è¾æäººå·¥ä»å¥)
    # å¯¹äºçäº§ç¯å¢ï¼è¿äºè¦åå¯è½éè¦æ´ä¸¥æ ¼çå¤çï¼å¦ç´æ¥è¿æ»¤æé®é¢æ°æ®
    if not check_semantic_consistency(image_tensor, text_tokens):
        print(f" è¦åï¼å¾å '{image_path}' ä¸ææ¬æè¿°å¯è½è¯ä¹ä¸ä¸è´ï¼")
        # å®éå¯è½è¿è¡è¿æ»¤ãéæ°æ æ³¨æå¼±çç£å¦ä¹ 
        # return None # å¯ä»¥éæ©è·³è¿æ¤æ°æ®

    if audio_tensor is not None and not check_temporal_alignment(audio_tensor, text_tokens):
        print(f" è¦åï¼é³é¢ä¸ææ¬å¯è½æ¶åºæªå¯¹é½ï¼")
        # return None # å¯ä»¥éæ©è·³è¿æ¤æ°æ®

    return {
        "image_input": image_tensor,
        "text_input": text_tokens,
        "audio_input": audio_tensor
    }

# ç¤ºä¾è°ç¨
processed_data = preprocess_multimodal_data(
    "/data/img_001.jpg", 
    "ä¸åªå¯ç±çå°çå¨å¬åéç©è"
)
if processed_data:
    print("
æ°æ®é¢å¤çå®æï¼åå¤éå¥æ¨¡åè®ç»ã")
else:
    print("
æ°æ®è´¨éä¸è¾¾æ ï¼å·²è·³è¿ã")

# ä¸æ¨èï¼ç´æ¥ä½¿ç¨æªç»æ ¡éªæä½è´¨éçå¤æ¨¡ææ°æ®ã
# é®é¢ï¼æ°æ®åªå£°åä¸å¯¹é½ä¼å¯¼è´æ¨¡åå¦ä¹ å°éè¯¯çå³èï¼å½±åæ³åè½åï¼çè³äº§çâå¹»è§âã

# æä½³å®è·µæ¸åï¼
# 1. æ°æ®æ¥æºå¤æ ·åï¼ç»åå¬å¼çé«è´¨éå¤æ¨¡ææ°æ®éï¼å¦MS-COCO, Conceptual Captions, WebLIï¼ï¼ä¼ä¸åé¨æ°æ®ï¼ä»¥åéè¿è§åæçææ¨¡ååæçæ°æ®ã
# 2. ç»ç²åº¦æ æ³¨ï¼ä¸ä»æ æ³¨æ´ä½åå®¹ï¼è¿éæ æ³¨æ¨¡æé´ç»è´çå¯¹åºå³ç³»ï¼å¦å¾åä¸ç¹å®åºåä¸ææ¬ä¸ç¹å®è¯è¯çå¯¹åºï¼ãå¯¹äºå¤æä»»å¡ï¼èèå¤è½®æ æ³¨åäº¤åéªè¯ã
# 3. èªå¨åè¾å©ä¸å¼±çç£ï¼å©ç¨ç°ææ¨¡åï¼å¦CLIPï¼è¿è¡åæ¥å¯¹é½æè¿æ»¤ï¼åå°äººå·¥æ æ³¨ææ¬ãæ¢ç´¢å©ç¨åªå£°æ°æ®è¿è¡å¼±çç£å¦ä¹ ï¼æéè¿èªçç£ä»»å¡ï¼å¦æ¨¡æå¹éï¼é¢è®ç»ã
# 4. è´¨éæ§å¶ï¼å»ºç«ä¸¥æ ¼çæ æ³¨è§èåå¤è½®å®¡æ ¸æºå¶ï¼ç¡®ä¿æ°æ®è´¨éãå®æè¿è¡æ°æ®å®¡è®¡ï¼åç°å¹¶çº æ£æ æ³¨éè¯¯ã
# 5. éç§ä¿æ¤ï¼å¤çæææ°æ®æ¶ï¼ä¸¥æ ¼éµå®æ°æ®éç§æ³è§ï¼è¿è¡å¿ååãå»æ è¯åæå·®åéç§å¤çã

4.2 è®ç»çç¥ä¸èµæºæ¶è

# LoRAå¨å¤æ¨¡ææ¨¡åä¸çåºç¨ç¤ºä¾ï¼ä¼ªä»£ç ï¼
import torch
import torch.nn as nn
import torch.nn.functional as F

class LoRA_Linear(nn.Module):
    def __init__(self, original_linear_layer, rank=4, alpha=1.0):
        super().__init__()
        self.original_linear = original_linear_layer
        self.rank = rank
        self.alpha = alpha

        # å»ç»åå§æéï¼ä½¿å¶å¨LoRAè®ç»æé´ä¸è¢«æ´æ°
        self.original_linear.weight.requires_grad = False
        if self.original_linear.bias is not None:
            self.original_linear.bias.requires_grad = False

        # LoRAçä½ç§©åè§£ç©éµ A å B
        # A ç©éµå°è¾å¥ç»´åº¦æ å°å°ç§© r
        self.lora_A = nn.Parameter(torch.randn(original_linear_layer.in_features, rank))
        # B ç©éµå°ç§© r æ å°å°è¾åºç»´åº¦
        self.lora_B = nn.Parameter(torch.randn(rank, original_linear_layer.out_features))

        # åå§å LoRA æé
        # éå¸¸ A éç¨ Kaiming åå§åï¼B éç¨é¶åå§åï¼ç¡®ä¿åå§å¢éä¸º0
        nn.init.kaiming_uniform_(self.lora_A, a=5**0.5)
        nn.init.zeros_(self.lora_B)

    def forward(self, x):
        # åå§è®¡ç®è·¯å¾
        original_output = self.original_linear(x)

        # LoRAçå¢éè®¡ç®ï¼(x @ A) @ Bï¼å¹¶éè¿ alpha/rank è¿è¡ç¼©æ¾
        lora_delta = (x @ self.lora_A @ self.lora_B) * (self.alpha / self.rank)

        # æç»è¾åºæ¯åå§è¾åºå ä¸ LoRA å¢é
        return original_output + lora_delta

# æ¨¡æLLMä¸çä¸ä¸ªçº¿æ§å± (ä¾å¦ï¼TransformerçQKVæå½±å±)
llm_original_linear = nn.Linear(768, 768) # è¾å¥åè¾åºç»´åº¦é½æ¯768
llm_input_features = torch.randn(1, 128, 768) # æ¨¡æLLMè¾å¥ (Batch, SeqLen, Dim)

print(f"åå§çº¿æ§å±åæ°æ°é: {sum(p.numel() for p in llm_original_linear.parameters())}")

# æ¿æ¢ä¸ºLoRAå±ï¼rank=8æå³çLoRAåæ°éå¤§å¤§åå°
llm_lora_linear = LoRA_Linear(llm_original_linear, rank=8)

# æå°å¯è®ç»åæ°ï¼éªè¯åªælora_Aålora_Bæ¯å¯è®ç»ç
print("
LoRAå±ä¸çå¯è®ç»åæ°:")
trainable_params_count = 0
for name, param in llm_lora_linear.named_parameters():
    if param.requires_grad:
        print(f"  - {name}, å½¢ç¶: {param.shape}, åæ°é: {param.numel()}")
        trainable_params_count += param.numel()
    else:
        print(f"  - {name}, å½¢ç¶: {param.shape}, Requires grad: {param.requires_grad} (å»ç»)")

print(f"LoRAå±æ»å¯è®ç»åæ°æ°é: {trainable_params_count}")
# åå§åæ°é (768*768 + 768) = 590592
# LoRAåæ°é (768*8 + 8*768) = 12288ï¼å¤§å¹åå°

# æ§è¡ååä¼ æ
output_with_lora = llm_lora_linear(llm_input_features)
print(f"ä½¿ç¨LoRAåçè¾åºå½¢ç¶: {output_with_lora.shape}")

# ä¸æ¨èï¼ç´æ¥å¨åæ°å¾®è°ä¸ä¸ªåå«æ°åäº¿åæ°çå¤æ¨¡æLLMï¼è¿ä¼æ¶èå·¨å¤§çè®¡ç®èµæºåæ¶é´ï¼å¹¶ä¸å®¹æè¿æåã
# æ¨èï¼éç¨LoRAãAdapterçåæ°é«æå¾®è°ææ¯ï¼å¨ä¿è¯æ§è½çåæ¶å¤§å¹éä½è®ç»ææ¬ï¼å éå®éªè¿ä»£ã

4.3 æ§è½ä¼åä¸æ¨çæç

# æ§è½å¯¹æ¯ï¼ä¸åèåçç¥å¨æ¨çéåº¦ä¸çæ¨¡æå·®å¼ (ä¼ªä»£ç )
# åè®¾ä¸ä¸ªç®åçå¾å-ææ¬é®çä»»å¡

import time
import torch
import torch.nn as nn
import torch.nn.functional as F

# å¤ç¨ä¹åçCrossModalAttentionå®ä¹
class CrossModalAttention(nn.Module):
    def __init__(self, query_dim, key_dim, value_dim, output_dim, num_heads=4):
        super().__init__()
        self.num_heads = num_heads
        self.head_dim = value_dim // num_heads
        assert self.head_dim * num_heads == value_dim, "value_dim must be divisible by num_heads"

        self.wq = nn.Linear(query_dim, value_dim)
        self.wk = nn.Linear(key_dim, value_dim)
        self.wv = nn.Linear(value_dim, value_dim)
        self.fc_out = nn.Linear(value_dim, output_dim)

    def forward(self, query_features, key_features, value_features):
        batch_size = query_features.shape[0]

        Q = self.wq(query_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        K = self.wk(key_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
        V = self.wv(value_features).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)

        energy = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)
        attention_weights = F.softmax(energy, dim=-1)
        x = torch.matmul(attention_weights, V)
        x = x.transpose(1, 2).contiguous().view(batch_size, -1, self.num_heads * self.head_dim)
        return self.fc_out(x)

def measure_inference_time(model_func, *args, iterations=10, device="cpu"):
    # å°æ¨¡ååè¾å¥æ°æ®ç§»å¨å°æå®è®¾å¤
    model_func.to(device)
    args_on_device = [arg.to(device) if isinstance(arg, torch.Tensor) else arg for arg in args]

    # é¢çï¼è¿è¡å æ¬¡ï¼è®©GPUæCPUç¼åé¢ç
    for _ in range(3):
        _ = model_func(*args_on_device)

    # æµéï¼å¤æ¬¡è¿è¡åå¹³åæ¶é´
    start_time = time.perf_counter()
    for _ in range(iterations):
        _ = model_func(*args_on_device)
    end_time = time.perf_counter()
    return ((end_time - start_time) / iterations) * 1000 # æ¯«ç§/æ¬¡

# æ¨¡æä¸åèåçç¥çæ¨¡å
class EarlyFusionModel(nn.Module):
    def __init__(self): 
        super().__init__()
        self.linear = nn.Linear(512, 10) # 256(img_feat) + 256(txt_feat)
    def forward(self, img_feat, txt_feat): 
        return self.linear(torch.cat((img_feat, txt_feat), dim=-1))

class LateFusionModel(nn.Module):
    def __init__(self): 
        super().__init__()
        self.img_cls = nn.Linear(256, 5)
        self.txt_cls = nn.Linear(256, 5)
        self.final_cls = nn.Linear(10, 10) # èåä¸¤ä¸ª5ç»´çè¾åº
    def forward(self, img_feat, txt_feat): 
        img_out = self.img_cls(img_feat)
        txt_out = self.txt_cls(txt_feat)
        return self.final_cls(torch.cat((img_out, txt_out), dim=-1))

class HybridFusionModel(nn.Module):
    def __init__(self): 
        super().__init__()
        self.cross_attn = CrossModalAttention(query_dim=256, key_dim=256, value_dim=256, output_dim=256, num_heads=4)
        self.linear = nn.Linear(256, 10) # åè®¾è¾åºç»´åº¦ä¸EarlyFusionç¸å
    def forward(self, img_feat, txt_feat):
        # åè®¾txt_featæ¯queryï¼img_featæ¯key/value
        # éè¦unsqueeze(1)æ¥æ¨¡æåºåé¿åº¦ä¸º1çè¾å¥
        fused_feat = self.cross_attn(
            txt_feat.unsqueeze(1), 
            img_feat.unsqueeze(1), 
            img_feat.unsqueeze(1)
        ).squeeze(1) # æ¢å¤batch_size, feature_dim
        return self.linear(fused_feat)

# æ¨¡æç¹å¾
img_feat_sample = torch.randn(1, 256)
txt_feat_sample = torch.randn(1, 256)

# æ£æµå¯ç¨è®¾å¤
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"å½åæ¨çè®¾å¤: {device.upper()}")

# å®ä¾åæ¨¡å
early_model = EarlyFusionModel()
late_model = LateFusionModel()
hybrid_model = HybridFusionModel()

print("
=== èåçç¥æ¨çæ¶é´å¯¹æ¯ (æ¨¡æ) ===")
print("ï¼è¯·æ³¨æï¼å®éæ§è½åæ¨¡åå¤§å°ãç¡¬ä»¶ãæ¹å¤çå¤§å°çå ç´ å½±åãï¼")

# æ©æèåéå¸¸æå¿«ï¼å ä¸ºå®éå¸¸æ¯åä¸ãæ´ç´§åçç½ç»ç»æ
early_time = measure_inference_time(early_model, img_feat_sample, txt_feat_sample, device=device)
print(f"æ©æèåæ¨¡åæ¨çæ¶é´: {early_time:.2f} ms/æ¬¡")

# ææèåå¯è½éè¦åå«è¿è¡å¤ä¸ªåæ¨¡åï¼ç¶ååå¹¶ç»æãå¦æåæ¨¡åå¹¶è¡è¿è¡ï¼æ»æ¶é´å¯è½æ¥è¿ææ¢çåæ¨¡åï¼
# å¦æä¸²è¡ï¼åä¼æ¯ç´¯å ãè¿éæ¨¡æä¸ºä¸²è¡ï¼æ¶é´å¯è½ç¥é¿ã
late_time = measure_inference_time(late_model, img_feat_sample, txt_feat_sample, device=device)
print(f"ææèåæ¨¡åæ¨çæ¶é´: {late_time:.2f} ms/æ¬¡")

# æ··åèåï¼ç¹å«æ¯å¸¦æ³¨æåæºå¶ï¼éå¸¸è®¡ç®éæå¤§ï¼æ¨çæ¶é´å¯è½æé¿ï¼
# å ä¸ºæ³¨æåæºå¶æ¶åç©éµä¹æ³åSoftmaxè¿ç®ï¼å¤æåº¦è¾é«ã
hybrid_time = measure_inference_time(hybrid_model, img_feat_sample, txt_feat_sample, device=device)
print(f"æ··å/è·¨æ¨¡æèåæ¨¡åæ¨çæ¶é´: {hybrid_time:.2f} ms/æ¬¡")

# æ¨èåæ³ï¼
# æ§è½ä¼åæ¯ä¸ä¸ªç³»ç»å·¥ç¨ï¼éè¦æ ¹æ®å·ä½åºç¨åºæ¯åèµæºéå¶éæ©åéççç¥ã
# éåãåªæåç¥è¯è¸é¦è½ææåå°æ¨¡åä½ç§¯åå éæ¨çï¼èåå¸å¼æ¨çåæ¹å¤çåè½æé«ååéã
# å®éé¡¹ç®ä¸ï¼éå¸¸ä¼ç»åå¤ç§ä¼åææ®µï¼ä»¥è¾¾å°æä½³çæ§è½-ç²¾åº¦å¹³è¡¡ã
# æ¤å¤ï¼ä½¿ç¨é«æ§è½æ¨çæ¡æ¶ï¼å¦TensorRTï¼å¯ä»¥è¿ä¸æ¥æ¦¨åç¡¬ä»¶æ§è½ã

ç¬¬äºç« ï¼æå»ºä½ çç¬¬ä¸ä¸ªå¤æ¨¡æLLMåºç¨

5.2 æ ¸å¿ç»ä»¶æ¦è§

éç½®ç®¡ç (config.py)ï¼ éä¸ç®¡çæ¨¡ååç§°ãç»´åº¦ãå¾çå¤çåæ°çã
æ¨¡åå®ä¹ä¸å è½½ (models.py)ï¼ å°è£è§è§ç¼ç å¨ãæ¨¡ææå½±å±åå¤§åè¯è¨æ¨¡åçå è½½åååä¼ æé»è¾ãæä»¬å°å©ç¨Hugging Face transformers åºæ¥ç®åæ¨¡åæä½ã
ä¸»ç¨åºé»è¾ (main.py)ï¼ æ´åææç»ä»¶ï¼å®ç°åºç¨çç«¯å°ç«¯æµç¨ã

5.3 ä»£ç å®ç°ï¼æ¨¡ååè®¾è®¡

`config.py`ï¼éç½®åæ°

# config.py
import torch

class AppConfig:
    # è§è§ç¼ç å¨æ¨¡ååç§° (ä¾å¦ï¼CLIPçVision Transformer)
    # æä»¬å¯ä»¥ä½¿ç¨ "openai/clip-vit-base-patch32"
    VISION_ENCODER_MODEL = "openai/clip-vit-base-patch32" 

    # LLMæ¨¡ååç§° (è¿éä½¿ç¨ä¸ä¸ªè¾å°çGPT-2æ¼ç¤ºï¼å®éå¤æ¨¡æLLMä¼æ¯BLIP-2, LLaVAç)
    # ç±äºæä»¬æ¯æ¼ç¤ºï¼GPT-2å¯ä»¥ä½ä¸ºåºç¡LLMï¼éåæå½±å±
    LLM_MODEL = "gpt2" 

    # è§è§ç¹å¾ç»´åº¦ (CLIP ViT-B/32 output dim)
    VISION_FEATURE_DIM = 768 
    # LLMåµå¥ç»´åº¦ (GPT-2 embedding dim)
    LLM_EMBEDDING_DIM = 768 

    # å¾çå¤çåæ° (CLIP Processorä¼èªå¨å¤çï¼è¿éä»åè®°å½)
    IMAGE_SIZE = (224, 224)

    # LLMçæææ¬åæ°
    MAX_NEW_TOKENS = 50
    TEMPERATURE = 0.7

    # è®¾å¤è®¾ç½®
    DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

`models.py`ï¼æ¨¡åå®ä¹ä¸å è½½

# models.py
import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModelForCausalLM, CLIPVisionModel, CLIPProcessor

class MultimodalVQA:
    def __init__(self, config):
        self.config = config
        self.device = config.DEVICE

        print(f"Loading Vision Encoder: {config.VISION_ENCODER_MODEL} to {self.device}")
        # å è½½å»ç»çCLIPè§è§ç¼ç å¨
        self.vision_processor = CLIPProcessor.from_pretrained(config.VISION_ENCODER_MODEL)
        self.vision_encoder = CLIPVisionModel.from_pretrained(config.VISION_ENCODER_MODEL).to(self.device)
        self.vision_encoder.eval() # å»ç»åæ°ï¼ä¸è¿è¡è®ç»
        for param in self.vision_encoder.parameters():
            param.requires_grad = False

        print(f"Loading LLM: {config.LLM_MODEL} to {self.device}")
        # å è½½å»ç»çLLM (è¿éç¨GPT-2æ¼ç¤ºï¼å®éä¼ç¨å¤æ¨¡æLLMå¦BLIP-2, LLaVA)
        self.llm_tokenizer = AutoTokenizer.from_pretrained(config.LLM_MODEL)
        if self.llm_tokenizer.pad_token is None: # GPT-2æ²¡æé»è®¤pad token
             self.llm_tokenizer.pad_token = self.llm_tokenizer.eos_token
        self.llm_model = AutoModelForCausalLM.from_pretrained(config.LLM_MODEL).to(self.device)
        self.llm_model.eval() # å»ç»åæ°ï¼ä¸è¿è¡è®ç»
        for param in self.llm_model.parameters():
            param.requires_grad = False

        # æ¨¡ææå½±å±ï¼å°è§è§ç¹å¾æ å°å°LLMçåµå¥ç©ºé´
        # LLaVAçç®åçº¿æ§å±æè·¯ï¼è¿éæä»¬åè®¾å®å·²ç»è¿è®ç»ï¼æèå¨å®éåºç¨ä¸ä¼å¾®è°
        self.projection_layer = nn.Linear(config.VISION_FEATURE_DIM, config.LLM_EMBEDDING_DIM).to(self.device)
        # æ³¨æï¼å¨å®éçå¤æ¨¡æLLMä¸ï¼è¿ä¸ªæå½±å±ä¼å¨è§è§-è¯è¨å¯¹é½é¶æ®µè¢«è®ç»ã
        # å¨è¿ä¸ªç®åç¤ºä¾ä¸ï¼æä»¬åè®¾è¿ä¸ªå±æ¯é¢è®ç»å¥½çï¼æéæºåå§ååä¸è®ç»ï¼ã
        # å¯¹äºçå®åºç¨ï¼ä½ éè¦å è½½ä¸ä¸ªå·²ç»è¿è¡è¿è§è§-è¯è¨å¯¹é½çæéï¼æèå°å¶è®¾ç½®ä¸ºå¯è®ç»å¹¶å¨æä»¤å¾®è°é¶æ®µè®ç»å®ã

    def encode_image(self, image):
        # å¾åé¢å¤çå¹¶ç¼ç 
        inputs = self.vision_processor(images=image, return_tensors="pt").to(self.device)
        with torch.no_grad():
            # ä½¿ç¨pooler_outputä½ä¸ºå¾åçæ´ä½ç¹å¾ï¼å½¢ç¶ä¸º [batch_size, VISION_FEATURE_DIM]
            image_features = self.vision_encoder(**inputs).pooler_output
        return image_features 

    def project_vision_features(self, image_features):
        # å°è§è§ç¹å¾æå½±å°LLMçåµå¥ç©ºé´
        projected_features = self.projection_layer(image_features)
        return projected_features # [batch_size, LLM_EMBEDDING_DIM]

    def generate_answer(self, combined_input_embeddings):
        # LLMçæåç
        with torch.no_grad():
            output_ids = self.llm_model.generate(
                inputs_embeds=combined_input_embeddings,
                max_new_tokens=self.config.MAX_NEW_TOKENS,
                temperature=self.config.TEMPERATURE,
                pad_token_id=self.llm_tokenizer.pad_token_id,
                attention_mask=torch.ones(combined_input_embeddings.shape[:-1], device=self.device) # çææ¶ä¹éè¦attention mask
            )
        # è§£ç çæçtokenï¼å¹¶å»é¤ç¹æ®token
        generated_text = self.llm_tokenizer.decode(output_ids[0], skip_special_tokens=True)
        return generated_text

# utils.py
from PIL import Image
import requests
from io import BytesIO
import torch

def load_image_from_url(url):
    """ä»URLå è½½å¾çå¹¶è½¬æ¢ä¸ºPIL Image"""
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status() # æ£æ¥HTTPè¯·æ±æ¯å¦æå
        image = Image.open(BytesIO(response.content)).convert("RGB")
        return image
    except requests.exceptions.RequestException as e:
        print(f"Error loading image from URL: {e}")
        return None
    except Exception as e:
        print(f"Error processing image: {e}")
        return None

def prepare_llm_input(question, projected_vision_features, llm_tokenizer, llm_model, device):
    """
    å°è§è§ç¹å¾åææ¬é®é¢æ¼æ¥ä½ä¸ºLLMè¾å¥ã
    æ¨¡æLLaVAçè¾å¥æ ¼å¼ï¼<image_features_as_prefix> + text_prompt
    """

    # ææ¬é®é¢ç¼ç 
    text_input_ids = llm_tokenizer(
        question, 
        return_tensors="pt", 
        add_special_tokens=True # æ·»å CLS/SEPçç¹æ®token
    ).input_ids.to(device)

    # è·åLLMçè¯åµå¥å±
    llm_embeddings_layer = llm_model.get_input_embeddings()

    # å°ææ¬input_idsè½¬æ¢ä¸ºåµå¥åé
    text_embeddings = llm_embeddings_layer(text_input_ids)

    # å°æå½±åçè§è§ç¹å¾ä½ä¸ºåç¼ä¸ææ¬åµå¥æ¼æ¥
    # projected_vision_features å½¢ç¶åºä¸º [batch_size, LLM_EMBEDDING_DIM]
    # æä»¬éè¦å°å¶æ©å±ä¸º [batch_size, 1, LLM_EMBEDDING_DIM] ä»¥ä¾¿ä¸ææ¬åºåæ¼æ¥
    combined_embeddings = torch.cat(
        (projected_vision_features.unsqueeze(1), text_embeddings), 
        dim=1
    )
    return combined_embeddings

`main.py`ï¼ä¸»ç¨åºé»è¾

# main.py
from config import AppConfig
from models import MultimodalVQA
from utils import load_image_from_url, prepare_llm_input
import torch

def main():
    config = AppConfig()
    vqa_model = MultimodalVQA(config)

    # ç¤ºä¾å¾çåé®é¢
    image_url = "http://images.cocodataset.org/val2017/000000039769.jpg" # ä¸åªç«å¨æ²åä¸
    question = "è¿å¼ å¾çéæä»ä¹å¨ç©ï¼å®ä»¬å¨åä»ä¹ï¼"

    print(f"
--- å¤çå¾ç: {image_url} ---")
    print(f"--- ç¨æ·é®é¢: {question} ---")

    # 1. å è½½å¾ç
    image = load_image_from_url(image_url)
    if image is None:
        print("æ æ³å è½½å¾çï¼è¯·æ£æ¥URLæç½ç»è¿æ¥ã")
        return

    # 2. ç¼ç å¾åè·åè§è§ç¹å¾
    image_features = vqa_model.encode_image(image)
    print(f"å¾åç¹å¾å½¢ç¶: {image_features.shape}")

    # 3. æå½±è§è§ç¹å¾å°LLMåµå¥ç©ºé´
    projected_vision_features = vqa_model.project_vision_features(image_features)
    print(f"æå½±åçè§è§ç¹å¾å½¢ç¶: {projected_vision_features.shape}")

    # 4. åå¤LLMçè¾å¥åµå¥ (è§è§ç¹å¾ + ææ¬é®é¢)
    combined_input_embeddings = prepare_llm_input(
        question, 
        projected_vision_features, 
        vqa_model.llm_tokenizer, 
        vqa_model.llm_model, 
        vqa_model.device
    )
    print(f"LLMæç»è¾å¥åµå¥å½¢ç¶: {combined_input_embeddings.shape}")

    # 5. LLMçæåç
    print("
LLMæ£å¨çæåç... (è¿å¯è½éè¦ä¸äºæ¶é´ï¼åå³äºä½ çç¡¬ä»¶åæ¨¡åå¤§å°)")
    # æ³¨æï¼è¿éGPT-2æ¬èº«æ¯çº¯ææ¬æ¨¡åï¼å®ä¼å°è¯åºäºæ¼æ¥ç"è§è§ç¹å¾"åé®é¢çæï¼
    # ä½å¶åççè´¨éä¸¥éä¾èµäºæå½±å±çè®ç»åGPT-2æ¬èº«çæ³åè½åã
    # çæ£çå¤æ¨¡æLLMï¼å¦BLIP-2æLLaVAï¼ä¼å¨å¶çæè¿ç¨ä¸æ´æ·±å¥å°å©ç¨è§è§ä¿¡æ¯ã
    answer = vqa_model.generate_answer(combined_input_embeddings)

    print(f"
--- åç: {answer} ---")

if __name__ == "__main__":
    main()

# æ¨èåæ³ï¼
# è¿ä¸ªæ¨¡ååçç¤ºä¾å±ç¤ºäºå¦ä½å°è§è§ç¼ç ãæ¨¡æå¯¹é½åè¯è¨çæç»åèµ·æ¥ï¼
# æå»ºä¸ä¸ªç®åçå¤æ¨¡æLLMåºç¨ãå¨å®éé¡¹ç®ä¸ï¼æ¨¡åçå è½½åè®ç»éå¸¸æ´ä¸ºå¤æï¼
# ç¹å«æ¯æå½±å±éè¦è¿è¡è§è§-è¯è¨å¯¹é½çè®ç»ï¼ä½æ ¸å¿çæ°æ®æµåç»ä»¶åä½é»è¾æ¯ç¸ä¼¼çã
# è¿ç§ç»ææå©äºå¢éåä½åç»´æ¤ï¼å¹¶ä¸ä¾¿äºæ¿æ¢ä¸åçè§è§ç¼ç å¨æLLMã

ç¬¬åç« ï¼æ»ç»ä¸å±æï¼å¤æ¨¡æLLMçæªæ¥

6.1 æ ¸å¿ç¥è¯ç¹åé¡¾

å¤æ¨¡æèåçå¿è¦æ§ï¼ çº¯ææ¬LLMæ æ³æç¥çå®ä¸ççå¾åãå£°é³çä¿¡æ¯ï¼ç¼ºä¹å¯¹ç©çä¸ççâæ¥å°âè½åãå¤æ¨¡æèåæ¯èµäºLLMæ´å¨é¢æç¥è½åï¼å®ç°éç¨äººå·¥æºè½çå³é®ä¸æ¥ã
ä¸ç§èåèå¼ï¼
- æ©æèåï¼ å¨ç¹å¾å±é¢å¯¹æ¥ï¼æè·ç»ç²åº¦äº¤äºï¼ä½å¯¹å¯¹é½è¦æ±é«ï¼æååªå£°å½±åã
- ææèåï¼ å¨å³çå±é¢éæï¼æ¨¡ååå¼ºï¼ä½äº¤äºæ·±åº¦æéï¼å¯è½éè¿åºå±å³èã
- æ··å/è·¨æ¨¡æèåï¼ ç»ååä¸¤èä¼ç¹ï¼éè¿æ³¨æåæºå¶åæ¨¡ææ¡¥æ¥å¨å®ç°æ·±å±å¨æäº¤äºï¼æ¯å½åä¸»æµä¸æææä½³çæ¹æ¡ã
ä¸»æµæ¨¡åè§£æï¼
- CLIPï¼ éè¿å¯¹æ¯å¦ä¹ å®ç°å¾å-ææ¬å¯¹é½ï¼æå»ºå±äº«åµå¥ç©ºé´ï¼æ¯è®¸å¤å¤æ¨¡ææ¨¡åçåºç¡ã
- BLIP/BLIP-2ï¼ å¼å¥Q-Formeré«æè¿æ¥å»ç»çè§è§åè¯è¨æ¨¡åï¼å®ç°å¼ºå¤§çè§è§-è¯è¨çè§£ä¸çæã
- LLaVAï¼ ç®æ´é«æï¼éè¿çº¿æ§æå½±åå¤§è§æ¨¡æä»¤å¾®è°å°LLMè½¬åä¸ºè§è§å©æï¼è¯æäºæä»¤å¾®è°çå·¨å¤§æ½åã
- Flamingoï¼ éç¨Perceiver Resampleråé¨æ§äº¤åæ³¨æåï¼æé¿å¤çåé¿è§è§è¾å¥åå®ç°å°æ ·æ¬å¦ä¹ ã
å®æææä¸ä¼åï¼ é«è´¨éçæ°æ®å¯¹é½ä¸æ æ³¨æ¯æ¨¡åæåçåºç³ï¼å»ç»é¢è®ç»æ¨¡åãåæ°é«æå¾®è° (PEFTï¼å¦LoRA) æ¯åºå¯¹è®ç»èµæºæ¶èçææçç¥ï¼æ¨¡åéåãåªæãç¥è¯è¸é¦çæ¯æåæ¨çæçãéä½é¨ç½²ææ¬çå³é®ã

6.2 å®æå»ºè®®ä¸è¿é¶æ¹å

ä»å°å¤çæï¼éæ¥è¿ä»£ï¼ å¦æä½ æç®æå»ºèªå·±çå¤æ¨¡æåºç¨ï¼å»ºè®®ä»å©ç¨ç°æçé¢è®ç»æ¨¡åï¼å¦Hugging Faceä¸çBLIP-2æLLaVAï¼å¼å§ï¼èä¸æ¯ä»å¤´è®ç»ãçè§£è¿äºæ¨¡åçæ¶æåæ°æ®æµï¼åå¨æ¤åºç¡ä¸è¿è¡å®å¶åä¼åã
å³æ³¨æ°æ®è´¨éï¼ æå¥æ¶é´åç²¾åå¨æ°æ®çæ¶éãæ¸æ´åæ æ³¨ä¸ãé«è´¨éçæ°æ®æ¯æ¨¡åæ§è½çå³å®æ§å ç´ ãå¯¹äºç¹å®é¢åï¼å¯ä»¥æ¢ç´¢å©ç¨åææ°æ®æå¼±çç£ææ¯æ¥æ©åæ°æ®éã
æ¥æ±åæ°é«æå¾®è° (PEFT)ï¼ å¯¹äºèµæºæéçå¢éï¼LoRAãAdapterçPEFTæ¹æ³æ¯å¾®è°å¤§åå¤æ¨¡ææ¨¡åççæ³éæ©ï¼å®ä»¬è½ä»¥æå°çè®¡ç®ææ¬ååå¨å¼éå®ç°æ¥è¿å¨åæ°å¾®è°çææã
å³æ³¨æ¨çä¼åï¼ å¨æ¨¡åé¨ç½²æ¶ï¼å¡å¿èèéåãåªæçææ¯ï¼ä»¥éä½æ¨çææ¬å¹¶æé«ååºéåº¦ãéæ©åéçæ¨çæ¡æ¶ï¼å¦TensorRTï¼ä¹è½å¸¦æ¥æ¾èæ§è½æåã
æ¢ç´¢å¤æ¨¡ææ¨çï¼ é¤äºç®åçé®çåæè¿°ï¼å¤æ¨¡æLLMå¨æ´å¤æçæ¨çä»»å¡ï¼å¦è§è§å¸¸è¯æ¨çãæ¥éª¤è§åãå¤è·³é®çï¼ä¸æ½åå·¨å¤§ãç ç©¶å¦ä½è®©æ¨¡åè¿è¡æ´æ·±å±æ¬¡çè·¨æ¨¡æé»è¾æ¨çæ¯æªæ¥çéè¦æ¹åã
å³æ³¨ä¼¦çä¸å®å¨ï¼ å¤æ¨¡ææ¨¡åå¯è½çææå®³ãåè§åå®¹ï¼æè¢«ç¨äºæ¶æç®çï¼å¦æ·±åº¦ä¼ªé ï¼ãå¨å¼ååé¨ç½²æ¶ï¼å¡å¿èèå¶ä¼¦çå½±ååå®å¨é²æ¤ï¼è¿è¡åè§æ£æµååå®¹è¿æ»¤ã
è§é¢ä¸é³é¢æ¨¡æçæ·±åº¦èåï¼ å½åä¸»æµæ´å¤å³æ³¨å¾å-ææ¬ï¼ä½è§é¢åé³é¢çå¤æ¨¡æèåæ¯æªæ¥çéè¦æ¹åãç ç©¶å¦ä½å°LLMä¸è¯é³è¯å«ãè§é¢çè§£æ¨¡åæ´ç´§å¯å°ç»åï¼å¤çæ¶åºå¨æä¿¡æ¯ï¼æå»ºæ´å¨é¢çæç¥æºè½ä½ï¼å°æ¯ä¸ä¸ä¸ªåæ²¿ã

深入理解LLM多模态融合：从原理到实战

å¼è¨ï¼æç ´ææ¬çè¾¹çï¼æ¥æ±å¤æ¨¡ææºè½

ç¬¬ä¸ç« ï¼ä¸ºä½å¤æ¨¡æèåå¿å¨å¿è¡ï¼

1.1 LLMçâç²åºâä¸âèåºâï¼ææ¬çå±éæ§

1.2 å¤æ¨¡ææºè½çå·¨å¤§ä»·å¼

ç¬¬äºç« ï¼å¤æ¨¡æèåçæ ¸å¿çç¥ä¸èå¼

2.1 æ©æèå (Early Fusion)ï¼æ°æ®å±é¢çäº²å¯æ¥è§¦

2.2 ææèå (Late Fusion)ï¼å³çå±é¢çæºæ§åå

2.3 æ··å/è·¨æ¨¡æèå (Hybrid/Cross-modal Fusion)ï¼æ·±å±äº¤äºä¸å¦ä¹

ç¬¬ä¸ç« ï¼ä¸»æµLLMå¤æ¨¡æèåæ¹æ¡æ·±åº¦è§£æ

3.1 CLIPï¼ä»å¯¹æ¯å¦ä¹ å°è·¨æ¨¡æå¯¹é½

3.2 BLIPä¸BLIP-2ï¼æå»ºè§è§-è¯è¨å¤§æ¨¡åçåºç³

3.3 LLaVAï¼æä»¤éµå¾ªä¸çè§è§å©æ

3.4 Flamingoï¼æç¥å¨ä¸å»ç»LLMçç»å

ç¬¬åç« ï¼LLMå¤æ¨¡æèåçå®æææä¸ä¼å

4.1 æ°æ®å¯¹é½ä¸æ æ³¨ï¼é«è´¨éèåçåºç³

4.2 è®ç»çç¥ä¸èµæºæ¶è

4.3 æ§è½ä¼åä¸æ¨çæç

ç¬¬äºç« ï¼æå»ºä½ çç¬¬ä¸ä¸ªå¤æ¨¡æLLMåºç¨

5.1 åºç¨åºæ¯ï¼å¾åé®çå©æ

5.2 æ ¸å¿ç»ä»¶æ¦è§

5.3 ä»£ç å®ç°ï¼æ¨¡ååè®¾è®¡

`config.py`ï¼éç½®åæ°

`models.py`ï¼æ¨¡åå®ä¹ä¸å è½½

`utils.py`ï¼è¾å©å·¥å·å½æ°

`main.py`ï¼ä¸»ç¨åºé»è¾

ç¬¬åç« ï¼æ»ç»ä¸å±æï¼å¤æ¨¡æLLMçæªæ¥

6.1 æ ¸å¿ç¥è¯ç¹åé¡¾

6.2 å®æå»ºè®®ä¸è¿é¶æ¹å

深入理解LLM多模态融合：从原理到实战

å¼è¨ï¼æç ´ææ¬çè¾¹çï¼æ¥æ±å¤æ¨¡ææºè½

ç¬¬ä¸ç« ï¼ä¸ºä½å¤æ¨¡æèåå¿å¨å¿ è¡ï¼

1.1 LLMçâç²åºâä¸âèåºâï¼ææ¬çå±éæ§

1.2 å¤æ¨¡ææºè½çå·¨å¤§ä»·å¼

ç¬¬äºç« ï¼å¤æ¨¡æèåçæ ¸å¿ç­ç¥ä¸èå¼

2.1 æ©æèå (Early Fusion)ï¼æ°æ®å±é¢çäº²å¯æ¥è§¦

2.2 ææèå (Late Fusion)ï¼å³ç­å±é¢çæºæ §åå

2.3 æ··å/è·¨æ¨¡æèå (Hybrid/Cross-modal Fusion)ï¼æ·±å±äº¤äºä¸å­¦ä¹

ç¬¬ä¸ç« ï¼ä¸»æµLLMå¤æ¨¡æèåæ¹æ¡æ·±åº¦è§£æ

3.1 CLIPï¼ä»å¯¹æ¯å­¦ä¹ å°è·¨æ¨¡æå¯¹é½

3.2 BLIPä¸BLIP-2ï¼æå»ºè§è§-è¯­è¨å¤§æ¨¡åçåºç³

3.3 LLaVAï¼æä»¤éµå¾ªä¸çè§è§å©æ

3.4 Flamingoï¼æç¥å¨ä¸å»ç»LLMçç»å

ç¬¬åç« ï¼LLMå¤æ¨¡æèåçå®æææä¸ä¼å

4.1 æ°æ®å¯¹é½ä¸æ æ³¨ï¼é«è´¨éèåçåºç³

4.2 è®­ç»ç­ç¥ä¸èµæºæ¶è

4.3 æ§è½ä¼åä¸æ¨çæç

ç¬¬äºç« ï¼æå»ºä½ çç¬¬ä¸ä¸ªå¤æ¨¡æLLMåºç¨

5.1 åºç¨åºæ¯ï¼å¾åé®ç­å©æ

5.2 æ ¸å¿ç»ä»¶æ¦è§

5.3 ä»£ç å®ç°ï¼æ¨¡ååè®¾è®¡

config.pyï¼é ç½®åæ°

models.pyï¼æ¨¡åå®ä¹ä¸å è½½

utils.pyï¼è¾ å©å·¥å ·å½æ°

main.pyï¼ä¸»ç¨åºé»è¾

ç¬¬å ­ç« ï¼æ»ç»ä¸å±æï¼å¤æ¨¡æLLMçæªæ¥

6.1 æ ¸å¿ç¥è¯ç¹åé¡¾

6.2 å®æå»ºè®®ä¸è¿é¶æ¹å

å¼è¨ï¼æç ´ææ¬çè¾¹çï¼æ¥æ±å¤æ¨¡ææºè½

ç¬¬ä¸ç« ï¼ä¸ºä½å¤æ¨¡æèåå¿å¨å¿è¡ï¼

1.1 LLMçâç²åºâä¸âèåºâï¼ææ¬çå±éæ§

1.2 å¤æ¨¡ææºè½çå·¨å¤§ä»·å¼

ç¬¬äºç« ï¼å¤æ¨¡æèåçæ ¸å¿çç¥ä¸èå¼

2.1 æ©æèå (Early Fusion)ï¼æ°æ®å±é¢çäº²å¯æ¥è§¦

2.2 ææèå (Late Fusion)ï¼å³çå±é¢çæºæ§åå

2.3 æ··å/è·¨æ¨¡æèå (Hybrid/Cross-modal Fusion)ï¼æ·±å±äº¤äºä¸å¦ä¹

ç¬¬ä¸ç« ï¼ä¸»æµLLMå¤æ¨¡æèåæ¹æ¡æ·±åº¦è§£æ

3.1 CLIPï¼ä»å¯¹æ¯å¦ä¹ å°è·¨æ¨¡æå¯¹é½

3.2 BLIPä¸BLIP-2ï¼æå»ºè§è§-è¯è¨å¤§æ¨¡åçåºç³

3.3 LLaVAï¼æä»¤éµå¾ªä¸çè§è§å©æ

3.4 Flamingoï¼æç¥å¨ä¸å»ç»LLMçç»å

ç¬¬åç« ï¼LLMå¤æ¨¡æèåçå®æææä¸ä¼å

4.1 æ°æ®å¯¹é½ä¸æ æ³¨ï¼é«è´¨éèåçåºç³

4.2 è®ç»çç¥ä¸èµæºæ¶è

4.3 æ§è½ä¼åä¸æ¨çæç

ç¬¬äºç« ï¼æå»ºä½ çç¬¬ä¸ä¸ªå¤æ¨¡æLLMåºç¨

5.1 åºç¨åºæ¯ï¼å¾åé®çå©æ

5.2 æ ¸å¿ç»ä»¶æ¦è§

5.3 ä»£ç å®ç°ï¼æ¨¡ååè®¾è®¡

`config.py`ï¼éç½®åæ°

`models.py`ï¼æ¨¡åå®ä¹ä¸å è½½

`utils.py`ï¼è¾å©å·¥å·å½æ°

`main.py`ï¼ä¸»ç¨åºé»è¾

ç¬¬åç« ï¼æ»ç»ä¸å±æï¼å¤æ¨¡æLLMçæªæ¥

6.1 æ ¸å¿ç¥è¯ç¹åé¡¾

6.2 å®æå»ºè®®ä¸è¿é¶æ¹å