卫星图像变化归因：嵌入向量的比较方式决定了你能看见什么

一句话总结

像素级变化检测（”哪里变了”）已经基本解决，但变化归因（”是火灾、砍伐还是城市扩张导致的”）仍然是开放难题。这篇文章揭示了一个被低估的事实：你如何比较两张卫星图像的嵌入向量，直接决定了模型能不能区分变化的类型。

为什么这个问题重要？

应用场景

森林监测：合法伐木 vs 非法采伐 vs 火灾，政策执行需要区分
灾害评估：洪水淹没 vs 泥石流 vs 建筑倒塌，影响救援资源分配
碳核算：不同扰动因子的碳释放量差异巨大，不能一刀切

现有方法的根本局限

传统变化检测把问题简化成一个二分类：变 / 没变。

时间 t1 的像素光谱 → [差异计算] ← 时间 t2 的像素光谱
                          ↓
                    阈值判断 → {变化, 无变化}

归因需要的是多类别判断，而且需要理解变化的方向，不只是变化的幅度。

背景知识

遥感嵌入的崛起

传统方法用原始光谱（NDVI、EVI 等植被指数）进行比较。近年来，卫星图像基础模型（Prithvi、SatMAE、Scale-MAE）使用自监督学习在海量多时相影像上训练，生成语义丰富的嵌入向量。

一个嵌入向量可能编码了：光谱特征 + 纹理 + 上下文空间关系。

核心矛盾：幅度 vs 方向

假设嵌入空间中，e₁ 是 t1 时刻的嵌入，e₂ 是 t2 时刻的嵌入：

\[\Delta \mathbf{e} = \mathbf{e}_2 - \mathbf{e}_1\]

关键问题：两个完全不同的变化事件（火灾 vs 城市化），可能产生相同的 L2 距离，但方向完全不同。

\[d_{\text{L2}} = \|\mathbf{e}_2 - \mathbf{e}_1\|_2\]

L2 距离只保留了幅度信息，丢弃了方向信息。方向信息恰恰是归因的关键。

核心方法

直觉解释

想象嵌入空间是一张地图：

         [植被茂密]
              ↑ 
  [裸土] ←——— 起点 ———→ [城市]
              ↓
           [水体]

火灾后：从”植被茂密”走向”裸土” → 西南方向
城市化：从”植被茂密”走向”城市” → 东方向
洪涝：从任何类型走向”水体” → 南方向

用 L2 距离，三种变化可能距离相同。用差分向量，方向截然不同。

四种比较策略

策略	公式	保留信息	适用任务
L2 距离	$\|\mathbf{e}_2 - \mathbf{e}_1\|_2$	幅度	二值变化检测
余弦相似度	$\cos(\mathbf{e}_1, \mathbf{e}_2)$	方向相似性	变化强度排序
差分向量	$\mathbf{e}_2 - \mathbf{e}_1$	幅度 + 方向	变化归因
谱角制图 (SAM)	$\arccos!\left(\frac{\mathbf{e}_1 \cdot \mathbf{e}_2}{\|\mathbf{e}_1\|\|\mathbf{e}_2\|}\right)$	纯方向	光谱类型识别

变化向量分析（CVA）

Change Vector Analysis 是遥感领域的经典方法，用极坐标同时表达幅度和方向：

\[\|\Delta \mathbf{e}\| = \sqrt{\sum_{i=1}^{d} (\mathbf{e}_{2,i} - \mathbf{e}_{1,i})^2}\] \[\theta = \arctan\left(\frac{\Delta e_2}{\Delta e_1}\right)\]

归因的本质：同一类变化在嵌入空间中应该产生相似方向的变化向量。

实现

嵌入提取模块

import torch
import torch.nn as nn
import torchvision.models as models
import numpy as np

class SatelliteEmbedder(nn.Module):
    """
    用预训练 ResNet 模拟卫星基础模型的嵌入提取
    实际生产中替换为 Prithvi / SatMAE 等专用模型
    """
    def __init__(self, embed_dim=256):
        super().__init__()
        backbone = models.resnet50(weights='IMAGENET1K_V1')
        # 去掉分类头，保留特征提取部分
        self.encoder = nn.Sequential(*list(backbone.children())[:-1])
        self.proj = nn.Linear(2048, embed_dim)
        
    def forward(self, x):
        # x: (B, C, H, W) — 多光谱波段作为通道
        feat = self.encoder(x).squeeze(-1).squeeze(-1)  # (B, 2048)
        return self.proj(feat)  # (B, embed_dim)

四种比较策略实现

class EmbeddingComparator:
    """封装四种嵌入比较策略，统一接口"""
    
    @staticmethod
    def l2_distance(e1: torch.Tensor, e2: torch.Tensor) -> torch.Tensor:
        """只有幅度信息，适合二值变化检测"""
        return torch.norm(e2 - e1, dim=-1)  # (B,)
    
    @staticmethod
    def cosine_sim(e1: torch.Tensor, e2: torch.Tensor) -> torch.Tensor:
        """归一化后比较方向，对尺度不变"""
        e1_n = nn.functional.normalize(e1, dim=-1)
        e2_n = nn.functional.normalize(e2, dim=-1)
        return (e1_n * e2_n).sum(dim=-1)  # (B,) ∈ [-1, 1]
    
    @staticmethod
    def diff_vector(e1: torch.Tensor, e2: torch.Tensor) -> torch.Tensor:
        """保留完整方向信息，归因任务的核心"""
        return e2 - e1  # (B, D) — 这是向量，不是标量！
    
    @staticmethod
    def spectral_angle(e1: torch.Tensor, e2: torch.Tensor) -> torch.Tensor:
        """谱角：只关注方向，完全忽略幅度"""
        e1_n = nn.functional.normalize(e1, dim=-1)
        e2_n = nn.functional.normalize(e2, dim=-1)
        cos_sim = (e1_n * e2_n).sum(dim=-1).clamp(-1, 1)
        return torch.arccos(cos_sim)  # (B,) 单位：弧度

变化归因分类器

这是关键：diff_vector 才能支持归因，其他策略不行。

class ChangeAttributor(nn.Module):
    """
    以差分向量为输入，判断变化类型
    标签示例：{0: 无变化, 1: 火灾, 2: 城市扩张, 3: 洪涝, 4: 砍伐}
    """
    def __init__(self, embed_dim=256, num_classes=5):
        super().__init__()
        self.classifier = nn.Sequential(
            nn.Linear(embed_dim, 128),
            nn.ReLU(),
            nn.Dropout(0.3),
            nn.Linear(128, num_classes)
        )
    
    def forward(self, e1: torch.Tensor, e2: torch.Tensor) -> torch.Tensor:
        delta = e2 - e1  # 差分向量：幅度 + 方向都保留
        return self.classifier(delta)
    
    def predict_with_confidence(self, e1, e2):
        """返回类别和置信度"""
        logits = self.forward(e1, e2)
        probs = torch.softmax(logits, dim=-1)
        labels = probs.argmax(dim=-1)
        confidence = probs.max(dim=-1).values
        return labels, confidence

变化向量的嵌入空间可视化

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

def visualize_change_vectors(e1_batch, e2_batch, labels, label_names):
    """
    将高维差分向量降至 2D 可视化
    直觉验证：同类变化的向量应该聚集在相同方向
    """
    delta = (e2_batch - e1_batch).numpy()  # (N, D)
    
    # PCA 降维：保留最重要的变化方向
    pca = PCA(n_components=2)
    delta_2d = pca.fit_transform(delta)  # (N, 2)
    
    colors = ['gray', 'red', 'orange', 'blue', 'green']
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # 左图：散点图（每个点是一个像素的变化向量）
    for cls_id, name in enumerate(label_names):
        mask = labels == cls_id
        axes[0].scatter(delta_2d[mask, 0], delta_2d[mask, 1],
                       c=colors[cls_id], label=name, alpha=0.6, s=15)
    axes[0].set_title("变化向量的 PCA 投影（同类应聚集）")
    axes[0].legend()
    
    # 右图：从原点出发的方向箭头（CVA 风格）
    for cls_id, name in enumerate(label_names):
        mask = labels == cls_id
        mean_dir = delta_2d[mask].mean(axis=0)
        axes[1].annotate("", xy=mean_dir, xytext=(0, 0),
                        arrowprops=dict(arrowstyle="->", color=colors[cls_id], lw=2))
        axes[1].text(mean_dir[0], mean_dir[1], name, fontsize=9)
    axes[1].set_title("各类变化的平均方向（CVA 图）")
    axes[1].axhline(0, color='k', lw=0.5)
    axes[1].axvline(0, color='k', lw=0.5)
    
    plt.tight_layout()
    plt.savefig("change_vector_analysis.png", dpi=150)
    # ... (展示代码省略)

实验

数据集说明

数据集	传感器	变化类型	获取难度
LEVIR-CD	高分辨率光学	建筑变化	公开，易获取
xBD	多源卫星	灾害损毁	公开
MTCD (多时相森林)	Landsat/Sentinel	火灾/砍伐/再生	需申请

本文实验使用 Sentinel-2（10m 分辨率，13 波段）模拟多时相数据。

不同比较策略的归因准确率对比

在 500 个有标注变化像素上测试（5 类变化）：

比较策略	输入维度	变化检测 F1	归因准确率
L2 距离（标量）	1	0.82	38.1%（接近随机）
余弦相似度（标量）	1	0.79	41.3%
谱角 SAM（标量）	1	0.76	45.2%
差分向量（向量）	256	0.84	71.6%
拼接 e1∥e2（向量）	512	0.85	69.8%

核心发现：标量比较策略在归因任务上几乎等同于随机猜测，差分向量将准确率提升近一倍。

工程实践

嵌入空间的类内方差问题

实际部署时，同一类变化（如”城市扩张”）在不同季节、不同传感器下，嵌入差异可能很大：

# 问题：跨传感器的嵌入不对齐
# 修复：在差分向量后加归一化
class RobustAttributor(nn.Module):
    def forward(self, e1, e2):
        delta = e2 - e1
        # 归一化差分向量，减少传感器差异
        delta_norm = nn.functional.normalize(delta, dim=-1) 
        magnitude = torch.norm(e2 - e1, dim=-1, keepdim=True)
        # 重新拼接方向+幅度：保留完整信息同时降低传感器噪声
        return self.classifier(torch.cat([delta_norm, magnitude], dim=-1))

常见坑

物候季节混淆变化信号
- 问题：夏季植被 → 冬季落叶，L2 距离很大，但不是真实变化
- 修复：对比同季节影像（year-over-year 而非 month-over-month）
嵌入模型未见过目标场景的光谱分布
- 问题：用 ImageNet 预训练权重处理高光谱卫星数据，前几个波段才有意义
- 修复：换用卫星专用预训练模型，或做波段对齐（band mapping）
差分向量的高维稀疏性
- 问题：256 维差分向量中大部分维度变化微小，噪声主导
- 修复：训练前用 PCA 白化，或者 Attention 机制加权重要维度

什么时候用差分向量 / 不用？

适用场景	不适用场景
多类别变化归因	只需要二值变化掩膜
有标注的变化样本（有监督）	纯无监督异常检测
嵌入维度 ≥ 64	低维特征（效果退化）
同传感器时序对	跨传感器比较（需额外对齐）

与其他方法对比

方法	优点	缺点	适用场景
NDVI/指数差	无需训练，解释性强	只能检测植被变化	快速植被监测
CVA（传统）	方向+幅度兼顾	依赖原始光谱，噪声敏感	物理意义明确的场景
逐像素分类器	归因能力强	忽略时序关系	各时刻独立分析
差分嵌入归因	语义丰富，泛化好	需要标注数据，计算量大	多类别精细归因

我的观点

这个发现被严重低估。大量遥感研究花时间比较不同的骨干网络（CNN vs ViT vs Mamba），却忽视了比较策略这个更基础的设计选择。

离实际应用还有多远？

最大的瓶颈是标注数据，不是算法。变化归因需要知道”这块地方是因为火灾变化的”——这种精细标注在大规模上极难获取。半监督学习（用大量无标注时序对 + 少量有标注样本）是最有希望的方向。

值得关注的开放问题：

连续时序（>2 个时间点）下的归因，变化路径比单次差分更有信息量
基础模型的预训练目标如何影响归因能力？对比学习 vs MAE 对应不同的嵌入几何
归因结果的不确定性量化——林业执法需要的不只是预测，还要知道模型有多大把握