空间机器学习别再随机切数据

空间机器学习有个常见陷阱：模型在测试集上表现很好，换到新区域却不可靠。原因是空间自相关——相邻位置的观测往往很像。逐行随机切分数据，可能把近邻样本分别放进训练集和测试集，让模型面对的更像“见过的邻居”，而不是未见区域。于是，常规交叉验证容易高估空间外推能力。

Jakub Nowosad 在 Machine Learning for Earth Observation 2026 的演讲与工作坊中提出，验证方式应跟实际预测任务对齐。若目标是预测未覆盖区域，可按地理块、距离或区域边界做空间交叉验证；但若任务更接近已有观测之间的插值，空间切分也可能过于悲观。他还介绍了 kNNDM，用预测区域的距离结构来调整验证折，并建议先定义预测域，再划分数据，最后按不同预测条件在目标区域中的常见程度汇总误差。

这项工作的关键提醒是：可信度不只取决于模型，也取决于“在哪里验证、准备预测到哪里”。文中结论来自作者对演讲和实践材料的总结，未披露统一的量化提升。