Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
NEWS 约 1 分钟

空间机器学习别再随机切数据

空间数据随机切分容易让指标虚高,验证方式应跟真实预测区域对齐。

IMAGE — R-bloggers(R 社区聚合)

空间机器学习有个常见陷阱:模型在测试集上表现很好,换到新区域却不可靠。原因是空间自相关——相邻位置的观测往往很像。逐行随机切分数据,可能把近邻样本分别放进训练集和测试集,让模型面对的更像“见过的邻居”,而不是未见区域。于是,常规交叉验证容易高估空间外推能力。

Jakub Nowosad 在 Machine Learning for Earth Observation 2026 的演讲与工作坊中提出,验证方式应跟实际预测任务对齐。若目标是预测未覆盖区域,可按地理块、距离或区域边界做空间交叉验证;但若任务更接近已有观测之间的插值,空间切分也可能过于悲观。他还介绍了 kNNDM,用预测区域的距离结构来调整验证折,并建议先定义预测域,再划分数据,最后按不同预测条件在目标区域中的常见程度汇总误差。

这项工作的关键提醒是:可信度不只取决于模型,也取决于“在哪里验证、准备预测到哪里”。文中结论来自作者对演讲和实践材料的总结,未披露统一的量化提升。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 数据板块