为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中,在看到数据科学魅力的同时,也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的10位同学代表一起领略他们的风采吧!
基于高分辨率遥感影像语义分割的城市空地大规模自动识别
一、 导论
城市空地是世界范围内日益严重的问题。我国城市化进程中也出现了城市收缩、建设用地无序扩张、土地供需错配等现象,这导致出现了许多城市空地。这一方面是土地资源的浪费,另一方面也是城市发展的机遇,需要对空地进行集成管理。然而目前城市空地相关数据较少,传统的人工统计空地的方法耗时耗力,又难以及时更新数据。近年来,深度学习在图像视觉领域快速发展,如何利用深度学习技术开展城市空地的大规模自动识别,是一个非常有价值的问题。
我们提出了一个基于高分辨率遥感影像语义分割的城市空地大规模自动识别框架,并选择中国36个主要城市作为研究区域。该框架利用深度学习技术实现了自动识别,并引入了城市分层的方法来解决跨区域大规模空地识别标准不一致的问题。结果表明,该框架具有良好的识别精度和效率,并具有很强的鲁棒性,为不同的国家和地区的城市空地自动识别提供了可行的途径。
二、数据与方法
选取中国36个主要城市为研究对象 (见图1)。各城市的高分辨率遥感影像数据来自 BIGEMAP 平台,拍摄时间主要为 2019 年夏季和秋季,空间分辨率为 0.3m 左右。城市范围界定采用城市建成区域而非行政区域,城市边界数据来自北京城市实验室。
图 1 中国 36 个主要城市的位置、分类,以及各类的代表城市
图 2 城市空地大规模自动识别框架
城市空地大规模自动识别框架见图 2,分为以下四部分。
(1) 城市分层。以中国四大地理分区为分类基础,进一步归纳各城市空地及非空地特征,包括绿膜、林地、杂草-裸地等等 (见图 3),将 36 个城市分为南方、北 A、北 B 三类 (见图 1),制定了各类城市的空地识别标准, 并选取深圳、北京、兰州 作为各类的代表城市。每个代表城市训练一个模型,用于该类城市的空地识别。
(2) 数据标注。对三个代表城市进行空地数据标注 (见图4)。地块选取原则如下:尽可能包含多类空地和非空地;空地率尽可能高;地块数量充足。将影像和标注导出并分割为小块,用于模型的训练和测试。
(3) 模型训练。采用语义分割模型 DeepLabv3。模型评价指标采用 F2-score,以识别出更多的真实空地。对三个城市分别进行模型训练,选取得到三个最佳模型。
(4) 预测及后处理。提出两种优化方法。一是混合预测方法,对单一模型预测效果较差的非典型城市(如成都),采用多个模型预测结果取加权平均。二是边界优化方法,通过对输出模型进行平滑模糊、取阈值截断,得到较为光滑的空地边界,同时减少识别噪点,利于结果矢量化,见图 5。将模型输出合并、优化、重定位、矢量化,得到最终空地识别结果。
图 3 部分特征相似的空地和非空地类型展示(红色为空地,蓝色为非空地)
图 4 三个代表城市的空地标注范围及数据
图 5 边界优化前后效果比较。a 为影像, b 为真值, c 为优化前结果, d 为优化后结果
三、研究结果
(1) 框架性能评价。将自动识别框架的精度和效率与人工识别方法进行比较。精度方面,人工识别的 IoU 均值为 69.0%,框架识别均值为 63.8%,达到了前者的 90%,表明自动识别框架的精度与专业审计人员水平接近。效率方面,本案例中,平均每识别 100 km2 范围的城市空地, 人工方法需要花费 9 小时, 而采用自动识别框架(包括数据标注、模型训练及预测)仅需花费 0.6 小时,识别效率极大提升。
(2) 36 个城市的空地识别结果 (见图6) 。36 个城市的平均空地率为 4.9%,且除南昌外其余城市空地率都低于 10%。空地空间分布模式可归纳为三类:均匀散布,如长沙和哈尔滨;由中心向外围密度逐渐增加,如北京和成都;集中于城市内几个区域,如济南。
图 6 部分城市的空地识别结果展示
(3) 鲁棒性测试。分别进行了自预测、类间交叉预测、类内预测、混合预测实验(见图 7-9)。自预测实验结果表明三个模型都能较好预测自身代表城市空地。类间交叉预测实验结果证明三类城市间空地识别标准存在显著差异,有必要进行城市分层。类内预测实验结果表明城市分层方法有效,且模型泛化能力强。混合预测实验结果表明,采用混合预测方法可以进一步提高框架鲁棒性。
图 7 自预测(红框)和类间交叉预测实验结果
图 8 类内预测实验结果
图 9 混合预测实验结果
四、总结
本研究提出了一种基于高分辨率遥感影像语义分割和城市分层的城市空地大规模自动识别框架,并应用于中国 36 个主要城市。框架大大降低了人工成本,相比人工方法效率提高约 15 倍,且识别精度达到专业审计人员水平的 90%;具有很强的鲁棒性,在本案例中各个城市中表现良好,为各个国家和地区的城市空地大规模自动识别提供了有力的实践方法。
编辑:文婧
校对:林亦霖