服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

大数据能力提升项目| 学生成果展系列之一

日期: 来源:数据派THU收集编辑:数据派THU


导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。


回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中,在看到数据科学魅力的同时,也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的10位同学代表一起领略他们的风采吧!


基于高分辨率遥感影像语义分割的城市空地大规模自动识别


(一作论文,大数据实践课小组成果,
2022 年 6 月发表于城市规划领域顶刊
 Landscape and Urban Planning,
影响因子 8.119,代码及数据已开源)



一、 导论


城市空地是世界范围内日益严重的问题。我国城市化进程中也出现了城市收缩、建设用地无序扩张、土地供需错配等现象,这导致出现了许多城市空地。这一方面是土地资源的浪费,另一方面也是城市发展的机遇,需要对空地进行集成管理。然而目前城市空地相关数据较少,传统的人工统计空地的方法耗时耗力,又难以及时更新数据。近年来,深度学习在图像视觉领域快速发展,如何利用深度学习技术开展城市空地的大规模自动识别,是一个非常有价值的问题。


我们提出了一个基于高分辨率遥感影像语义分割的城市空地大规模自动识别框架,并选择中国36个主要城市作为研究区域。该框架利用深度学习技术实现了自动识别,并引入了城市分层的方法来解决跨区域大规模空地识别标准不一致的问题。结果表明,该框架具有良好的识别精度和效率,并具有很强的鲁棒性,为不同的国家和地区的城市空地自动识别提供了可行的途径。


二、数据与方法

选取中国36个主要城市为研究对象 (见图1)。各城市的高分辨率遥感影像数据来自 BIGEMAP 平台,拍摄时间主要为 2019 年夏季和秋季,空间分辨率为 0.3m 左右。城市范围界定采用城市建成区域而非行政区域,城市边界数据来自北京城市实验室。


图 1  中国 36 个主要城市的位置、分类,以及各类的代表城市


图 2  城市空地大规模自动识别框架


城市空地大规模自动识别框架见图 2,分为以下四部分。


(1) 城市分层。以中国四大地理分区为分类基础,进一步归纳各城市空地及非空地特征,包括绿膜、林地、杂草-裸地等等 (见图 3),将 36 个城市分为南方、北 A、北 B 三类 (见图 1),制定了各类城市的空地识别标准, 并选取深圳、北京、兰州 作为各类的代表城市。每个代表城市训练一个模型,用于该类城市的空地识别。


(2) 数据标注。对三个代表城市进行空地数据标注 (见图4)。地块选取原则如下:尽可能包含多类空地和非空地;空地率尽可能高;地块数量充足。将影像和标注导出并分割为小块,用于模型的训练和测试。


(3) 模型训练。采用语义分割模型 DeepLabv3。模型评价指标采用 F2-score,以识别出更多的真实空地。对三个城市分别进行模型训练,选取得到三个最佳模型。


(4) 预测及后处理。提出两种优化方法。一是混合预测方法,对单一模型预测效果较差的非典型城市(如成都),采用多个模型预测结果取加权平均。二是边界优化方法,通过对输出模型进行平滑模糊、取阈值截断,得到较为光滑的空地边界,同时减少识别噪点,利于结果矢量化,见图 5。将模型输出合并、优化、重定位、矢量化,得到最终空地识别结果。


图 3  部分特征相似的空地和非空地类型展示(红色为空地,蓝色为非空地)


图 4  三个代表城市的空地标注范围及数据


图 5  边界优化前后效果比较。a 为影像, b 为真值, c 为优化前结果, d 为优化后结果



三、研究结果

(1) 框架性能评价。将自动识别框架的精度和效率与人工识别方法进行比较。精度方面,人工识别的 IoU 均值为 69.0%,框架识别均值为 63.8%,达到了前者的 90%,表明自动识别框架的精度与专业审计人员水平接近。效率方面,本案例中,平均每识别 100 km2 范围的城市空地, 人工方法需要花费 9 小时, 而采用自动识别框架(包括数据标注、模型训练及预测)仅需花费 0.6 小时,识别效率极大提升。


(2) 36 个城市的空地识别结果 (见图6) 。36 个城市的平均空地率为 4.9%,且除南昌外其余城市空地率都低于 10%。空地空间分布模式可归纳为三类:均匀散布,如长沙和哈尔滨;由中心向外围密度逐渐增加,如北京和成都;集中于城市内几个区域,如济南。


图 6  部分城市的空地识别结果展示


(3) 鲁棒性测试。分别进行了自预测、类间交叉预测、类内预测、混合预测实验(见图 7-9)。自预测实验结果表明三个模型都能较好预测自身代表城市空地。类间交叉预测实验结果证明三类城市间空地识别标准存在显著差异,有必要进行城市分层。类内预测实验结果表明城市分层方法有效,且模型泛化能力强。混合预测实验结果表明,采用混合预测方法可以进一步提高框架鲁棒性。


图 7  自预测(红框)和类间交叉预测实验结果


图 8  类内预测实验结果


图 9  混合预测实验结果


四、总结


本研究提出了一种基于高分辨率遥感影像语义分割和城市分层的城市空地大规模自动识别框架,并应用于中国 36 个主要城市。框架大大降低了人工成本,相比人工方法效率提高约 15 倍,且识别精度达到专业审计人员水平的 90%;具有很强的鲁棒性,在本案例中各个城市中表现良好,为各个国家和地区的城市空地大规模自动识别提供了有力的实践方法。


编辑:文婧

校对:林亦霖

相关阅读

  • 项城:优化税收营商环境 助力高质量发展

  • 4月7日,河南省项城市在市民之家举行了“优化营商环境我先行,万人助万企、便民办税春风行动”惠企利民政策专场宣传活动,大力推动税收营商环境持续优化,让纳税人缴费人办事更便捷
  • 望岳谈|数字变革多个领先,山东靠的是什么?

  • 数据开放领域,“开放数林”指数排名全国第一;政务服务领域,“爱山东”获评中国政务服务掌办指数“A”级,位居全国第三;政务办公领域,“山东通”协同办公平台注册用户超过110万,移动
  • 深化协作配合 凝聚司法共识

  • 为准确把握网络犯罪的特征和规律,凝聚司法共识,加强公检法三机关在办理网络犯罪案件中的沟通、衔接与协作配合,切实提升办案质效,近日,项城市检察院牵头组织召开公检法三机关网络
  • 博山:大数据智能填报助力数字政府建设

  • □淄博日报/淄博晚报/博览新闻记者 汪利平 通讯员 刘亚琳“过去经济普查每天都需要整理汇总和校对上千条数据信息,眼睛都要看花了。”4月7日,正在准备进行今年经济普查工作的
  • 声远观察|文明“接续” 让生活更美好更温暖

  • 文明“接续” 幸福“接力” 生机盎然的花草树木与干净整洁的街道相簇相拥,秩序井然的车流与文明礼让的行人有序行进,公交车站人们自发排成整齐的队伍,环境优雅的小区与

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 大数据能力提升项目| 学生成果展系列之一

  • 导读为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心
  • “五进”宣传惠万家 全民参与氛围浓

  • 为切实做好全区消防宣传月活动,深化家“预”户“消”专项宣传工作,提升群众消防安全知识“知晓率”,通辽市消防救援支队多措并举、精准发力,深入社区、企业、学校、家庭、农村开