服务粉丝

我们一直在努力
当前位置:首页 > 情感 > 故事 >

高校学科大数据平台建设的体会与思考

日期: 来源:中国教育网收集编辑:中国教育网

高校数据治理是一个双向奔赴的过程。治理者需要创造适宜且持续的应用场景,并通过机制与宣传营造氛围,使大量用户能在长期使用中积累共识,最终潜移默化改变个人习惯。

学科经费跟踪管理登录页面

自2018年起,笔者参与西北大学学科信息化建设,从零开始摸索搭建学科系统。2020年4月,西北大学学科建设大数据管理平台1.0上线。运维2年,终因底层架构考虑不周,系统运行实际效果差强人意而停止更新,期间可贵的是积累了校内近10万次的点击登录以及大量的用户反馈,使团队对于此项工作有了更深入的认识,决定推倒重建。

从1.0到2.0,不是升级而是涅槃重生

经过小半年的建设,2023年初,西北大学学科建设大数据管理平台2.0涅槃重生。新系统脱胎于实践经验与用户反馈,升级完善了系统架构,实现了学科数据的全口径统计,添加了校内学科建设单位纵向、横向数据对比功能,同步了学科建设经费与校财务系统的后台数据管理,优化了部门间数据更新与共享的新机制,使平台真正做到可用、好用、管用,打通学校办学数据信息细化到各个学科建设单位的“最后一公里”,有效纾解数据孤岛,进一步提升学科建设管理服务精细化、专业化、科学化水平。

举例来说,新系统从底层架构上解决了旧系统“教师数据范围归类不全”的痛点。学科数据库一般设定数据的元单位是“教师”,所有成果都跟教师(教师编号)绑定,但关于教师范围的界定,是一大难题,甚至成了“隐患”。

旧系统以学校人力部门提供的“专任教师”名单为准。但是实际上,还有相当一部分产生学科成果的人员是这个范围之外的,比如退休、离职、外聘人员,还有师资博士后、专业技术岗、管理干部等。因为一开始没把“非专任教师”统计进系统,所以相应数据导入后就会落空,只能从后台一条条手工输入,无疑极大地增加了工作量。

基于此,在系统重新构建时,新系统便将教师范围做了细分,除“在编在岗专任教师”外,还专设“其他教学科研人员”的分类,统计涵盖了近10年所有产生学科数据的人员,为其建立表格并设唯一系统编号。

事实上,新系统还围绕数据作了通盘考虑,把“人员分类”“教师-院系归属”这样的基本信息表格定义为结构表格,类似功能的一共有7张,构成了整个系统的“骨架”;各类一级指标42项,这42张表格称为成果表格,成为填充系统的“血肉”,系统运维时,两类表格均需定期更新,以保证系统的成长性和数据流的准确性。

“建好”还远谈不上 “一直在用”即为成功

系统更新后确实好用了不少,但新问题也在源源不断产生,问题主要集中在工作互动模块,总有些之前没考虑到的问题冒出来。

以学科经费监测管理模块举例,该模块与学校财务系统打通了后台API接口,各院系学科经费使用报销情况能够实时传送至学科系统。但经过仔细统计,每年相关数据总是有10%左右的误差,团队非常疑惑,苦于找不到问题症结。

最后,联合财务处、两家系统的开发公司,四方坐到一起研讨,才终于把问题找出来了。原来财务系统不是一个单独系统,而是一个主系统带了两个子系统,新系统的API接口只连接了财务主系统,两个财务子系统的数据一直是落空的。像这样的问题,只有随着使用的逐渐深入才会发现。事实上,在新系统上线以来,我们更新维护的脚步一直没有停下,目前已经小修小补了七八个地方。

系统的更新修补是一件好事。总是有人问:这个平台到底什么时候能建好?我们总是说:还差得远。事实也是如此,对于学科大数据管理平台来说,现阶段“建好”还远谈不上,能够“一直在用”并能“不断发现并解决问题”,已经是一种莫大的进步了。

下一阶段,团队将持续对系统进行更新升级,其中包括很多业已成型、较为成熟的技术构思,比如教师学术画像页、内部搜索页、更进一步的手机端适配、微信小程序、学科绩效分析模块等。但在资源精力有限的情况下,还需做好减法,优先更新现阶段最需要的功能,并争取做到日拱一卒。

很多现在的“习以为常” 大多来自最初的“多此一举”

随着工作的深入,团队愈加感到“做个系统”本身反而是整个学科信息化工作中最简单的那一部分。说白了,数据信息平台只是一个“空壳子”,真想让它正常运转,还得有不同源头数据的持续输入和应用场景的持续输出,各个环节环环相扣。事实上,这不是一个“平台”,而是一整套数据治理解决方案。

从宏观来看,高校数据治理是个很大的概念,因为数据的形式多样,有表、图、日志、视频、音频等,所以我们称其为大数据。而“学科大数据治理”一般只对应狭义的结构化数据,即日常教学、科研、人事等业务中具有逻辑对应关系、能列到Excel表里的数据,它们不用依赖图像识别、数字孪生、虚拟映射之类科技含量更高的手段,现有的数据库方法体系已能较好满足,所以笔者认为其治理的关键点不囿于技术,而更依赖于场景、氛围和习惯。

说诗意一些,高校数据治理是一个双向奔赴的过程。治理者需要创造适宜且持续的应用场景,并通过机制与宣传营造氛围,使大量用户能在长期使用中积累共识,最终潜移默化改变个人习惯。

从微观来讲,推动高校数据治理的源生动力,就是每个参与者数据治理意识的觉醒和数据素养的提升。其标志,就是我们开始重视自身的“数据唯一性”。

举个例子,如今论文检索领域最大难题,就是论文认领与清洗,原因就是作者有重名现象,还有英文名字拼写不一的现象,导致目前最先进的机洗程序也只能达到90%左右的正确率,论文成果数据在严谨使用时还需要老师手工逐一核对认领。这个难题短期改善靠的是提升技术,比如更强大的识别筛选算法、更智慧的AI训练等,但从长期来说,其实存在更高维度的解决办法。

ORCID注册申请页面示意

做研究的人都知道ORCID(Open Researcher and Contributor ID),即开放研究者与贡献者身份识别码。它的作用就是在论文投稿、基金申请等科研活动中对科研人员的识别。我们可以将它理解为,一个人唯一的学术身份证。

注册申请orcid非常简单方便,本人实测3分钟即可搞定。登录网站,根据提示填写个人信息后,就能得到一个16位数号码,之后Editorial Manager (Elsevier、Springer、Wiley、Plos)投稿系统,可以直接使用orcid进行登录,这样,每篇论文就有了全球唯一识别码(而非作者姓名)作为清洗依据,机洗难题迎刃而解。

所以,技术永远是最简单的部分,难的是人的态度与行动,难的是每一位科研人员包括教师与学生都主动拥有并在每一次发表论文时都自觉使用这项技术。从目前来看,写不写orcid丝毫不影响学术活动,这也导致人们对于自身“非唯一”这件事还并不在意。

其实,可以做一些微小的改变,比如在研究生入校登记、新教师入职表中加入学术身份识别码的填写栏(据了解国家基金委也在建一套学术身份识别体系,不知道是否与orcid冲突,也可能国家有后续统筹部署),鼓励大家从一开始就申领并使用,从而培养起使用习惯。毕竟,很多后来的“习以为常”,都是由最开始的“多此一举”演变来的。

所以,现在谈“数据唯一性”这些的意义更多是一种对于数字化的“祛魅”,我们期待的效果绝不会像《黑客帝国》里尼奥吃下红色药丸那样立竿见影,而是更类似十几年间手机支付在国内的兴起和普及,步履稳健,但不可逆转。

从长期来说,笔者对高校大数据治理的实现充满信心,因为它不光是一种基于全量样本的更严谨更精细的工作模式与方法论,更重要的是,它隐隐契合了自古以来士人大夫心中对于“天下一统”的理解,所谓“六合同风,九州共贯”,自秦始皇统一度量衡开始,这种完美主义的终极追求就不曾磨灭。当技术、机制不断完善,当越来越多的人开始有数据治理的意识、有数据思维的素养,我相信,星星之火,终能燎原。

我们像在做一件“最落伍”的事 也似在做一件“最超前”的事

这个世界正在发生剧烈的变化。算力成为一种越来越重要的战略资源,苹果大举进军生成式AI,ChatGPT更新4.0,Sora试图构建大统一模型,AI世界具有创世纪意义的基本粒子正在被创造,在算力持续加持下,生成式AI最终将进化为AGI(通用人工智能),会拥有“创造”的力量,可以为原本无序的系统自动生成秩序,通过注入框架性的底层逻辑,将信息碎片拼合、将数据孤岛连接,实现一种最本质的进步:熵减。

很多人说,这些技术听上去都太科幻了,与我们的日常生活有什么关系呢?它们甚至很大可能是资本吹出的泡泡,或者另一个“星球大战”计划。

当然,不排除这里面有吹嘘和夸大宣传的成分,但也必须正视一个事实,那就是这波技术迭代发展的速度太快了。要知道蒸汽机从帕平、纽卡门时代到瓦特改良推广,经过近百年漫长历程;电脑从ENIAC到个人PC普及,也经历了近50年的升级之路。而近几年AI浪潮发展的速度已经远超这些过去时代颠覆性技术的发展速度,也超过了每一个人认知的速度。如果因不了解就选择轻视,或因某种立场就单纯的说这些是别有用心的宣传,那和当年乾隆皇帝嘲笑马戛尔尼的奇技淫巧,又有什么区别?面对未知,始终需要的是旺盛的好奇、清醒审慎的头脑和脚踏实地的行动。

回到国内,2023年,中共中央国务院印发《数字中国建设整体布局规划》。2024年1月,2024世界数字教育大会在上海如约而至,国家建设教育强国、数字中国的脚步从未放缓,解放发展新质生产力的大幕正在徐徐拉开。数字AI技术对于全领域的赋能将持续增强,基于智慧物联、智慧信息服务的智慧校园建设稳步推进,最终将全面重塑与再造我们现有的工作。届时,AI赋能的教育必定涌现出全新的业态,变得高度定制化、智慧化、人性化,我们的教育工作也会变得越来越有趣,且更具挑战性。

大潮已至,学科信息化建设这原本看似不起眼的小事,也变得富有意义起来,即便当下团队还在用最原始的方式进行数据治理与信息化实践,但我们始终对于未来充满乐观,因为我们知道此时的一举一动,都是涓涓细流,最终将汇入这场新技术革命的宏大叙事中,成为推动历史发展的磅礴力量。

时空的参照系已然模糊,我们像在做一件最落伍的事,也似在做一件最超前的事。重要的是,我们坚信此时所做之事,正当其时。

来源:《中国教育网络》2024年2-3月合刊

作者:薛原(西北大学发展规划与学科建设处)

责编:陈荣


相关阅读

  • 反超!苹果重回第一

  • 当地时间6月13日,美国三大股指收盘涨跌不一。截至收盘,道指跌0.17%报38647.1点,标普500指数涨0.23%报5433.74点,纳指涨0.34%报17667.56点。标普500指数和纳指均连续四个交易日创
  • AI+芯片驱动,赤峰这样养猪种粮!

  • 松山区立足主导产业,深入实施“科技兴蒙”行动和科技“突围”工程,在农作物育种、生猪种业领域,实现重大技术突破并取得标志性成果,不断推进“种业振兴”,带动产业发展。随着居民
  • 上海交通职业技术学院——智慧交通系

  • 智慧交通系设有智能交通技术、交通运营管理和大数据技术三个专业;实训条件齐全,能够满足各专业学生实训实践。本系背靠交通行业,与上海久事公共交通集团有限公司
  • “AI+生物医药”如何擦出创新火花

  • 当下,人工智能技术(AI)以其超强的计算能力与预测精度,影响着越来越多行业的发展,生物医药行业便是其中之一。近期,中国城市报记者走访2024上海国际生物技术与医药研讨会,了解到多地
  • “双子塔”成型,济南东部城区再添地标性建筑

  •   6月11日,在山东省大数据产业基地项目建设现场,由中建五局山东公司承建的A#楼项目已经全部竣工,其东侧的二期项目主体结构封顶后,外部玻璃幕墙安装也接近尾声,舜华路两侧目前
  • 创新药的PFS时代正在过去?

  • 来源:药智头条公众号5月31日,康方AK112的HARMONi-2研究结果发布,称其在头对头试验中击败了K药,显著提高了患者的无进展生存期(PFS),超预期改善了风险比(HR)。但在默沙东Eliav Barr博

热门文章

  • 2·14 “婚育户”一次办

  • 2月14日,沈阳的张先生和五莲县的丁女士握着手中的“红本本”,脸上是抑制不住的喜悦,这一天,他们不仅成为合法夫妻,更成为“婚育户”联办业务的新人。说起这项业务,张先生夫妇高兴

最新文章

  • 高校学科大数据平台建设的体会与思考

  • 高校数据治理是一个双向奔赴的过程。治理者需要创造适宜且持续的应用场景,并通过机制与宣传营造氛围,使大量用户能在长期使用中积累共识,最终潜移默化改变个人习惯。学科经费跟
  • 香港楼市回归理性 开发商瞄向大湾区市场

  • 证券时报记者 吴家明  今年2月28日,香港特区政府财政司司长陈茂波在公布2024/2025财政年度特区政府财政预算案时,宣布撤销所有楼市“辣招”,即所有住宅物业交易无须再缴付额
  • 剧透未来科技 国产“智”造惊艳上交会

  • 证券时报记者 陈雨康  以“数链时代,绿动未来”为主题的第十届中国 (上海)国际技术进出口交易会(下称“上交会”)6月12日至6月14日在上海举办。记者实探上交会看到,能源低碳技术
  • 用水泥戒指求婚 清华博士遭网友群嘲丨大象深度

  • 大象新闻记者 李昌 特约撰稿人 郝笑6月3日,清华博士生拿水泥戒指向女朋友求婚一事登上微博热搜,引起广泛讨论。这本是一个发生在2016年的事情,当年清华大学毕业生启航奖颁奖,清
  • 深港交易所合作建设香港综合基金平台

  • 证券时报记者 吴少龙  6月13日,深圳证券交易所(以下简称“深交所”)下属深圳证券通信有限公司(以下简称“深证通”)与香港交易及结算所有限公司(以下简称“港交所”)在香港举办技