服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

甲骨文×人工智能?华科大这位本科生厉害了!

日期: 来源:华中科技大学收集编辑:华中科技大学

3000多年前的文字

AI如何辅助破译?

甲骨文遇见现代科技

如何让“冷门”不冷?

华科大未来技术学院

2021级本科生管海粟

提出一种新的甲骨文辅助破译方法

近日,他的独立一作论文

自然语言处理领域

国际顶级会议ACL 2024主会接收

甲骨文×人工智能

会“碰撞”出怎样的火花?

一起来看!

01 一拍即合,开启探索之旅

自1899年甲骨文被发现,迄今已有不重复的单字约4500个,其中已破译约1600个,仍有大量的甲骨文等待破译。有学者曾说“释出一字,好比发现一颗新的行星”,可见研究古文字的重要性和难度。

大二时,管海粟加入了软件学院白翔教授创建的本科生创新团队,进行科研初步探索。在团队里,他认识了从事人工智能视觉与自然语言处理领域研究的刘禹良老师。因对古文字研究很感兴趣,管海粟当即选择加入其课题组,开启用人工智能辅助破译甲骨文的探索之旅。

图源中国国家博物馆

在老师的指导下,管海粟花了两周时间收集整理国内外该领域的研究文章进行学习。他发现,现有绝大多数人工智能研究主要集中在对已破译甲骨文文字的识别和检测上,而利用人工智能辅助破译未知甲骨文文字仍然是一个未充分开发的领域。

是否可以通过生成模型模拟甲骨文演变成现代汉字的过程来辅助破译?管海粟向白翔、刘禹良两位老师提出设想,并询问可行性。在得到老师们的支持后,他与课题组另外4位同学合作,分别尝试用不同路径探索辅助未知甲骨文破译的方法。

对于人工智能模型来说,数据集十分重要,而现有的甲骨文开源数据集存在类别缺失或者样本稀少等问题,课题组成员在商量后,决定主动开发尽可能全面的甲骨文数据集

2023年暑假,课题组前往“甲骨文的故乡”河南安阳,到殷墟遗址和中国文字博物馆进行调研,深入了解甲骨文的起源与发展。期间,他们还与安阳师范学院的甲骨文专家展开交流,会后收到了院方推荐的甲骨文相关书籍和数据网站。

返校后,课题组成员协作搭建数据集,并将《甲骨文字编》《西周金文字编》《春秋文字字形表》《战国文字字形表》等电子书和“殷契文渊”“国学大师”等网站的信息整理录入。

“我主要整理了3本书,共有近2500页,需要将书中的古文字单独裁出来作为模型训练的样本,这个过程中需要一边校对文字录入的准确性,一边完善数据库的算法。”管海粟说,在录入过程中,他有时也会猜想甲骨文的含义,到现在已经认识了近百个甲骨文文字。

暑假过后,课题组成员成功构建了甲骨文开源数据集HUST-OBCEVOBC,分别包含了1600余类别甲骨文文字、13000余类别甲骨文演变阶段中产生的其他文字,为后续研究提供样本支撑。

02 助力“冷门绝学”焕发新活力

九月开学后,管海粟开始着手训练利用扩散模型辅助破译甲骨文的模型OBSD,专注找寻辅助破译的“最优解”

输入甲骨文文字图像,利用第一个模型使其通过不同文字阶段演变逐步变化为近似现代汉字的图像,再用另一个扩散模型将生成的图像进行矫正,使其更加符合现代汉字的逻辑结构和书写规范……管海粟用几个月的时间训练和优化模型,使得模型可以结合古文字演变规律预测甲骨文文字图像在现代可能呈现的字形,从而为甲骨文文字破译提供一定的线索。

研究期间,管海粟还与课题组其他成员合作,共同获得基于条件扩散模型的甲骨文辅助破译方法、基于分类模型的甲骨文辅助破译分类方法及系统等方面的4项国家专利。同时,他们协作设计了基于人工智能的多途径辅助破译系统Open-Oracle,为古文字爱好者和相关研究者提供相应服务。

目前该网站共有五大功能,包括部首拆分、文字演变、自然语言处理等方向。后续,该网站也将聚焦甲骨文大众化,致力于产出甲骨文数字动画生成、甲骨文表情包、甲骨文Chat和甲骨文元宇宙等一系列甲骨文衍生项目。

“团队成员都是抱着浓厚的兴趣在自发主动地做着每一项工作,交代给他们的任务总能完成得超出我的预想。”刘禹良说。

03 在挑战“极限”中收获成果

在研究过程中,有两件事令管海粟印象深刻。

在开始准备投出论文时,导师建议细打磨缓投稿。在经历过无数次修改之后,文章最终选择投稿到更契合主题的自然语言处理领域国际顶级会议ACL。“ACL会议对论文的要求比原准备投稿的会议高得多,且一年只会收录一次论文,在短时间内对论文进行整体调整难度很大。”管海粟说,在导师的鼓励下,他选择接受挑战。

寒假期间,管海粟全身心投入到模型测试和论文优化中。“大年初一时,测试的实验结果出来了,证明我们的模型与其他模型相比达到了较为先进的破译精度,感觉努力没有白费。”

在今年4月,管海粟收到ACL会议的邮件,三位审稿人共提出了近60条问题,包括对模型本身的疑问、对甲骨文背景和中国现代汉字演化等方面的问题。而回复时间只有4天,为更好地向审稿人介绍甲骨文和此次的研究,他“极限”整理相关材料,打磨对审稿人的英文回复内容,并与导师反复交流修改,最终通过审稿人审核。

“他思维严谨客观,并且能做到知行合一,这是一个‘科研新人’身上非常难能可贵的品质。”刘禹良这样评价。

5月16日,管海粟的独立一作论文成功被ACL 2024主会接收。“距离初次接触甲骨文这个研究方向刚好一年,很荣幸能用一年不长的时间,做出一些很有意义的事。”

04 为文化传承贡献青春力量

全国大学生数学竞赛一等奖、全国大学生数学建模竞赛一等奖、国家奖学金、校三好奖学金、两项省级大创……这三年,管海粟获得了许多奖项,而荣誉的背后离不开他扎实的专业基础。

中学时期的管海粟在数学方面就表现出色,曾获全国高中数学联赛重庆市一等奖,高考数学成绩为148分。来到华中科技大学后,他顺利通过考核,进入未来技术学院本硕博实验班

在这里,他继续巩固基础学科知识,拓展专业学习,将理论知识与科研内容相结合,不断提升独立思考的能力。“科研实践可以帮助我逐渐理解一开始不明白真正用途的数学理论,而这些理论也可以反过来对我的研究工作进行创新指导。”管海粟说,沉下心来多思考、多琢磨,也是他灵光闪现的秘诀

“寄蜉蝣于天地,渺沧海之一粟。”这是管海粟最喜欢的一句诗词。在他看来,让迄今三千多年的古老文字焕发新的活力,个人的力量可能十分有限,但自己还是想继续钻研探索,努力为人工智能辅助甲骨文破译提供更好的方案,为甲骨文的保护和传承贡献华科大智慧。

文章来源:华中科技大学官方微信公众号

编辑:杨楚帆

相关阅读

  • 武汉这里,龙出没请注意

  • 今天(5月26日)武汉东湖龙谷开园迎客东湖龙谷位于马鞍山森林公园松鸽坪东北区域,紧邻湖畔绿道,占地约3万平方米,白鸽飞舞,松林幽静,空气怡人。现场可以看到,东湖龙谷迎宾龙憨态可掬,入
  • 外媒:英伟达大幅削减H20芯片价格

  •   中新经纬5月24日电 继大模型后,人工智能芯片价格战打响。据路透社24日报道,知情人士透露,英伟达大幅削减供应中国市场的H20人工智能芯片价格。  该报道称,英伟达去年年底
  • 北京首创生态感知模型库“万象”

  •   只需要拍张图上传,无论是植物还是动物,都可识别出来,准确率达85%以上。昨天是国际生物多样性日,记者从北京市生态保护新闻发布会上获悉,本市在全国率先建成生态综合感知模型
  • 降价99%!“百模大战”卷出白菜价

  • 潮新闻 记者 谢丹颖继15日字节跳动豆包大模型“超低价”引发行业震动。21日,AI大模型“价格战”又有强势入局者——阿里一折“甩卖”、百度高喊免费。从去年下半年开始,随着大
  • 通用大模型时代 机器人“适者生存”

  • 证券时报记者 阮润生  在历年的东莞松山湖中国IC创新高峰论坛上,各家代表企业围绕特定主题推介自家产品后,圆桌论坛成为“例牌菜”。  作为会议发起人,中国半导体行业协会I

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 甲骨文×人工智能?华科大这位本科生厉害了!

  • 3000多年前的文字AI如何辅助破译?甲骨文遇见现代科技如何让“冷门”不冷?华科大未来技术学院2021级本科生管海粟提出一种新的甲骨文辅助破译方法近日,他的独立一作论文被自然语
  • 物业公司不作为 法官下沉来解围

  • 北京市西城区人民法院民一庭副庭长 田晓昕“我们小区路面坑坑洼洼,一到下雨天就积水,跟物业反映,物业说修路太贵不给修,让我们申请公共维修基金。我们每年交那么多物业费,难道物