图片来源:Engadget
NVIDIA 最近开发的 AI 工具,利用机器学习技术和方便的超级计算机,可以把现实世界的视频转变为虚拟景观,同时这个神经网络也可以利用像素构建逼真的虚拟世界,这是数字成像领域的一个显着进步,真实与虚拟世界的界限也进一步模糊。
NVIDIA 的研究不仅仅是一项重大的技术成就,它也使艺术家和开发人员更容易制作逼真的虚拟世界。他们可以使用现有的机器学习工具来粗略定义这些实体,让 NVIDIA 的神经网络填补其余部分,而不必精心设计对象,和让工作人员通过多边形来填充空间。
NVIDIA 应用深度学习副总裁 Bryan Catanzano 在一份声明中表示:" 神经网络特别是生成模型,将改变图形的创建方式。这将使开发人员,尤其是游戏和汽车行业的开发人员能够以相当于传统成本的一小部分的资金就可以创建场景。"
Bryan Catanzano 展示了它的工作原理。研究人员使用该公司 DGX-1 超级计算机之一的城市自驾车试验拍摄的 dashcam 视频来实验这个神经模型。NVIDIA 首席执行官 Jensen Huang 曾经称 DGX-1 相当于 250 台服务器,所以这也是在美国同类产品中表现相当出色。
同时,研究团队使用虚幻引擎 4(Unreal Engine 4)创建了他们所谓的场景 " 语义地图 ",它基本上为屏幕上的每个像素分配了一个标签类别。这些像素分为 " 汽车 "、" 树 " 或 " 建筑物 " 等其他像素类别,最后这个虚幻引擎工具会产生一个场景的 " 草图 ",并且提供给 NVIDIA 的神经模型。从这里开始,AI 将视觉效果应用于 " 汽车 " 集合,跟标有 " 汽车 " 的像素块一起合并,并对场景中的每个其他分类对象重复相同的过程。这听起来很乏味,但整个过程发生得比想象的还要快,模拟会以每秒 25 帧的速度在运行,并且 AI 会实时渲染所有内容。
NVIDIA 的团队还使用这种新的视频到视频(video-to-video)合成技术,以数字方式模拟人的图像。制作这个模型的工作与汽车模拟完全相同,只是这次人工智能的主要任务是舞者的姿势,将它们的大致体态呈现出来,但将另一个人的外观覆盖原来的外观。
目前,该公司的业绩当然非常优秀。NVIDIA 的示例视频提供了数字城市的缩影,里面展示了看似真实的物体。
虽然 NVIDIA 已开源所有底层代码,但在开发人员要把这些工具加入到他们下一代 VR 设备中还可能需要一段时间才能实现。老实说,这也很好,因为该公司很快指出了神经网络的局限性:虽然虚拟汽车在其模拟城市景观看起来很逼真,但 NVIDIA 表示这个模型并不能很好地渲染车辆,因为它的标签像素缺乏足够的信息。对 VR 工程师来说,某些物体比如汽车,可能并不总是与场景的进展相同。特别是,NVIDIA 表示这些物体可能会随着时间的推移略微改变颜色。这些都是现实世界的物体带来的技术难点,所以要在 VR 技术中应用神经网络还有待研究。
然而,这些人工生成的视频与真实的视频区分开来或许会变得非常困难。Bryan Catanzano 说:" 人们真的很喜欢虚拟体验。目前大部分时间虚拟体验都是朝着好的应用在发展,我们也专注在好的应用。" 不过他也承认,虽然他相信这个技术的前景很好,但是也有可能部分人会使用这些工具来做不道德的事情。
毫无疑问,NVIDIA 的研究是数字成像领域的一个显着进步,并且它可能有助于改变我们创建虚拟世界和与虚拟世界交互的方式。对于商业、艺术和创新等领域,这是一件好事。即便如此,这些工具的存在也意味着真实事件和虚构事件之间的界限将继续变得更加脆弱,也许很快我们不得不开始面对这些功能带来的问题。
留言与评论(共有 0 条评论) |