在过去的几年里,公司采取数据驱动方法的收益颇丰。Data 2.0战略将会由新的人工智能技术驱动,如深度学习、强化学习和贝叶斯机器学习。
深度学习是人工智能领域的一个先进技术,能够用于计算机视觉和自然语言处理。如果不使用这些技术的话,就会限制终端用户的体验。
使用深度学习的方式能够端到端的解决问题。换句话说,我们让算法代替人类来决定解决问题的重点。这一方式能够简化系统,让数据做出决策。更重要的是,它最大限度地减少人类引入自己偏见的可能性。
1.雇佣正确员工
深度学习是一个巨大的研究领域。现在公司使用的大多数的机器学习都是由理解性强、使用开源工具(如Scikit-learn工具包)就能够很容易构建的老算法所驱动的。但是深度学习还没有那么成熟。谷歌人工智能研究员Fran?ois Chollet开发的Keras、Facebook的PyTorch和谷歌开发的Tensorflow等工具让深度学习更具欺骗性。
深度学习的手法在于最新的结果需要大量的计算、复杂的训练技巧知识体系、以及特别熟悉某一特定的方式。
解决方案:雇佣有过构建深度学习系统经验的研究人员,而不是只会简单复制粘贴。这些人并不需要有博士学位,有些顶尖的机器学习研究人员还没有大学学位。
2.可解释性重要吗?
深度学习中的可解释性指的是理解为什么系统会做出这样的决策。由于企业的用例和风险容忍性,使得其成为人工智能领域的一个热门话题。对于制药公司来说,理解算法为什么会做出能够影响我们生活的原因是一个不错的想法。对于流失预测来说,如果系统能够大大减少流失数量,那么可解释性就没那么重要了。
正如Facebook人工智能研究董事在The Great AI Debate中说道:“当你向公司展示两个系统时,一个有解释的简单系统表现还行,另一个更加复杂的系统则表现更好,但是公司每次都会选择后者系统,是每次都会选择。”
笔者在工作和研究中听到最多的就是笔者称之为“黑箱谬误”的东西。数据科学家经常将神经网络看做是无法解释的黑箱子。虽然解释结果没有传统方式那么清楚,但是我们也开发出了许多方式来研究这些网络,而且这个也不应该阻止企业采用深度学习系统。
解决方案:决定可解释性对公司的实际影响。构建出简单的模型以及基线。如果你的深度学习方式相对更好,那么可能会带来更多的企业用例。
3.你需要更多的数据和GPU
数据和计算能力是当今深度学习运作的两个主要原因。GPU将需要数周的计算时间缩短到几个小时,TPU甚至更快。没有这些的话,你不可能快速地训练这些模型以获得显着的结果。公司可以自己购买、或从Amazon Web Services或Google Cloud等供应商处租用。
深度学习方法需要并利用大量数据来发现不那么明显的模式。如果没有足够的数据,这些系统肯定会失败或较差的性能(即:过度拟合)。
解决方案:收集整个产品的原始信号。不要害怕在GPU上花钱。
4.人工智能战略还不够远大
人工特征工程是指人们选择对算法重要的东西。随着这期间需要人类介入,我们通过创造力限制这些系统的性能。更好的方法是使用贝叶斯机器学习技术将我们的直觉添加到系统中。
数据科学团队认为对大多数问题来说,深度学习都是有点大材小用。虽然神经网络无法解决所有问题,但它们是计算机视觉、音频和自然语言处理的最先进方法。这种思维人为地限制了系统的性能。如果你知道汽车比马快,为什么还要继续骑马?
解决方案:使用较旧的机器学习方法构建强大的基线。当机器学习超过基线时,可利用深度学习。这将允许你量化这些技术相对于更简单方法所提供的价值。
总结
深度学习不再属于学术界,并已做好改变公司的准备。不要害怕负责任地采用深度学习。错误的利用方式可能会导致数据产生偏差,从而损害企业业务和终端用户。深度学习有助于将人类从机器学习循环中移除,从而最大限度地降低系统中的偏差。在构建任何机器学习系统时,始终遵守道德规范,这是非常重要的。
原文作者:William Falcon
编 译:信软网
留言与评论(共有 0 条评论) |