数据科学是一个需求巨大的领域,但是我工作过的许多最优秀的数据科学家都有不同的背景,从人文科学到神经科学,并且需要经验丰富的经验才能脱颖而出。作为一名新的毕业生或分析专业人士,他们正在向数据科学事业迈进,因此构建一系列工作来展示这一领域的专业知识可能具有挑战性。本文提出一些关键经验,可以帮助找到一份数据科学家的工作:
亲身体验云计算
创建一个新数据集
组合在一起
开始提供服务
创建令人惊叹的可视化
写一份白皮书
这里将详细介绍这些主题,但数据科学的关键主题是能够构建为公司增值的数据产品。可以构建这些端到端数据产品的数据科学家是一项宝贵的资产,在追求数据科学事业时展示这些技能非常有用。亲身体验云计算
许多公司正在寻找具有云计算环境使用经验的数据科学家,因为这些平台提供的工具使数据工作流和预测模型能够扩展到大量数据。您也可能在日常工作中使用云平台,例如亚马逊网络服务(AWS)或谷歌云平台(GCP)。
好消息是,这其中的许多平台提供免费层级的服务,以便人们可以熟悉该平台。例如,AWS具有免费的EC2实例和免费使用Lambda等服务以满足低容量请求,GCP提供300美元的免费信用以试用大部分平台功能,Databricks提供了一个社区版本,您可以使用它来获取平台上的基础机器学习功能。使用这些免费选项,您将无法使用海量数据集,但您可以在这些平台上构建体验。
我的建议之一是尝试在这些平台上使用不同的功能,看看是否可以使用一些工具来训练和部署模型。例如,我们可以利用熟悉的工具SKLearn,并研究了如何将模型包装为Lambda函数。创建一个新数据集
在学术课程和数据科学竞赛中,您经常会获得一个干净的数据集,其中项目的重点是探索性数据分析或建模。但是,对于大多数实际项目,您需要执行一些数据修改,以便将原始数据集清理为对分析或建模任务更有用的转换数据集。通常,数据清理需要收集额外的数据集以转换数据。例如,我曾与美联储的数据合作,以便更好地了解美国富裕家庭的资产配置。
(富裕美国家庭的聚类树状图)
这是一个有趣的项目,因为使用第三方数据来衡量第一方数据的准确性。第二个建议实际上是更进一步,建立一个数据集。这可以包括抓取网站,从端点采样数据(例如,steamspy),或将不同的数据源聚合到新的数据集中。例如,创建星际争霸重放的自定义数据集,这表明我能够在新的数据集上执行数据修改。组合在一起
我希望数据科学家展示的技能之一是能够使不同的组件或系统协同工作以完成任务。在数据科学角色中,可能没有明确的产品化模型路径,您可能需要构建一些独特的东西才能使系统正常运行。理想情况下,数据科学团队将获得工程支持以使系统启动和运行,但原型设计是数据科学家快速行动的一项重要技能。
我的建议是尝试将不同的系统或组件集成到数据科学工作流程中。这可能涉及使用诸如Airflow之类的工具来实现数据管道的原型。它可能涉及在不同系统之间建立桥梁,例如JNI-BWAPI项目,开始将StarCraft Brood War API库与Java连接起来。或者它可能涉及在平台内粘合不同组件,例如使用GCP DataFlow从BigQuery提取数据,应用预测模型,并将结果存储到Cloud Datastore。开始提供服务
作为数据科学家,您经常需要提供其他团队可以在公司内部使用的服务。例如,这可能是一个Flask应用程序,它提供深度学习模型的结果。能够原型化服务意味着其他团队将能够更快地使用您的数据产品。
我的建议是获得使用Flask或Gunicorn等工具的经验,以便设置Web端点,并使用Dash来创建Python中的交互式Web应用程序。尝试在Docker实例中设置其中一个服务也很有用。创建令人惊叹的可视化
虽然伟大的工作应该独立,但在解释为什么分析或模型很重要之前,通常需要首先引起观众的注意。我的建议是学习各种可视化工具,以创建引人注目的可视化成果。
创建可视化也是构建工作组合的有用方法。当前开源世界中又很多非常棒的可视化工具,甚至是JavaScript版本的机器学习前端可视化代码库,利用它们可以高效地搭建令人惊叹的可视化作品写一份白皮书
我们倡导的数据科学技能之一是能够以白皮书的形式解释项目,提供执行摘要,讨论如何使用工作,提供有关方法和结果的详细信息。我们的目标是让您的研究能够被广泛的受众消化,并使其具有自我解释性,以便其他数据科学家可以在此基础上进行研究。
博客和其他形式的写作是获得改善书面交流经验的好方法。我的建议是尝试为广大受众撰写数据科学文章,以便获得在不同细节层面传达创意的经验。结论
数据科学需要亲身体验许多工具。幸运的是,许多这些工具变得越来越容易,并且构建数据科学组合项目也变得越来越容易。
留言与评论(共有 0 条评论) |