在人工智能工程化落地过程中,企业的数据和工程化团队 95% 的时间精力会被数据处理、数据校验等相关工作所消耗。为了解决该痛点,头部企业会花费上千小时自研构建数据与特征平台,来解决诸如线上线下一致性、数据穿越、特征回填、高并发低延迟等工程挑战;其他中小企业则需要采购高昂的 SaaS 工具和数据治理服务。
OpenMLDB 致力于解决 AI 工程化落地的数据治理难题,并且已经在上百个企业级人工智能场景中得到落地。OpenMLDB 优先开源了特征数据治理能力,依托 SQL 的开发能力,为企业级机器学习应用提供线上线下计算一致、高性能低门槛的生产级特征平台。
在机器学习的很多应用场景中,为了获得高业务价值的模型,对于实时特征有很强的需求,比如实时的个性化推荐、风控、反欺诈等。但是,由数据科学家所构建的特征计算脚本(一般基于 Python 开发),由于无法满足低延迟、高吞吐、高可用等生产级特性,因此无法直接上线。为了在生产环境中上线特征脚本用于模型推理,并且满足实时计算的性能要求,往往需要工程化团队进行代码重构和优化。那么,由于两个团队、两套系统参与了从离线开发到部署上线的全流程,线上线下一致性校验成为一个必不可少的步骤,其往往需要耗费大量的沟通成本、开发成本,和测试成本。
OpenMLDB 的整体架构设计是为了达到特征平台从开发到部署的流程优化目标:开发即上线 ,以此来大幅降低人工智能的落地成本。其完成从特征的离线开发到上线部署,只需要三个步骤:
为了可以达到开发即上线的优化目标,OpenMLDB 的架构基于线上线下一致性的理念所设计。上图显示了 OpenMLDB 的抽象架构,包含了四个重要的设计组件:(1)统一的 SQL 编程语言;(2)具备毫秒级延迟的高性能实时 SQL 引擎;(3)基于 OpenMLDB Spark 发行版的批处理 SQL 引擎;(4)串联实时和批处理 SQL 引擎,保证线上线下一致性的一致性执行计划生成器。
关于 OpenMLDB 的设计核心理念和详细架构,请参考我们的开发团队博客 - 实时特征计算平台架构方法论和实践。
https://openmldb.ai/docs/zh/main/deploy/index.html
集群版和单机版
OpenMLDB 有两种部署模式:集群版(cluster version)和单机版(standalone vesion)。集群版适合于大规模数据的生产环境,提供了良好的可扩展性和高可用性;单机版适合于小数据场景或者试用目的,更加方便部署和使用。集群版和单机版在功能上完全一致,但是在某些具体功能上会有不同限制,详细参阅此篇说明文档。你可以选择合适的版本开始试用。
准备开始体验 OpenMLDB
https://openmldb.ai/docs/zh/main/quickstart/openmldb_quickstart.html
OpenMLDB 快速上手指南
我们正在搜集一个 OpenMLDB 用于实际案例的列表,为 OpenMLDB 如何在你的业务中发挥价值提供参考。
应用 | 所用工具 | 简介 |
出租车行程时间预测 | OpenMLDB, LightGBM | 这是个来自 Kaggle 的挑战,用于预测纽约市的出租车行程时间。你可以从这里阅读更多关于该应用场景的描述。本案例展示使用 OpenMLDB + LightGBM 的开源方案,快速搭建完整的机器学习应用。 |
使用 Pulsar connector 接入实时数据流 | OpenMLDB, Pulsar, OpenMLDB-Pulsar connector | Apache Pulsar 是一个高性能的云原生的消息队列平台,基于 OpenMLDB-Pulsar connector,我们可以高效的将 Pulsar 的数据流作为 OpenMLDB 的在线数据源,实现两者的无缝整合。 |
使用 Kafka connector 接入实时数据流 | OpenMLDB, Kafka, OpenMLDB-Kafka connector | Apache Kafka 是一个分布式消息流平台。基于 OpenMLDB-Kafka connector,实时数据流可以被简单的引入到 OpenMLDB 作为在线数据源。 |
构建端到端的机器学习工作流 | OpenMLDB, DolphinScheduler, OpenMLDB task plugin | 这个案例新演示了基于 OpenMLDB 和 DolphinScheduler(一个开源的工作流任务调度平台)来构建一个完整的机器学习工作流,包括了特征工程、模型训练,以及部署上线。 |
请参照我们公开的 Roadmap
此外,OpenMLDB 有一些规划中的重要功能演进,但是尚未具体排期,欢迎给我们任何反馈:
开源地址:https://gitee.com/paradigm4/OpenMLDB
留言与评论(共有 0 条评论) “” |