DVC Data Version Control Overview#

Keywords:

Overview#

DVC (Data Version Control) 是一个 2017 年开始的开源项目, 起初是为了解决 Machine Learning 中对 dataset 进行管理的痛点而创立的开源项目. 后来作者团队成立了创业公司开始基于这个产品做了很多 ML 生态链的创新, 开发了更多的工具和服务. 目前所支持的所有功能可以在官网的 Use Case 下看到 (从 “Versioning Data and Models” 开始往下看).

Data Version Control#

这是 DVC 起家的杀手功能. 官方称它是一个类似于 Git, 用于管理 dataset 版本的工具. 它本质是一个带命令行界面的 Python 库.

跟 Git 对比可知, Git 本质上是追踪每一个文件的变化, 每一个 commit 都会追踪一整个 Repo (目录) 下的所有文件变化. 而 DVC 也是类似, DVC 会将一个目录下的所有文件视为一个 Dataset, 用跟 Git 类似的方式将其管理起来. DVC 一样也会用 hash 追踪文件的变化, 对没有变化的文件则只保存引用, 而不会重复存储. DVC 底层跟各种云存储服务集成, 可以将历史记录数据库跟云端同步, 解放硬盘空间.

CI/CD For Machine Learning#

TODO

Fast and Secure Data Caching Hub#

TODO

Machine Learning Experiment Tracking#

Model Registry#

Data Registry#