這是本系列文章的第一篇, 主要是介紹之後要使用的工具及Data transformation的架構.
工具
- 在開發工具方面, 推薦使用的IDE是 PyCharm, 它是JetBrains公司下的產品, 整合了Git, DB, CLI, 單一介面就可以同時做很多事情. 如果預算充足, 會更推薦同團隊的另一個 IDE-IntelliJ.
- 環境推薦使用 Docker, 搭配docker-compose, 可以一次把所需要的環境都建起來.
- Git推薦使用 BitBucket, 可以搭配 JIRA一次做好ticket管理. JIRA和BitBucket都是 Atlassian的產品.
- Unix環境為Ubuntu:20.04
- Database推薦使用 PostgreSQL, 連接DB的Tool, 推薦使用 PyCharm 或 IntelliJ 或 DataGrip.
- Scheduler推薦使用 Apache Airflow, 搭配的DB為MariaDB.
目標
我們打算透過上述的工具, 建立一個Data Transformation的框架.