資料集自動建置系統

類別：AI Infrastructure · Automation技術棧：Python · PyQt · PostgreSQL · Enterprise NAS · PyTorch · Audio Processing

背景

在這個系統建置之前，團隊準備訓練資料的方式是這樣的：

這套流程讓每次訓練資料的準備都要花掉大量時間，也讓 AI 模型的迭代速度嚴重受限。我從零設計並建置了這套資料集自動建置系統來解決這些問題。

企業級 NAS 負責存放音檔實體，提供：

PostgreSQL 負責管理 Metadata：

為了讓非技術人員也能操作，我用 PyQt 開發了圖形化介面（GUI）：

這是系統最核心的價值。當使用者下達指令後，後端會啟動一條龍的自動化處理：

Step 1 — 音檔切割 根據靜音偵測或固定時長，將長音檔切割成適合訓練的片段。

Step 2 — 對齊與驗證 驗證切割後的音檔符合模型輸入規格（取樣率、聲道、位元深度），不符合的自動轉換。每個節點都有錯誤檢查，失敗的檔案會被標記而非靜默跳過。

Step 3 — 資料擴增（Augmentation） 為了提升資料集的多樣性，系統內建了音訊擴增功能：

Step 4 — Metadata 自動生成 處理完成後，系統自動生成模型訓練所需的 Metadata 檔案，格式與模型預期的輸入完全對齊，不需要任何人工調整。

這個專案讓我學到：好的工具設計不是只讓工程師用起來方便，而是要讓整個團隊都能安全地使用。加入 GUI、錯誤檢查、自動驗證，表面上是「多做了一些工作」，實際上是把不可控的人工步驟變成可預期的自動化流程，長遠來看省下的時間遠比建置成本多。