本頁面由 Cloud Translation API 翻譯而成。

AutoML 新手指南
透過集合功能整理內容你可以依據偏好儲存及分類內容。

簡介

本新手指南將介紹 AutoML。如要瞭解 AutoML 與自訂訓練之間的主要差異，請參閱「選擇訓練方法」。

這項產品可以帶來下列好處：

假設您是一位足球隊的教練，
假設您在數位零售商的行銷部門工作。
您正在進行建築專案，需要識別建築物類型。
貴商家網站上有聯絡表單。

手動收錄影片、圖片、文字與表格的作業相當繁瑣又費時。試想如果可以讓電腦學習自動辨識指定內容，並在內容出現時加以標記，這樣是不是輕鬆多了？

圖片

您與建築保存委員會合作，試圖找出您所在城市中，擁有一致建築風格的社區。你有成千上萬張住家快照需要篩選。不過，手動分類所有圖片相當費時且容易出錯。幾個月前，有位實習生標記了幾百個標記，但沒有其他人查看這些資料。如果你能教電腦為你完成這項審查，那就太好了！

表格

假設您在數位零售商的行銷部門工作。您與團隊正在依據客戶人物角色，建立個人化電子郵件方案。您已建立人物角色，行銷電子郵件也準備好寄送。現在，您必須建立系統，依據零售偏好和消費行為將客戶放入各個人物角色，即使是新客戶也一樣。為了盡可能提高顧客參與度，您也想預測他們的消費習慣，以便在最佳時機傳送電子郵件。
表格簡介

由於您是數位零售商，因此可以取得客戶資料及其購物內容。但是新客戶怎麼辦？傳統方法可以針對長期購物的現有客戶計算這些值，但是不太能處理歷史資料很少的客戶。如果您可以建立系統預測這些值，並加快向所有客戶提供個人化行銷方案的速度，那麼呢？

幸好，機器學習和 Vertex AI 非常適合用於解決這類問題。

文字

貴商家網站上有聯絡表單。您每天都會收到許多表單訊息，其中許多訊息是可以處理的，因為所有訊息都同時湧入，很容易拖慢處理速度。不同員工會處理不同的訊息類型。如果能運用自動化系統分類訊息，對正確的處理人員顯示正確的留言，那就太好了。

您需要運用特定系統審視留言，並決定留言性質屬於投訴、稱讚過往服務、有意深入瞭解貴公司、預約時間，抑或是想與公司建立合作關係。

影片

而且您收集了大量的比賽影片存檔，您想要從這些影片研究比賽；但要審查的影片有上百小時。肯定要花上很多人力和時間，才能看完每部影片並手動標出需要的動作片段。而且您必須在每個季節重複執行這項工作。想像一下，如果電腦模型能夠自動辨識這些動作，並在影片中出現時加以標記，那該有多方便。

以下列舉幾種目標特定情境。

動作辨識：找出進球、犯規、罰踢等動作。教練可藉此研究球隊的優勢和弱點。
分類：將每個影片鏡頭分類為半場、比賽畫面、觀眾畫面或教練畫面。方便教練瀏覽感興趣的影片片段。
物件追蹤：追蹤足球或球員。教練可透過這項功能取得球員的統計資料，例如場上熱力圖、成功傳球率等。

本指南將逐步說明 Vertex AI 如何處理 AutoML 資料集和模型，並說明 Vertex AI 旨在解決的問題類型。

公平性注意事項

Google 致力遵循負責任的 AI 做法。為達成這項目標，我們設計的 ML 產品 (包括 AutoML) 皆以公平性和以人為本的機器學習等核心原則為依歸。如要進一步瞭解建構機器學習系統時，如何減輕偏見的最佳做法，請參閱包容性機器學習指南 - AutoML

為何 Vertex AI 是解決這個問題的最佳工具？

傳統程式設計要求程式設計人員為電腦指定逐步操作說明以供遵循，不過，請考慮在足球比賽中識別特定動作的用途。顏色、角度、解析度和光線的變化非常多，因此需要編寫太多規則才能告訴機器如何做出正確的決定。您可能很難想像要從何處著手。或者，客戶的留言內容廣泛涉及各種字彙與結構，組合之多，難以運用一組簡單的規則進行擷取。如果您嘗試建立手動篩選條件，很快就會發現無法將大部分客戶評論分類。您需要的系統必須能適用於各種評論。如果一連串特定規則的範圍必定會以指數方式擴大，您就需要一個能從範例中學習的系統。

幸好，機器學習可以解決這些問題。

Vertex AI 的運作方式

簡易類神經網路的圖示法 Vertex AI 會執行監督式學習作業，以達成所選結果。演算法和訓練方法的具體細節會因資料類型和用途而異。機器學習有許多不同的子類別，每個子類別都能解決不同的問題，並在不同的限制下運作。

圖片

您可以使用已加上分類標籤的範例圖片訓練、測試和驗證機器學習模型，或是使用加上物件偵測標籤和定界框的範例圖片。您可以使用監督式學習訓練模型，讓模型辨識圖片中您在意的模式和內容。

表格

您以範例資料訓練機器學習模型。Vertex AI 使用表格 (結構化) 資料訓練機器學習模型，以便針對新資料進行預測。資料集中有一個名為「target」(目標) 的欄，您的模型將由此學習進行預測。有一些其他資料欄屬於輸入，稱為「features」(特徵)，模型將藉此學習模式。您只要變更目標欄和訓練選項，就可以使用相同的輸入特徵建構多種類型模型。就電子郵件行銷範例而言，這表示您可利用相同的輸入特徵建構模型，但目標預測結果不同。一個模型可預測客戶的人物角色 (類別目標)，另一個模型可預測客戶的每月花費 (數值目標)，而另一個模型則可預測產品在未來三個月的每日需求 (一系列數值目標)。
AutoML Tables 的運作方式

文字

Vertex AI 可讓您執行監督式學習。這項技術需要訓練電腦，讓電腦能從標記資料中識別模式。您可以使用監督式學習訓練 AutoML 模型，以便在文字中辨識您在意的內容。

影片

您可以使用已加上標籤的影片來訓練、測試和驗證機器學習模型。有了經過訓練的模型，您就可以將新影片輸入模型，然後由模型輸出加上標籤的影片片段。影片片段會定義影片中的開始和結束時間偏移量。片段可以是整部影片、使用者定義的時間片段、自動偵測的影片畫面，或是開始時間與結束時間相同的時間戳記。標籤是模型預測的「答案」。舉例來說，在先前提到的足球用途中，每部新的足球影片都會根據模型類型，

經過訓練的動作辨識模型會輸出影片時間偏移，並附上「進球」、「個人犯規」等動作鏡頭的標籤。
經過訓練的分類模型會輸出自動偵測到的鏡頭片段，並加上「遊戲畫面」和「觀眾畫面」等使用者定義的標籤。
經過訓練的物件追蹤模型會在物件出現的影格中，以定界框輸出足球或球員的軌跡。

Vertex AI 工作流程

Vertex AI 採用標準機器學習工作流程：

收集資料：根據您想達到的成果，判斷訓練及測試模型時需要的資料。
準備資料：確保資料格式正確並已加上適當標籤。
訓練：設定參數並建構模型。
評估：查看模型指標。
部署及預測：將模型投入運用。

不過在開始收集資料之前，您需要先思考要解決的問題。這會影響資料需求。

資料準備

評估用途

先從以下問題開始著手：您想要達到什麼成果？

圖片

彙整資料集時，請務必從用途著手。您可以先從以下問題開始：

您希望達到什麼成果？
您需要辨識哪些類別或物件才能達成這個結果？
人類是否能識別這些類別？雖然 Vertex AI 可處理的類別數量遠超過人類可記住和指派的數量，但如果人類無法辨識特定類別，Vertex AI 也會遇到困難。
系統會看到並嘗試分類的資料類型和範圍為何？

表格

目標欄的資料類型為何？您可以存取多少資料？視您的答案而定，Vertex AI 會建立必要模型來因應您的用途：

「二元分類」模型可預測二元成果 (兩個類別之一)。這個模型可用於是非題，例如預測客戶是否會購買訂閱。在所有其他條件相同的情況下，二元分類問題需要的資料量少於其他模型類型。
「多元分類」模型可由三個以上的分離類別預測一種類別。請使用此模型分類事物。就零售範例而言，您可能想建構多元分類模型，將客戶區分為不同人物角色。
預測模型可預測一連串值。舉例來說，身為零售商，您可能會想預測未來 3 個月的產品每日需求，以便提前適當地備妥產品庫存。
「迴歸」模型可預測連續值。就零售範例而言，您可能想建構迴歸模型，預測客戶下個月的消費情形。

文字

彙整資料集時，請務必從用途著手。您可以先從以下問題開始：

您希望達到什麼成果？
您需要辨識哪些類別才能達成這個結果？
人類是否能識別這些類別？雖然 Vertex AI 可處理的類別比人類一次記得和指派的類別還多，但如果人類無法辨識特定類別，Vertex AI 也會遇到困難。
哪些類型的範例最能反映系統將分類的資料類型和範圍？

影片

視您要達到的成果而定，請選取適當的模型目標：

如要偵測影片中的動作片段 (例如進球、犯規或罰踢)，請使用動作辨識目標。
如要將電視畫面分類為廣告、新聞、電視節目等，請使用分類目標。
如要找出並追蹤影片中的物件，請使用物件追蹤目標。

如要瞭解準備資料集的最佳做法，請分別參閱動作辨識、分類和物件追蹤目標的相關頁面。

收集資料

建立用途後，您必須收集資料，才能建立所需模型。

圖片

收集足夠的資料確認所需資料後，您需要設法找到資料來源。您可以先考慮貴機構收集的所有資料，或許您會發現，您本來就在收集訓練模型所需的相關資料。如果您沒有這類資料，可以手動取得，或將資料外包給第三方供應商。

每種類別應包含足夠的有標籤樣本

納入足夠的資料 Vertex AI Training 訓練的每個類別/標籤至少需要 100 張圖像樣本，才能進行分類。成功辨識標籤的可能性會隨著每個標籤的高品質範例數量增加而增加；一般來說，您在訓練程序中加入的標記資料越多，模型就會越好。每個標籤至少提供 1000 個樣本。

平均分布各類別的樣本

請務必為每個類別擷取數量相近的訓練範例。即使某個標籤的資料量豐富，也建議您將資料平均分配給各個標籤。舉例來說，假設您用來建立模型的圖片中，有 80% 都是現代風格的獨棟房屋相片。在標籤分布不均的情況下，模型很可能會學到，只要一看到相片，就會安全地告訴您這是現代化的獨棟房屋，而不會冒險嘗試預測較不常見的標籤。這就像如果寫選擇題測驗時，幾乎所有正確答案都是「C」，聰明的考生很快就會發現，每次都能猜到「C」這個答案，甚至不必看問題內容。
平均分配

我們瞭解，要為每個標籤找到數量相當的範例不一定可行。有些類別很難找到公正而無偏見的高品質範例。在這種情況下，您可以遵循以下經驗法則：樣本數量最少的標籤至少應有樣本數量最多的標籤 10%。所以如果最大標籤有 10,000 個樣本，最小標籤應至少有 1,000 個樣本。

擷取問題空間中的變化版本

基於類似原因，請盡量確保資料能廣納問題空間的各種變化版本。模型訓練程序看到的選項越多，越能將經驗運用到新樣本。舉例來說，如果您想將消費性電子產品的相片分類，模型在訓練期間接觸的消費性電子產品種類越多，就越有可能區分出新款平板電腦、手機或筆記型電腦，即使模型從未見過該特定型號也一樣。
擷取變化版本

將資料與模型的預期輸出結果進行比對

將資料與預期輸出結果進行比對
找出與您要進行預測的圖片相似的圖片。如果您嘗試將在下雪天拍攝的住家圖片分類，即使您已為這些圖片加上您感興趣的類別標記，但如果模型只在陽光明媚的環境下拍攝住家圖片，則模型的效能可能不會太好，因為光線和景色可能會有所不同，進而影響效能。理想情況下，訓練範例應是從您打算使用模型進行分類的相同資料集擷取的實際資料。

表格

測試集在建立用途後，您需要收集資料以訓練模型。資料來源和準備作業，是建構機器學習模型的關鍵步驟。您可以利用現有資料解決哪些問題。您有多少可用資料？您的資料是否與您要回答的問題相關？收集資料時，請注意下列重要事項。

選取相關特徵

特徵是用於模型訓練的輸入屬性。特徵是指您的模型識別模式以進行預測的方法，因此必須跟您的問題有關。舉例來說，如果要建構模型預測信用卡交易是否為詐欺，您需要建構含有交易詳細資料的資料集，例如買家、賣家、金額、日期與時間，以及購買的項目等等。其他實用特徵可能是買家及賣家的歷史資訊，以及購買項目牽涉詐欺的頻率。還有哪些其他特徵可能有關？

我們以簡介中提過的零售電子郵件行銷用途為例，以下是您可能需要的部分特徵欄：

購買項目清單 (包括品牌、類別、價格、折扣)
購買項目數量 (過去一天、一週、一個月、一年)
消費總金額 (過去一天、一週、一個月、一年)
每項商品每日售出總數
每個商品的每日庫存總數
是否在特定日期放送促銷活動
已知的購物者客層資料

納入足夠資料

納入足夠的資料一般來說，擁有的訓練樣本越多，成果會越理想。所需的樣本資料量，也會隨著您要嘗試解決問題的複雜度而增加。相較於多元分類模型，二元分類模型需要的資料量較少，因為從兩個類別中預測一種類別的難度，遠低於從多個類別中預測。

沒有完美的公式，但有建議的最低範例資料量：

分類問題：50 列 x 特徵數量
預測問題：

5000 列 x 特徵數量
時間序列 ID 欄中的 10 個不重複值 x 特徵數

「迴歸」問題：200 x 特徵數量

擷取變化版本

您的資料集應該要廣納問題空間的各種變化版本。模型在訓練期間看到的樣本越多樣，越能夠將經驗運用到實際遇到的新樣本或較罕見的樣本。假設您的零售模型僅使用冬季購物資料進行訓練，這樣模型是否能夠成功預測夏季服飾偏好或購物行為呢？