新一代Amazon SageMaker 統一數據處理及AI分析
Amazon Web Services (AWS) 在2024 re:Invent全球大會上,推出新一代Amazon SageMaker,將客戶所需的快速SQL分析、PB級大數據處理、數據搜索和整合、模型開發和訓練以及生成式人工智能 (AI) 等功能整合到一個平台上。
- 全新的Amazon SageMaker Unified Studio讓客戶能夠輕鬆搜尋和存取機構內所有數據,並整合AWS專門開發的分析、機器學習 (ML) 和AI功能,客戶可以透過Amazon Q Developer的協助,為各類常見數據用例選擇最合適的工具進行處理。
- Amazon SageMaker Catalog及其內建的治理功能確保授權人員以正確用途存取合適的數據、模型和開發組件。
- 全新的Amazon SageMaker Lakehouse整合了數據湖、數據庫、營運數據庫及企業應用程式中的數據,讓客戶可以輕鬆存取和處理 Amazon SageMaker Unified Studio中的數據,並使用其熟悉的AI和ML工具或與Apache Iceberg相容的搜尋引擎。
- 全新的zero-ETL功能與領先的軟件即服務 (SaaS) 應用程式整合,讓客戶無需複雜的數據平台,即可在Amazon SageMaker Lakehouse和Amazon Redshift中存取第三方SaaS應用程式的數據,以進行分析或機器學習。
AWS數據與人工智能副總裁Swami Sivasubramanian博士表示:「分析和AI正在融合,客戶從歷史分析到ML模型訓練和生成式AI應用程式,都在以更緊密的方式連結及使用數據。為了支援這些工作負載,許多客戶已經在使用我們專門開發的分析和ML工具組合,例如,在處理數據和建構ML模型方面已成為業界標準的Amazon SageMaker、Amazon EMR、Amazon Redshift、Amazon S3數據湖和Amazon Glue組合。」

Amazon SageMaker Unified Studio高效協作和構建項目
現時已經有數十萬客戶在使用Amazon SageMaker構建、訓練和部署ML模型。許多客戶仍然依賴AWS專門開發的完整分析服務來支援各種工作負載,包括SQL分析、搜索分析、大數據處理及串流分析。越來越多客戶逐漸從獨立使用這些工具,轉向結合分析、ML和生成式AI以獲取深度分析並為用戶提供新體驗。這些客戶將受惠於整合客戶熟悉的AWS分析、ML和生成式AI工具的一個統一環境,不僅可以輕鬆存取他們的所有數據,還能與團隊或機構内的其他成員輕鬆協作處理數據項目。
新一代Amazon SageMaker新增一個統一的編輯器,為客戶提供單一的數據及AI開發環境,透過不同分工實現協作。Amazon SageMaker Unified Studio整合了在Amazon Bedrock、Amazon EMR、Amazon Redshift、Amazon Glue及現有Amazon SageMaker Studio中,客戶喜歡使用的一系列獨立編輯器、搜尋及視覺化功能和工具,讓客戶可以輕鬆存取和使用這些功能發掘和準備數據、編寫查詢或程式碼、處理數據以及構建ML模型。

Amazon Q Developer全程協助各種開發任務,包括發掘數據、編碼、SQL生成和數據整合等。例如,用戶可以向Amazon Q查詢:「我應該使用哪些數據來提升對產品銷售情況的了解?」或「生成按產品類別計算總收入的SQL。」用戶可以安全地發布數據、模型、應用程式和其他組件並與團隊或機構成員共享,從而提升數據資產的可見度和使用率。借助Amazon SageMaker Unified Studio中與Amazon Bedrock整合的開發環境 (IDE),用戶可以使用Amazon Bedrock精選的高效能基礎模型和工具 (例如Agents、Guardrails、Knowledge Bases和Flows),快速、輕鬆地構建和部署生成式AI應用程式。
Amazon SageMaker Unified Studio內置數據發掘、共享及管理功能,讓分析師、數據科學家和工程師可以輕鬆搜尋並找到合適用例的正確數據,同時套用所需的安全控制和權限管理,控制存取,以保障數據安全。
NatWest Group分析AI功能時間減少50%
英國銀行NatWest Group為超過1900萬客戶提供服務,運用多種工具進行數據工程、SQL分析、ML及生成式AI工作負載。借助Amazon SageMaker Unified Studio,NatWest Group將為整個機構提供一個統一的環境以支援這些工作負載,預計用於數據用戶存取分析和AI功能的時間將減少50%,讓他們節省管理多個服務的時間,投入更多時間於創新客戶服務。

Amazon SageMaker Lakehouse減少數據孤島並統一數據
現時已經有超過一百萬個數據湖構建在Amazon Simple Storage Service(Amazon S3)上,讓客戶能整合數據資產,並透過AWS分析、AI和ML工具創造價值。數據湖讓客戶能以原始狀態儲存數據,從而輕鬆組合來自多個來源的數據。客戶的數據可能分佈在多個數據湖及數據庫中,所以透過一種簡單的方式統一所有數據將能讓客戶受惠。
Amazon SageMaker Lakehouse,不論數據的儲存方式和位置都可以統一存取儲存在 Amazon S3數據湖、Redshift 數據倉庫和聯合數據來源中的數據,減少數據孤島,讓查詢更便捷。借助Amazon SageMaker中與Apache Iceberg相容的全新數據湖倉功能,客戶可以在Amazon SageMaker Unified Studio中存取和處理他們的所有數據,並使用與Apache Iceberg開放標準相容的AI和ML工具以及搜尋引擎。
現在,不論數據的儲存方式和位置,客戶都能使用他們偏好的分析和 ML工具處理數據,以支援包括SQL分析、即時查詢、數據科學、ML和生成式AI等用例。Amazon SageMaker Lakehouse提供整合的精細存取控制,為Lakehouse中所有分析和AI工具中的數據提供一致的存取控制,客戶只需設定一次權限,即可在整個機構内安全地共享數據。
全新zero-ETL快速、輕鬆地存取SaaS數據
企業要在營運中真正發揮數據價值,就需要在不論數據儲存位置的情況下無縫存取所有數據。這正是AWS不斷發展zero-ETL的原因。zero-ETL讓數據整合不再是繁瑣的人工程序,客戶可以輕鬆地在需要的地方獲取數據。這包括Amazon Aurora MySQL和PostgreSQL、Amazon RDS for MySQL,以及 Amazon DynamoDB與Amazon Redshift提供的zero-ETL整合功能,讓客戶快速且輕鬆地在Amazon Redshift和Amazon SageMaker Lakehouse中存取常用關聯式和非關聯式數據庫的數據,並用於分析和ML。除營運數據庫和數據湖以外,許多客戶還將關鍵企業數據儲存在SaaS應用程式中。若能輕易存取這些數據進行分析和ML,將令客戶受惠。
透過與SaaS應用程式整合的全新zero-ETL,客戶可以輕鬆地存取Amazon SageMaker Lakehouse中的Zendesk和SAP等應用程式以及Amazon Redshift中的數據,並用於分析和AI。構建數據平台具挑戰性且成本高昂,加上數據平台的管理複雜,容易出錯,讓客戶無法及時獲得想要的分析,而此功能正正解決了對數據平台的需求。結合SaaS應用程式的zero-ETL包含數據同步、增量更新和刪除檢測以及目標merge的最佳實踐方式。