加強大模型攻勢!全新Amazon Nova面世 明年推語音模型
Amazon在2024 re:Invent全球大會上,推出新一代基礎模型Amazon Nova。Amazon Nova模型將透過Amazon Bedrock提供,當中包括超快速文本生成模型Amazon Nova Micro,以及能夠處理文本、圖像和影片並生成文本的多模態模型Amazon Nova Lite、Amazon Nova Pro和Amazon Nova Premier。Amazon還推出兩個全新模型 — 用於生成專業級圖像的Amazon Nova Canvas和用於生成專業級影片的Amazon Nova Reel。
Amazon通用人工智能高級副總裁Rohit Prasad表示:「在Amazon內部,我們正在開發約1,000個生成式AI應用程式,因此我們可以全面了解開發人員所面臨的挑戰。新一代的Amazon Nova模型旨在協助內外部開發人員應對這些挑戰,提供卓越的智能和內容生成功能,並在延遲性、成本效益、客製化、檢索增強生成 (RAG) 和代理智能 (agentic) 等方面取得顯著進展。」
Amazon Nova包含四款先進的模型。
- Amazon Nova Micro是一款只針對處理文本的模型,能夠以極低的延遲和成本提供回應。
- Amazon Nova Lite 是一款高性價比的多模態模型,能夠快速處理圖像、影片和文本輸入;
- Amazon Nova Pro 是一款功能強大的多模態模型,能夠在準確性、速度和成本之間取得最佳平衡,適用於多種應用場景;
- Amazon Nova Premier作為Amazon 的頂級多模態模型,專為複雜推理任務而設,並將其作為蒸餾客製化模型(distilling custom models)的最佳典範模型(teacher model)使用。
目前,Amazon Nova Micro、Amazon Nova Lite和Amazon Nova Pro已全部正式可用,Amazon Nova Premier預計將在2025年第一季度推出。
Amazon對Amazon Nova模型進行了全面的行業基準測試,結果顯示Amazon Nova Micro、Amazon Nova Lite和Amazon Nova Pro在各自的類別中與最佳模型相比均表現得相當有競爭力。
與各大模型比較性能
Amazon Nova Micro在11項適用基準測試中,展現與Meta的LLaMa 3.1 8B持平或更佳的表現,而在12項適用基準測試中,其表現也與Google Gemini 1.5 Flash-8B持平或更佳。憑藉領先業界的每秒210個輸出Token的業界領先速度,Amazon Nova Micro非常適合需要即時回應的應用場景。
Amazon Nova Lite在同類模型中同樣具備強勁的競爭力。與OpenAI的GPT-4o mini相比,它在19項基準測試中有17項表現持平或更佳,與Google的Gemini 1.5 Flash-8B相比,在21項基準測試中也有17項表現持平或更佳,與Anthropic的 Claude Haiku 3.5相比,則在12項基準測試中有10項表現持平或更佳。
除了在文本基準測試中展現出色的準確性外,Amazon Nova Lite在影片、圖表和文件理解方面同樣表現突出,這一點已經透過VATEX、ChartQA和DocVQA等基準測試認證。此外,Amazon Nova Lite在代理智能工作流程上也表現優異,如在Berkeley Function Calling Leaderboard上的函數調用能力,以及在瀏覽器和電腦螢幕上理解視覺元素並採取行動的核心能力方面表現出色,這一點在VisualWebBench (網頁瀏覽器操作基準測試) 和Mind2Web (通用多模態代理基準測試) 中獲得認證。
Amazon Nova Pro在與OpenAI的GPT-4o的20項基準測試中,有17項表現持平或更佳;在與Google的Gemini 1.5 Pro 的21項基準測試中,有16項表現持平或更佳;在與Anthropic的Claude Sonnet 3.5v2的20項基準測試中,有9項表現持平或更佳。除了在文本和視覺智能基準測試中的準確性外,Amazon Nova Pro在遵循指令和多模態智能工作流程方面同樣表現出色,這點已透過綜合RAG基準測試 (Comprehensive RAG Benchmark)、Berkeley Function Calling Leaderboard和Mind2Web中獲得認證。
多語言與多模態支援處理長文本的能力
Amazon Nova Micro、Lite和Pro支援超過200種語言。在處理長文本方面,Nova Micro支援128K輸入Token,而Lite和Pro版本更可處理高達300K Token,並能分析長達30分鐘的影片內容。到2025年初,Amazon將支援超過200萬輸入Token的長文本。
Amazon Nova模型效能卓越,成本效益高,更採用易於與客戶的系統和數據無縫整合的設計。Amazon Nova Micro、Lite和Pro在各自的智能類別中,成本比Amazon Bedrock中表現最佳的模型至少低75%,同時亦是Amazon Bedrock 的同類模型中速度最快的。
與Amazon Bedrock無縫整合
所有Amazon Nova模型均已與Amazon Bedrock整合。Amazon Bedrock是一項全受管服務,透過單一API提供來自領先AI公司的高效能模型。客戶可以輕鬆試用和評估Amazon Nova模型及其他模型,選擇最適合其應用的模型。
支援微調以提升準確性
這些模型還支援自訂微調,允許客戶根據自身專有數據中的已標記示例來提升準確性。Amazon Nova模型能夠從客戶的數據(包括文本、圖像和影片)中學習最重要的資訊,隨後Amazon Bedrock會訓練一個專屬的微調模型,以提供客製化回應。
蒸餾用於訓練更小、更高效的模型
除了支援微調外,這些模型還支援蒸餾,可以將規模更大、能力更強的「典範模型」中的特定知識轉移到更小的模型上,從而實現更高的精確度、更快的回應速度以及更低的營運成本。
基於資料回應的檢索增強生成(RAG)
Amazon Nova模型與Amazon Bedrock知識庫緊密整合,專注於檢索增強生成 (RAG) 方法,使客戶能夠透過利用自身的資料確保生成內容的高度準確性和相關性。
針對代理應用進行優化
Amazon Nova模型經過優化,便於代理應用在執行多步驟任務時透過多個API與企業的專有系統和數據進行互動。
借助Nova創意內容生成模型,取得生產級視覺內容
Amazon Nova Canvas是一款先進的圖像生成模型,能夠根據輸入的文本或圖像生成專業級的視覺內容。它提供了便捷的編輯功能,用戶可以通過文本指令輕鬆調整圖像,控制顏色方案和佈局。該模型內置的安全控制措施確保AI的安全和負責任使用,包括浮水印功能,能夠追溯每張圖像的來源;以及內容審核功能,限制可能產生的有害內容。根據第三方機構的對比評估,Amazon Nova Canvas在性能上優於OpenAI的DALL-E 3和Stable Diffusion,並在關鍵的自動化指標上表現出色。
Amazon Nova Reel是一款先進的影片生成模型,讓客戶能輕鬆從文本和圖像創建高品質影片,適用於廣告、行銷和培訓等內容創作。客戶可以使用自然語言提示控制視覺風格和節奏,包括相機運動、旋轉和縮放。根據第三方機構的評估,Amazon Nova Reel在品質和一致性表現上優於同類模型,客戶更傾向於選擇由其生成的影片,而非由Runway的Gen-3 Alpha生成的影片。與Amazon Nova Canvas相同,Amazon Nova Reel也具備內置的安全控制措施,包括浮水印和內容審核功能。目前,Amazon Nova Reel支援生成六秒的影片,未來數月將支援最長為兩分鐘的影片生成。
下一步計畫:語音到語音和多模態到多模態模型
Amazon計畫在2025年第一季度推出Amazon Nova語音到語音模型。該模型旨在通過理解自然語言的流式語音輸入,傳譯語言和非語言訊號 (如語調和節奏),提供流暢、接近真人的互動,徹底改變對話式AI應用,並確保低延遲的雙向交流。
此外,Amazon正在開發一種新模型,能接受文本、圖像、音訊和影片作為輸入,並以任意模態生成輸出。這款具備本地多模態到多模態 — 即「任意到任意」模態能力的Amazon Nova模型預計將在2025年中旬推出。該模型將簡化應用程式開發過程,使同一模型能夠執行多種任務,如內容模態轉換、內容編輯,以及驅動能夠理解和生成所有模態的AI代理。
合作夥伴和客戶已開始使用Amazon Nova模型
AWS的戰略合作夥伴SAP正在將 Amazon Nova模型整合至SAP AI Core生成式AI中心支援的大語言模型 (LLMs) 家族中。這項整合使開發者能為SAP的AI助手Joule創建新技能,並利用 SAP 數據中完整的業務上下文,安全地構建AI驅動的解決方案,從而實現自動化、個性化以及供應鏈規劃等進階功能。
德勤作為AWS的戰略合作夥伴,致力於為全球各行業提供領先的生成式AI服務。德勤認為,沒有一種AI解決方案和基礎模型能解決所有問題,而Amazon Nova模型的進階客製能力和提升的安全性將推動創新,為全球客戶帶來卓越的價值。
開發負責任的人工智能
Amazon Nova模型內置安全和保護措施。Amazon還推出了AWS AI Service Cards,提供有關使用場景、局限性和負責任AI實踐的透明資訊。