Google宣佈AI新進展逾150萬開發者用Gemini模型

2024-05-15 benny

Google年度 I/O 開發者大會今早在美國加州舉行。Google及Alphabet行政總裁Sundar Pichai公布一系列全新及升級產品功能。他說：「今天，超過150萬名開發者使用Gemini模型。Gemini支援Google共擁有上20億用戶的產品。短短三個月內，有超過100萬人報名試用Gemini Advanced，且數字繼續攀升。」

Gemini 1.5 Flash大模型速度快具成本效益

去年在 I/O 舞台上，Google首次分享了Gemini的發展藍圖；它標誌著將任何輸入轉化為任何輸出的一大躍進，是新時代的 I/O 年度開發者大會。Sundar Pichai表示：「去年我們推出了首批Gemini模型，是Google迄今為止最強大的模型。」

Google及Alphabet行政總裁Sundar Pichai在年度 I/O 開發者大會上，公布一系列全新及升級產品及功能。

推出Gemini 1.5 Flash，是Google Gemini API中迄今速度最快的模型，比較1.5 Pro更輕量，卻能針對大規模及高頻率的任務進行優化，更具成本效益的同時，擁有具有突破性的最長的內容窗口，在撰寫內容摘要、聊天應用程式、圖像和影片字幕生成以及在長文件和表格中提取資料等方面擁有出色的表現。

**Gemini 1.5 Flash**具有突破性的最長的內容窗口，在撰寫內容摘要、聊天應用程式、圖像和影片字幕生成以及在長文件和表格中提取資料等方面擁有出色的表現。

升級版擁有100萬條上下文的Gemini 1.5 Pro現已在 Gemini Advanced 中供消費者使用。在超過150個國家及地區提供35種語言，另外開放視窗200萬個詞元私人預覽版本供開發者使用。

人工智能生活化應用

Project Astra：具有推理、規劃和記憶的能力的智慧系統，處於開發早期階段，以展示我們對未來AI助理發展的願景。虛擬專員將像人類一樣認識和回應複雜且多變的世界，吸收並緊記所見所聞，從而了解上文下理並採取行動，主動、可教且個人化。

Veo：Google迄今最強大的影片生成模型，可以生成超過一分鐘、解析度為1080p的高品質影片，擁有對自然語言和視覺語義的高度理解，因而可以生成具用戶創意願景代表性的影片。

Imagen 3：目前Google最高品質的文字轉圖像模型，更有效地理解自然語言、提示背後的意圖，並融合較長指令中的小細節，呈現令人難以置信的細節水平，生成逼真且栩栩如生的圖像，與我們之前的模型相比，視覺偽影亦相對較少
音樂AI沙盒：YouTube與業界出色的音樂家、詞曲作者和製作人攜手合作，設計和建造一系列音樂AI工具「音樂AI沙盒」(Music AI Sandbox)，旨在為創意空間開闢一個新的遊樂場，讓用戶可以由零開始製作音樂，以全新方式演繹聲音等等。
LearnLM：與教育工作者和其他教育專家合作，將學習科學原理融入我們的模型及其支援的產品，以Gemini作為基礎，針對學習範疇的新系列模型，使學習體驗更具互動性、個性化和有效。

Google搜尋AI Overviews 快速回答問題

利用生成式AI驅動Google搜尋查閱搜尋結果總覽「AI Overviews」具備更強大的規劃與研究能力，加上生成式AI搜尋結果，能夠快速回答用戶的問題，同時整合相關資料。用戶能夠因應其需要去調節AI Overviews所提供的內容，如簡化文字或要求提供更詳盡的資料。AI Overviews今日率先在美國推出，並會陸續其他市場推出。
用戶將可以利用Google搜尋引擎內置的規劃功能，迅速獲得不同種類的計劃安排，同時能按個人所需更改和調整計劃。現時，美國地區的英文版Search Labs能夠提供膳食及行程規劃。今年稍後時間會繼續加入更多個人化的選項，並會將此功能擴展至更多場合與情境，例如派對、約會和運動等。
其至通過影片作出提問，當中包括場景中的物件及動作，助用戶節省描述問題的時間，將影像視覺搜尋提升至全新層次，而AI Overviews的生成總覽亦會提供詳盡的步驟和資訊為用戶解答疑難。

Google相簿輕鬆挑選照片

「Ask Photos」更方便大眾使用Google相簿搜尋他們生活的點滴，協助你以更深入的方式搜索你的記憶：Gemini超越了簡單的搜索，透過識別不同的背景，Google相簿將所有內容匯聚一起，以便你可以真正吸收所有內容，並再次重溫令人驚嘆的回憶；只要你提出要求，Google相簿可以幫助你更輕鬆地挑選出某項活動中的精選照片，還能撰寫個性化的標題，方便分享到社交媒體。
Ask Photos將在未來幾個月內逐階段推出。

Android推出Gemini App 強化Circle to Search

Gemini App將於未來數月在數億部裝置上陸續推出，能更精準解讀文本和應用程序內容；用戶輕易將生成圖像置入Gmail、Google訊息等工具，亦可利用「Ask this Video」以獲取YouTube的影片資訊。
Android是首個設有內置基礎模型的手機操作系統，Gemini Nano今年會率先在Pixel手機加入多模態AI功能，即使行動裝置都能夠理解任何類型的內容，包括影片、聲音和語音。
Circle to Search即日起，學生遇到數學及物理難題時，只需圈選該問題，Google便會顯示出詳細的解決方式；今年稍後時間，Circle to Search將能夠應對更複雜的問題，包括符號公式、圖表、圖形等等。我們繼續將此功能擴展至更多裝置上，預計今年年尾將數量增多一倍。

Circle to Search只需圈選該問題，Google便會顯示出詳細的解決方式。未來將能夠應對更複雜的問題，包括符號公式、圖表、圖形等等。

Google Cloud新增Gemini側邊面板幫我寫支援更多語言

Google Workspace：今天起，Google的Gmail、文件、雲端硬碟、簡報和試算表中的Gemini側邊面板將使用Gemini 1.5 Pro；Gmail手機應用程式中的Workspace專用Gemini新功能包括以Gemini分析電子郵件討論串，直接在Gmail應用程式中提供摘要檢視、基於電子郵件討論串的前後文，提供更詳細、有多種細微語氣差異的建議回覆、選擇各種協助選項，像是「摘要這封電子郵件」、「列出接下來的步驟」或者「建議回覆」。已開放給Workspace Labs和Gemini for Workspace Alpha的使用者使用。企業和個人使用者下個月開始就能在電腦上透過Workspace專用Gemini外掛程式和Google One AI進階版方案使用這些功能。
網頁版的Gmail和Google文件的幫我寫（Help Me Write）功能將支援西班牙文和葡萄牙文。我們會繼續努力增加支援語言。
第六代Google Cloud TPU Trillium登場：與TPU v5e相比，Trillium每一晶片峰值計算效能提升了4.7倍。支援及服務多模態學習和長篇脈絡模型，讓Google DeepMind能夠更快及更高效率訓練並服務下一代的Gemini模型，同時將延遲時間降到最低。

Google地圖平台

從Places API著手，將Gemini的功能引入Google地圖平台，讓開發者在自己的應用程式和網站中展示這些地點和地理區域的AI生成摘要，省卻自己編寫地點描述的麻煩；透過Gemini模型的全新區域摘要功能，用戶現在可以輕鬆查看某個地點附近的購物、餐廳和景點概述，以協助用戶評估該如何安排行程。