當地時間5月17日,谷歌在山景城開啟了本年度的谷歌I/O開發者大會。昨日機器之心對此次大會上將出現的有關人工智能和機器學習的內容進行了梳理。機器之心作為谷歌官方受邀媒體來到現場,近距離為大家報導谷歌人工智能的最新進展。
從大會主題演講可以看出,谷歌人工智能主要體現在以下五大方面:
- AI First 的整體戰略;
- TPU 的升級與雲服務;
- 集研究、工具、應用於一體的Google.ai ;
- 人工智能技術的產品落地;
- 基於安卓和TensorFlow 的移動開發者生態。
重申AI First
去年10 月的谷歌新品發布會期間,谷歌CEO Sundar Pichai 曾撰文解讀谷歌從Mobile First 向AI First 的戰略轉變。他認為在接下來10 年中,谷歌將轉向建立AI First 的世界。
Pichai 在本屆大會上再次強調了谷歌AI First 戰略的重要性,他表示,機器學習已經在谷歌的諸多產品中得到了廣泛應用,其中包括搜索排序、街景、圖片搜索、智能回复、YouTube 推薦等。
在具體技術方面,Pichai 說:「聲音和視覺是一種新的計算形式。我們正在見證計算機視覺和語音領域的諸多偉大進步。」
谷歌的語音識別技術的詞錯率逐年下降,僅從去年7 月到現在就實現了8.5% 到4.9% 的極大改進;而且即使在有噪音存在的情況下也能表現良好。在Google Home 剛發佈時,原本需要8 個麥克風才能準確定位周圍的說話人,「而藉助深度學習,我們最後能夠推出僅有2 個麥克風的產品,而且達到了同樣質量。」現在Google Home 已經能識別6 個不同的說話人並為他們定制個性化體驗。
在處理某些任務時,圖像識別的準確度也超過了人類水平,並且應用到了Pixel 系列手機的相機應用中,來自動清除圖像中的噪點,實現高質量的夜間成像效果;不久之後甚至還可以自動移除照片上的遮擋物,比如擋在相機前的棒球場圍網。
在這些計算機視覺技術的基礎上,谷歌又發布了Google Lens 。這個功能將首先出現在Google Assistant 和Photos 中,用戶可以使用Google Lens 來識別花的品種、掃描設置好的條形碼來連接WiFi 、在大街上掃描店面來了解網上評價。
TPU 雲服務
AI First的戰略需要AI First的數據中心,為此谷歌打造了為機器學習定制的硬件TPU 。去年發佈時,TPU的速度比當時CPU和GPU的速度快15到30倍,功耗效率高30到80倍。如今的TPU已經在為谷歌的各種機器學習應用提供支持,包括之前戰胜李世石的AlphaGo 。
Pichai 介紹道,深度學習分為兩個階段:訓練(training)和推理(inference)。其中訓練階段是非常計算密集型的,比如,谷歌的一個機器翻譯模型每週就要處理至少30 億詞的訓練數據,需要數百個GPU,去年的TPU 就是專門為推理階段優化的;而在今年的I/O 大會上,Pichai 宣布了下一代TPU——Cloud TPU——其既為推理階段進行了優化,也為訓練階段進行了優化。在現場展示的一塊Cloud TPU 板圖片上有4 塊芯片,其處理速度可達180 teraflops(每秒萬億次浮點運算)。
此外,Cloud TPU 還可以輕鬆實現集成組合,你可以將64 塊TPU 組合成一個「超級計算機」,即一個pod ,每個pod 的速度可達11.5 petaflops(每秒千萬億次浮點運算);另外,Pichai 還宣布將Cloud TPU 應用到了Google Compute Engine 中。
一個Cloud TPU Pod 示意圖,包含64 塊Cloud TPU
正如Pichai 所言,「我們希望谷歌云是最好的機器學習雲,並為用戶提供CPU 、GPU 和TPU 等更廣泛的硬件支持。」
在下午的開發者Keynote 中,谷歌云機器學習與人工智能首席科學家李飛飛也表示,每個人都可通過谷歌的雲平台使用雲TPU,不久之後將會開放租借。
↑李飛飛在下午的開發者Keynote 演講
Google.ai 與AutoML
為推動使用人工智能解決實際問題,Pichai 宣布將谷歌人工智能方面的工作綜合到Google.ai 下。總體而言,Google.ai 將專注於三個領域:研究、工具和應用。
在研究方面,深度學習模型方面的進步令人振奮,但設計和開發卻很耗費時間,只有少量工程師和科學家願意去研究它們。為了讓更多開發者使用機器學習,谷歌提出了AutoML——讓神經網絡來設計神經網絡。
AutoML 是一種「learning to learn」的方法。在此方法中,一種控制器神經網絡能夠提議一個「子」模型架構,然後針對特定任務進行訓練與質量評估;而反饋給控制器的信息則會被用來改進下一輪的提議。谷歌在技術博客中表示,他們已經將此過程重複了上千次,從而來生成新架構,然後經過測試和反饋,讓控制器進行學習。最終,控制器將學會為好的架構分配高的概率。
↑AutoML 流程圖
AutoML 會產生什麼樣的神經網絡?以循環架構為例(用來在Penn Treebank 數據集上預測下一單詞),如下圖所示:
左邊為人類專家設計的神經網絡,右邊為AutoML 方法創造的循環架構,兩個架構有著共同的設計特徵。
Pichai 認為,AutoML 具有很大的潛力,並且,谷歌已經在圖像識別基準數據集CIFAR-10 上取得了頂尖成果。雖然過程很難,但云TPU 的存在使這種方法成為了可能。
有了這些前沿的研究,接下來就是應用的問題。Pichai列舉了谷歌應用機器學習的幾個案例:比如在醫療領域診斷癌症的應用和在基礎科學領域的應用(比如在生物學上,谷歌通過訓練神經網絡來改進DNA測序的準確率;在化學領域,谷歌通過使用機器學習了預測分子性質)。
產品及應用
谷歌AI First 戰略不僅體現在研究上,還體現在眾多人工智能技術的應用上——將谷歌的各項人工智能技術在產品層面統一起來。Pichai 提到:「計算機仍在不斷地進化,從Mobile First 的世界進化到AI First 的世界。我們也在重新思考我們所有的產品。」
1. Google Assistant
谷歌正將人工智能應用於所有產品中,Pichai 表示,其中最重要的就是谷歌搜索和Google Assistant 。自去年I/O 大會發布以來,Google Assistant 已經可以在上億台設備上使用。今天Google Assistant 工程副總裁Scott Huffman 又介紹了Google Assistant 三大進步。
1)更自然的對話
Google Assistant 上70% 的請求都是通過自然語言的方式進行的,而非鍵盤輸入。而谷歌要做的就是結合語音識別、自然語言處理以及語境意義方面的技術來解決用戶雙手,實現更加自然的人機交流。「Google Assistant 可以通過聆聽學會區分不同家庭成員的聲音。」他說。除了語音識別和自然語言處理,Google Assistant 還使用了Google Lens 功能,通過圖像信息來實現更加自然的「對話」。
2)更廣泛的應用
Huffman 表示,Google Assistant 正變得更加廣泛可用,除了之前的安卓系統,Google Assistant 已經可以在iPhone 上使用。而隨著Google Assistant SDK 的發布,任何設備生產商都能簡單輕鬆地將Google Assistant 部署在音響、玩具和機器人等設備上;此外,今年夏天,Google Assistant 也開始將支持法語、德語、葡萄牙語和日語,並將在年底新增意大利語、韓語和西班牙語等語言。
3)更觸手可及的服務
用戶使用Google Assistant 不僅僅是搜索信息,還希望獲取所有服務,比如Gmail 、Google Photos 、谷歌地圖和YouTube 等。因此,谷歌將Google Assistant 開放給了第三方開發者,以實現產品間更加有用的融合。據Google Assistant 產品經理Valerie Nygaard 介紹,Google Assistant 將支持交易,從而為第三方提供端到端的完整解決方案。
Google Assistant 的進步也使得智能家居產品Google Home 新增了50 項新功能——用戶可以通過語音去調用各種服務,包括免費電話、免費聽音樂,以及在電視上觀看視頻等。
同時,基於本次大會上多次提及的「語音加圖像」的多模態交互,此前缺乏視覺交互Google Home 現在也可以藉助手機和電視的屏幕與用戶進行更好的互動,比如,用戶可以通過語音命令讓Google Home 把你的日程在電視上顯示。就像Nygaard 所說的那樣,用戶可以hands-free 的做任何事情。如今Google Assistant 已經開始支持交易並集成到智能家居設備中,目前擁有超過70 家智能家居合作者。
2. Google Photos
Google Photos 目前擁有十億月度活躍用戶,每天上傳的照片和視頻達到12 億次。借助於谷歌的核心人工智能技術,如今Google Photos 使用了全新的圖像處理方法。這從此次發布的三個新功能可以看出:
Suggest Sharing 可以藉助機器學習將照片中的人物和場景識別出來,然後給用戶提供分享建議——是否應該分享以及分享給誰。
Shared Libraries 基於用戶識別的相片庫分享。
Photo Books 自動幫助用戶篩選出某一場景下的高質量照片並生成相冊。
另外,除了Google Assistant ,Google Lens 也被集成到了Google Photos 中。通過這個功能,你可以識別相冊裡面的地標建築、檢索藝術作品背後的故事、識別照片內的文本內容和信息,這項功能將於今年晚些時候發布。
用TensorFlowLite 構建移動開發者生態
機器學習在移動端的應用至關重要,而在討論安卓的未來時,谷歌工程副總裁Dave Burke 宣布了一個為移動端優化的TensorFlow 版本——TensorFlowLite 。TensorFlowLite 能讓更多的開發者建立在安卓手機上運行的深度學習模型。而TensorFlowLite 就是谷歌在移動端部署人工智能的一個著力點。首先,TensorFlowLite 很小很快,但依然可以使用最先進的技術,包括卷積神經網絡、LSTM 等;其次,Dave Burke 還宣佈在安卓上推出了一個新的框架來進行硬件加速,期待看到為神經網絡的訓練和推理特別定制的DSP 。這些新能力將促進新一代設備上(on-device)語音識別、視覺搜索和增強現實的發展。
去年,Facebook公開了Caffe2Go ,今年更是開源了可在手機與樹莓派上訓練和部署神經網絡模型的Caffe2 。在移動端部署機器學習成為了一項新的挑戰。但不幸的是,手機上訓練神經網絡仍是計算密集型任務。即便忽略訓練,預訓練模型仍舊艱難。但如果能在邊緣設備運行模型,就能避免雲和網絡,在任何環境中有更可靠的表現。
谷歌表示他們會開源該項工作,併計劃在今年晚些時候發布API 。
谷歌首日Keynote ,讓我們看到了谷歌圍繞機器學習研究、開源工具、基礎設施和人工智能應用開發的AI First 戰略。Cloud TPU 是加速人工智能部署的基礎設施;AutoML 代表著機器學習研究層面的前沿方向;TensorFlowLite 將促進人工智能在移動端的部署;語音和圖像的結合代表著對多模態人機交互的探索;而應用了各種人工智能技術的產品更新則是極大推動了將AI 真正融入生活的進程。
消息/圖片來源:Source
|