Google LIMoE——邁向單一人工智能目標的一步

已發表: 2022-06-18

谷歌宣布了一項名為 LIMoE 的新技術，它表示這代表著朝著實現谷歌人工智能架構 Pathways 目標邁出的一步。

Pathways 是一種 AI 架構，它是一個單一模型，可以學習執行當前通過使用多種算法完成的多項任務。

LIMoE 是一個首字母縮寫詞，代表Learning Multiple Modalities with One Sparse Mixture-of-Experts Model 。這是一個同時處理視覺和文本的模型。

雖然還有其他架構可以做類似的事情，但突破在於新模型使用稱為稀疏模型的神經網絡技術完成這些任務的方式。

稀疏模型在 2017 年的一篇研究論文中進行了描述，該論文介紹了混合專家層 (MoE) 方法，該研究論文的標題為 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer。

2021 年，谷歌宣布了一種名為 GLaM 的 MoE 模型：使用混合專家對語言模型進行有效縮放，該模型僅在文本上進行訓練。

LIMoE 的不同之處在於它同時處理文本和圖像。

稀疏模型與“密集”模型的不同之處在於，稀疏模型不是將模型的每個部分都用於完成一項任務，而是將任務分配給專門從事某項任務的各種“專家”。

這樣做是為了降低計算成本，使模型更高效。

因此，類似於大腦如何看到一隻狗並知道它是一隻狗，它是一隻哈巴狗並且哈巴狗展示了一件銀色的小鹿色外套，這個模型也可以通過分配計算以類似的方式查看圖像並完成任務任務交給專門從事識別狗、品種、顏色等任務的不同專家。

LIMoE 模型將問題傳遞給專門從事特定任務的“專家”，與當前解決問題的方法相比，獲得了相似或更好的結果。

該模型的一個有趣特徵是，一些專家主要專注於處理圖像，其他專家主要專注於處理文本，而一些專家則專注於兩者。

谷歌對 LIMoE 工作原理的描述顯示了眼睛專家、車輪專家、條紋紋理、實體紋理、文字、門把手、食物和水果、海洋和天空專家以及植物圖像專家。

關於新算法的公告描述了這些專家：

“圖像專家之間也有一些明確的定性模式——例如，在大多數 LIMoE 模型中，有一位專家處理所有包含文本的圖像塊。 …一位專家處理動物和綠色植物，另一位處理人手。”

專門研究問題不同部分的專家提供了擴展和準確完成許多不同任務的能力，但計算成本較低。

研究論文總結了他們的發現：

“我們提出了 LIMoE，這是第一個大規模多模式混合專家模型。
我們詳細展示了先前的專家模型混合正則化方法如何無法滿足多模態學習的要求，並提出了一種新的基於熵的正則化方案來穩定訓練。
我們表明 LIMoE 可以跨架構規模進行泛化，與等效的密集模型相比，零樣本 ImageNet 準確度的相對改進範圍從 7% 到 13%。
進一步擴展，LIMoE-H/14 實現了 84.1% 的 zeroshot ImageNet 準確率，與具有每個模態主乾和預訓練的 SOTA 對比模型相當。”

匹配最先進的技術

每個月都有很多研究論文發表。但谷歌只強調了少數幾個。

通常，谷歌之所以關注研究，是因為它除了獲得最先進的技術外，還完成了一些新的事情。

LIMoE 完成了這一壯舉，獲得了與當今最佳算法相當的結果，但效率更高。

研究人員強調了這一優勢：

“在零樣本圖像分類方面，LIMoE 優於可比較的密集多模態模型和雙塔方法。
最大的 LIMoE 實現了 84.1% 的零鏡頭 ImageNet 準確率，可與更昂貴的最先進模型相媲美。
稀疏性使 LIMoE 能夠優雅地擴大規模並學會處理非常不同的輸入，從而解決成為多面手和萬事通專家之間的緊張關係。”

LIMoE 的成功結果使研究人員觀察到 LIMoE 可能是實現多模式通才模型的前進方向。

研究人員觀察到：

“我們相信，構建具有專業組件的通用模型的能力，可以決定不同的模態或任務應該如何交互，這將是創建真正的多模態多任務模型的關鍵，這些模型在他們所做的一切事情上都表現出色。

LIMoE 是朝這個方向邁出的有希望的第一步。”

潛在的缺點、偏見和其他倫理問題

這種架構的缺點在 Google 的公告中沒有討論，但在研究論文本身中提到了。

研究論文指出，與其他大型模型類似，LIMoE 也可能在結果中引入偏差。

研究人員表示，他們尚未“明確”解決大型模型中固有的問題。

他們寫：

“大型模型的潛在危害......、對比模型......和網絡規模的多模態數據......也在這裡延續，因為 LIMoE 沒有明確解決這些問題。”

上述聲明（在腳註鏈接中）引用了 2021 年的一篇名為《關於基礎模型的機會和風險》的研究論文（此處為 PDF）。

那篇 2021 年的研究論文警告說，新興的人工智能技術會如何造成負面的社會影響，例如：

“……不公平、濫用、經濟和環境影響、法律和道德考慮。”

根據引用的論文，倫理問題也可能源於任務同質化的趨勢，這可能會引入一個故障點，然後將其複製到下游的其他任務中。

警示性研究論文指出：

“基礎模型的意義可以用兩個詞來概括：湧現和同質化。
湧現意味著系統的行為是隱式誘導的，而不是顯式構造的；它既是科學興奮的根源，也是對意外後果的焦慮。
同質化表明在廣泛的應用程序中構建機器學習系統的方法的整合；它為許多任務提供了強大的槓桿作用，但也會產生單點故障。”

一個需要注意的領域是與視覺相關的人工智能。

2021 年的論文指出，攝像頭的普及意味著與視覺相關的人工智能的任何進步都可能對以意想不到的方式應用的技術帶來伴隨風險，這可能會產生“破壞性影響”，包括在隱私和監控方面。

另一個與視覺相關人工智能進步有關的警告是準確性和偏差問題。

他們注意到：

“在計算機視覺模型中存在學習偏差的有據可查的歷史，導致代表性不足的群體的準確性和相關錯誤較低，因此在某些現實世界環境中部署不當和過早。”

論文的其餘部分記錄了人工智能技術如何學習現有的偏見並延續不平等。

“基金會模型有可能產生不公平的結果：對人們的待遇是不公正的，尤其是由於沿著加劇歷史歧視的路線分配不均……。像任何人工智能係統一樣，基礎模型可以通過產生不公平的結果、鞏固權力系統以及將技術的負面後果不成比例地分配給那些已經被邊緣化的人來加劇現有的不平等……”

LIMoE 研究人員指出，由於專家專注於某些事情的性質，這種特殊模型可能能夠解決對代表性不足群體的一些偏見。

這些負面結果不是理論，它們是現實，並且已經對現實世界應用中的生活產生了負面影響，例如就業招聘算法引入的基於種族的不公平偏見。

LIMoE 論文的作者在一個簡短的段落中承認了這些潛在的缺點，作為一個警告警告。

但他們也指出，這種新方法可能有可能解決一些偏見。

他們寫：

“......與可以深入專業化的專家一起擴展模型的能力可能會在代表性不足的群體中帶來更好的表現。”

最後，應該注意這項新技術的一個關鍵屬性是沒有明確說明它的用途。

它只是一種可以高效處理圖像和文本的技術。

如何應用它，如果它曾經以這種形式或將來的形式應用，則永遠不會得到解決。

這是警示性論文（基礎模型的機會和風險）提出的一個重要因素，它引起了人們對研究人員為人工智能創造能力而不考慮它們的使用方式以及它們可能對隱私和隱私等問題產生的影響的關注。安全。

“基礎模型是在改編前沒有明確用途的中間資產；了解它們的危害需要推理它們的屬性以及它們在構建特定任務模型中所起的作用。”

所有這些警告都未在 Google 的公告文章中，但在研究論文本身的 PDF 版本中被引用。

Pathways AI 架構和 LIMoE

可以說，文本、圖像、音頻數據被稱為模態、不同類型的數據或任務專業化。模態也可以表示口語和符號。

因此，當您在科學文章和研究論文中看到“多模態”或“模態”一詞時，他們通常談論的是不同類型的數據。

Google 對 AI 的最終目標是它所謂的 Pathways 下一代 AI 架構。

Pathways 代表了從可以很好地完成一件事（因此需要數千個）的機器學習模型向一個可以很好地完成所有事情的單一模型的轉變。

Pathways（和 LIMoE）是一種解決問題的多模式方法。

它是這樣描述的：

“人們依靠多種感官來感知世界。這與當代人工智能係統消化信息的方式非常不同。
今天的大多數模型一次只處理一種形式的信息。他們可以接收文本、圖像或語音——但通常不能同時接收所有三個。
Pathways 可以實現同時包含視覺、聽覺和語言理解的多模式模型。”

LIMoE 之所以重要，是因為它是一種多模式架構，研究人員將其稱為“ ……邁向 Pathways 願景的重要一步…… ”

研究人員將 LIMoE 描述為一個“步驟”，因為還有更多工作要做，其中包括探索這種方法如何與圖像和文本之外的模式一起工作。

這篇研究論文和隨附的摘要文章展示了 Google 的 AI 研究的發展方向以及它是如何實現的。

引文

閱讀 Google 關於 LIMoE 的摘要文章

LIMoE：使用一個稀疏的專家混合模型學習多種模式

下載並閱讀 LIMoE 研究論文

LIMoE 的多模式對比學習：專家的語言-圖像混合 (PDF)

圖片來源：Shutterstock/SvetaZi