Google LIMoE: un passo verso l'obiettivo di un'unica intelligenza artificiale

Pubblicato: 2022-06-18

Google ha annunciato una nuova tecnologia chiamata LIMoE che rappresenta un passo avanti verso il raggiungimento dell'obiettivo di Google di un'architettura AI chiamata Pathways.

Pathways è un'architettura di intelligenza artificiale che è un modello unico in grado di imparare a svolgere più attività attualmente eseguite utilizzando più algoritmi.

LIMoE è un acronimo che sta per Learning Multiple Modalities with One Sparse Mixture-of-Experts Model . È un modello che elabora visione e testo insieme.

Sebbene ci siano altre architetture che fanno cose simili, la svolta sta nel modo in cui il nuovo modello esegue queste attività, utilizzando una tecnica di rete neurale chiamata modello sparso.

Il modello sparso è descritto in un documento di ricerca del 2017 che ha introdotto l'approccio del livello Mixture-of-Experts (MoE), in un documento di ricerca intitolato Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.

Nel 2021 Google ha annunciato un modello MoE chiamato GLaM: Efficient Scaling of Language Models with Mixture-of-Experts che è stato addestrato solo sul testo.

La differenza con LIMoE è che funziona contemporaneamente su testo e immagini.

Il modello sparso è diverso dai modelli "densi" in quanto invece di dedicare ogni parte del modello all'esecuzione di un compito, il modello sparso assegna il compito a vari "esperti" specializzati in una parte del compito.

Ciò che fa è abbassare il costo computazionale, rendendo il modello più efficiente.

Quindi, simile a come un cervello vede un cane e sa che è un cane, che è un carlino e che il carlino mostra un mantello color fulvo argento, questo modello può anche visualizzare un'immagine e svolgere il compito in modo simile, assegnando compiti a diversi esperti specializzati nel compito di riconoscere un cane, la sua razza, il suo colore, ecc.

Il modello LIMoE indirizza i problemi agli "esperti" specializzati in un compito particolare, ottenendo risultati simili o migliori rispetto agli attuali approcci alla risoluzione dei problemi.

Una caratteristica interessante del modello è il modo in cui alcuni esperti sono specializzati principalmente nell'elaborazione di immagini, altri sono specializzati principalmente nell'elaborazione di testi e alcuni esperti sono specializzati in entrambe le cose.

La descrizione di Google di come funziona LIMoE mostra come c'è un esperto di occhi, un altro di ruote, un esperto di texture a righe, texture solide, parole, maniglie delle porte, cibo e frutta, mare e cielo e un esperto di immagini di piante.

L'annuncio sul nuovo algoritmo descrive questi esperti:

“Ci sono anche alcuni modelli qualitativi chiari tra gli esperti di immagini, ad esempio, nella maggior parte dei modelli LIMoE, c'è un esperto che elabora tutte le patch di immagini che contengono testo. …un esperto elabora la fauna e la vegetazione e un altro elabora le mani dell'uomo.

Gli esperti specializzati in diverse parti dei problemi forniscono la capacità di scalare e di eseguire con precisione molti compiti diversi ma a un costo computazionale inferiore.

Il documento di ricerca riassume i loro risultati:

“Proponiamo LIMoE, il primo mix multimodale su larga scala di modelli esperti.
Dimostriamo in dettaglio come gli approcci precedenti alla regolarizzazione della miscela di modelli di esperti non siano all'altezza dell'apprendimento multimodale e proponiamo un nuovo schema di regolarizzazione basato sull'entropia per stabilizzare la formazione.
Mostriamo che LIMoE si generalizza su scale di architettura, con miglioramenti relativi nell'accuratezza di ImageNet zero-shot che vanno dal 7% al 13% rispetto a modelli densi equivalenti.
Ridimensionato ulteriormente, LIMoE-H/14 raggiunge l'84,1% di precisione ImageNet zeroshot, paragonabile ai modelli SOTA contrastivi con dorsali per-modalità e pre-training.

Corrisponde allo stato dell'arte

Ci sono molti documenti di ricerca pubblicati ogni mese. Ma solo alcuni sono evidenziati da Google.

In genere Google mette in evidenza la ricerca perché realizza qualcosa di nuovo, oltre a raggiungere uno stato dell'arte.

LIMoE compie questa impresa di ottenere risultati paragonabili ai migliori algoritmi di oggi, ma lo fa in modo più efficiente.

I ricercatori evidenziano questo vantaggio:

“Sulla classificazione delle immagini a scatto zero, LIMoE supera sia i modelli multimodali densi comparabili che gli approcci a due torri.
Il più grande LIMoE raggiunge l'84,1% di precisione ImageNet zero-shot, paragonabile a modelli più costosi all'avanguardia.
La scarsità consente a LIMoE di espandersi con grazia e imparare a gestire input molto diversi, affrontando la tensione tra l'essere un generalista tuttofare e uno specialista maestro di uno".

I risultati positivi di LIMoE hanno portato i ricercatori a osservare che LIMoE potrebbe essere una via da seguire per realizzare un modello generalista multimodale.

I ricercatori hanno osservato:

“Riteniamo che la capacità di costruire un modello generalista con componenti specialistici, che possono decidere come dovrebbero interagire diverse modalità o attività, sarà la chiave per creare modelli multitasking veramente multimodali che eccellono in tutto ciò che fanno.
LIMoE è un promettente primo passo in quella direzione”.

Potenziali carenze, pregiudizi e altri problemi etici

Ci sono carenze in questa architettura che non sono discusse nell'annuncio di Google ma sono menzionate nel documento di ricerca stesso.

Il documento di ricerca rileva che, analogamente ad altri modelli su larga scala, LIMoE può anche introdurre distorsioni nei risultati.

I ricercatori affermano di non aver ancora affrontato “esplicitamente” i problemi inerenti ai modelli su larga scala.

Loro scrivono:

"I potenziali danni dei modelli su larga scala..., dei modelli contrastanti... e dei dati multimodali su scala web... si ripercuotono anche qui, poiché LIMoE non li affronta esplicitamente".

La dichiarazione di cui sopra fa riferimento (in un collegamento a piè di pagina) a un documento di ricerca del 2021 intitolato On the Opportunities and Risks of Foundation Models (PDF qui).

Quel documento di ricerca del 2021 avverte come le tecnologie di intelligenza artificiale emergenti possono causare un impatto sociale negativo come:

"... iniquità, uso improprio, impatto economico e ambientale, considerazioni legali ed etiche."

Secondo l'articolo citato, problemi etici possono nascere anche dalla tendenza all'omogeneizzazione dei compiti, che può quindi introdurre un punto di insuccesso che viene poi riprodotto ad altri compiti che seguono a valle.

Il documento di ricerca cautelativa afferma:

“Il significato dei modelli di fondazione può essere riassunto in due parole: emergenza e omogeneizzazione.

Emergenza significa che il comportamento di un sistema è implicitamente indotto piuttosto che costruito esplicitamente; è sia fonte di entusiasmo scientifico che di ansia per conseguenze impreviste.
L'omogeneizzazione indica il consolidamento delle metodologie per la costruzione di sistemi di apprendimento automatico in un'ampia gamma di applicazioni; fornisce una forte leva per molte attività, ma crea anche singoli punti di errore".

Un'area di cautela è nell'IA correlata alla vista.

Il documento del 2021 afferma che l'ubiquità delle telecamere significa che qualsiasi progresso nell'IA relativo alla visione potrebbe comportare un rischio concomitante per l'applicazione della tecnologia in modo imprevisto che può avere un "impatto dirompente", anche per quanto riguarda la privacy e la sorveglianza.

Un altro avvertimento relativo ai progressi nell'IA correlata alla vista riguarda i problemi di precisione e pregiudizi.

Notano:

"Esiste una storia ben documentata di bias appresi nei modelli di visione artificiale, che si traduce in una minore precisione ed errori correlati per i gruppi sottorappresentati, con conseguente distribuzione inappropriata e prematura in alcune impostazioni del mondo reale".

Il resto del documento documenta come le tecnologie di intelligenza artificiale possono apprendere i pregiudizi esistenti e perpetuare le disuguaglianze.

“I modelli di fondazione hanno il potenziale per produrre risultati iniqui: il trattamento delle persone è ingiusto, soprattutto a causa della distribuzione ineguale lungo linee che aggravano la discriminazione storica…. Come qualsiasi sistema di intelligenza artificiale, i modelli di base possono aggravare le disuguaglianze esistenti producendo risultati ingiusti, rafforzando i sistemi di potere e distribuendo in modo sproporzionato le conseguenze negative della tecnologia a coloro che sono già emarginati…”

I ricercatori del LIMoE hanno notato che questo particolare modello potrebbe essere in grado di aggirare alcuni dei pregiudizi nei confronti dei gruppi sottorappresentati a causa della natura di come gli esperti si specializzano in determinate cose.

Questo tipo di risultati negativi non sono teorie, sono realtà e hanno già avuto un impatto negativo sulla vita in applicazioni del mondo reale, come i pregiudizi razziali ingiusti introdotti dagli algoritmi di reclutamento del lavoro.

Gli autori del documento LIMoE riconoscono queste potenziali carenze in un breve paragrafo che funge da avvertimento.

Ma notano anche che potrebbe esserci la possibilità di affrontare alcuni dei pregiudizi con questo nuovo approccio.

Scrissero:

"... la capacità di scalare modelli con esperti che possono specializzarsi in profondità può comportare prestazioni migliori sui gruppi sottorappresentati".

Infine, un attributo chiave di questa nuova tecnologia che dovrebbe essere notato è che non vi è alcun uso esplicito dichiarato per essa.

È semplicemente una tecnologia in grado di elaborare immagini e testo in modo efficiente.

Il modo in cui può essere applicato, se mai viene applicato in questa forma o in una forma futura, non viene mai affrontato.

E questo è un fattore importante sollevato dal documento cautelativo ( Opportunities and Risks of Foundation Models) , che richiama l'attenzione sul fatto che i ricercatori creano capacità per l'IA senza considerare come possono essere utilizzate e l'impatto che possono avere su questioni come la privacy e sicurezza.

“I modelli di fondazione sono beni intermediari senza uno scopo specifico prima di essere adattati; comprendere i loro danni richiede ragionare sia sulle loro proprietà che sul ruolo che svolgono nella costruzione di modelli specifici per attività".

Tutti questi avvertimenti sono esclusi dall'articolo dell'annuncio di Google, ma sono citati nella versione PDF del documento di ricerca stesso.

Percorsi AI Architecture & LIMoE

Testo, immagini, dati audio sono indicati come modalità, diversi tipi di dati o specializzazione del compito, per così dire. Le modalità possono anche significare lingua parlata e simboli.

Quindi, quando vedi la frase "multimodale" o "modalità" in articoli scientifici e articoli di ricerca, in genere si parla di diversi tipi di dati.

L'obiettivo finale di Google per l'IA è ciò che chiama l'architettura di intelligenza artificiale di nuova generazione Pathways.

Pathways rappresenta un allontanamento dai modelli di apprendimento automatico che fanno una cosa davvero bene (richiedendone quindi migliaia) a un unico modello che fa tutto davvero bene.

Pathways (e LIMoE) è un approccio multimodale alla risoluzione dei problemi.

È descritto così:

“Le persone fanno affidamento su più sensi per percepire il mondo. È molto diverso dal modo in cui i sistemi di intelligenza artificiale contemporanei digeriscono le informazioni.
La maggior parte dei modelli odierni elabora solo una modalità di informazione alla volta. Possono acquisire testo, immagini o parlato, ma in genere non tutti e tre contemporaneamente.
I percorsi potrebbero abilitare modelli multimodali che comprendono contemporaneamente visione, udito e comprensione del linguaggio”.

Ciò che rende importante LIMoE è che si tratta di un'architettura multimodale che viene definita dai ricercatori un " ...passo importante verso la visione Pathways... "

I ricercatori descrivono LIMoE un " passo " perché c'è ancora molto lavoro da fare, che include esplorare come questo approccio può funzionare con modalità oltre alle semplici immagini e testo.

Questo documento di ricerca e l'articolo di riepilogo di accompagnamento mostrano in quale direzione sta andando la ricerca sull'IA di Google e come ci sta arrivando.

Citazioni

Leggi l'articolo di riepilogo di Google su LIMoE

LIMoE: apprendimento di più modalità con un modello sparso di miscugli di esperti

Scarica e leggi il documento di ricerca LIMoE

Apprendimento contrastante multimodale con LIMoE: il mix di esperti lingua-immagine (PDF)

Immagine di Shutterstock/SvetaZi