Google LIMoE - Un pas vers l'objectif d'une IA unique

Publié: 2022-06-18

Google a annoncé une nouvelle technologie appelée LIMoE qui, selon lui, représente une étape vers l'atteinte de l'objectif de Google d'une architecture d'IA appelée Pathways.

Pathways est une architecture d'IA qui est un modèle unique qui peut apprendre à effectuer plusieurs tâches qui sont actuellement accomplies en utilisant plusieurs algorithmes.

LIMoE est un acronyme qui signifie Learning Multiple Modalities with One Sparse Mixture-of-Experts Model . C'est un modèle qui traite la vision et le texte ensemble.

Bien qu'il existe d'autres architectures qui font des choses similaires, la percée réside dans la façon dont le nouveau modèle accomplit ces tâches, en utilisant une technique de réseau neuronal appelée modèle épars.

Le modèle clairsemé est décrit dans un document de recherche de 2017 qui a introduit l'approche de la couche Mixture-of-Experts (MoE), dans un document de recherche intitulé Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.

En 2021, Google a annoncé un modèle MoE appelé GLaM : Efficient Scaling of Language Models with Mixture-of-Experts qui a été formé uniquement sur du texte.

La différence avec LIMoE est qu'il fonctionne simultanément sur le texte et les images.

Le modèle clairsemé est différent des modèles « denses » en ce qu'au lieu de consacrer chaque partie du modèle à l'accomplissement d'une tâche, le modèle clairsemé attribue la tâche à divers « experts » qui se spécialisent dans une partie de la tâche.

Cela réduit le coût de calcul, ce qui rend le modèle plus efficace.

Ainsi, de la même manière qu'un cerveau voit un chien et sait que c'est un chien, que c'est un carlin et que le carlin affiche un pelage de couleur fauve argenté, ce modèle peut également afficher une image et accomplir la tâche de la même manière, en attribuant des calculs tâches à différents experts spécialisés dans la tâche de reconnaître un chien, sa race, sa couleur, etc.

Le modèle LIMoE achemine les problèmes vers les "experts" spécialisés dans une tâche particulière, obtenant des résultats similaires ou meilleurs que les approches actuelles de résolution de problèmes.

Une caractéristique intéressante du modèle est la façon dont certains des experts se spécialisent principalement dans le traitement des images, d'autres se spécialisent principalement dans le traitement du texte et certains experts se spécialisent dans les deux.

La description par Google du fonctionnement de LIMoE montre qu'il existe un expert des yeux, un autre des roues, un expert des textures rayées, des textures unies, des mots, des poignées de porte, de la nourriture et des fruits, de la mer et du ciel, et un expert des images de plantes.

L'annonce du nouvel algorithme décrit ces experts :

"Il existe également des modèles qualitatifs clairs parmi les experts en image - par exemple, dans la plupart des modèles LIMoE, il y a un expert qui traite tous les patchs d'image contenant du texte. … un expert traite la faune et la verdure, et un autre traite les mains humaines.

Les experts spécialisés dans différentes parties des problèmes offrent la possibilité d'évoluer et d'accomplir avec précision de nombreuses tâches différentes, mais à un coût de calcul inférieur.

Le document de recherche résume leurs conclusions :

  • « Nous proposons LIMoE, le premier mélange multimodal à grande échelle de modèles experts.
  • Nous démontrons en détail comment les approches antérieures de régularisation des modèles de mélange d'experts ne suffisent pas à l'apprentissage multimodal et proposons un nouveau schéma de régularisation basé sur l'entropie pour stabiliser la formation.
  • Nous montrons que LIMoE se généralise à toutes les échelles d'architecture, avec des améliorations relatives de la précision d'ImageNet à tir nul allant de 7 % à 13 % par rapport aux modèles denses équivalents.
  • Mis à l'échelle, LIMoE-H/14 atteint une précision ImageNet de 84,1 %, comparable aux modèles contrastifs SOTA avec des dorsales par modalité et une pré-formation. »

Correspond à l'état de l'art

De nombreux articles de recherche sont publiés chaque mois. Mais seuls quelques-uns sont mis en avant par Google.

Généralement, Google met en lumière la recherche parce qu'elle accomplit quelque chose de nouveau, en plus d'atteindre un état de l'art.

LIMoE accomplit cet exploit d'atteindre des résultats comparables aux meilleurs algorithmes d'aujourd'hui, mais le fait plus efficacement.

Les chercheurs mettent en avant cet avantage :

« En matière de classification d'images sans prise de vue, LIMoE surpasse à la fois les modèles multimodaux denses comparables et les approches à deux tours.

Le plus grand LIMoE atteint une précision ImageNet de 84,1 %, comparable à des modèles de pointe plus chers.

La parcimonie permet à LIMoE d'évoluer avec élégance et d'apprendre à gérer des intrants très différents, en abordant la tension entre être un généraliste touche-à-tout et un spécialiste maître d'un.

Les résultats positifs de LIMoE ont conduit les chercheurs à observer que LIMoE pourrait être une voie à suivre pour parvenir à un modèle généraliste multimodal.

Les chercheurs ont observé :

"Nous pensons que la capacité à construire un modèle généraliste avec des composants spécialisés, qui peuvent décider comment différentes modalités ou tâches doivent interagir, sera la clé pour créer des modèles multitâches véritablement multimodaux qui excellent dans tout ce qu'ils font.

LIMoE est un premier pas prometteur dans cette direction.

Lacunes potentielles, préjugés et autres problèmes éthiques

Il y a des lacunes dans cette architecture qui ne sont pas discutées dans l'annonce de Google mais qui sont mentionnées dans le document de recherche lui-même.

Le document de recherche note que, comme d'autres modèles à grande échelle, LIMoE peut également introduire des biais dans les résultats.

Les chercheurs précisent qu'ils n'ont pas encore abordé « explicitement » les problèmes inhérents aux modèles à grande échelle.

Ils écrivent:

"Les dommages potentiels des modèles à grande échelle…, des modèles contrastifs… et des données multimodales à l'échelle du Web… se répercutent également ici, car LIMoE ne les traite pas explicitement."

La déclaration ci-dessus fait référence (dans un lien de note de bas de page) à un document de recherche de 2021 intitulé On the Opportunities and Risks of Foundation Models (PDF ici).

Ce document de recherche de 2021 met en garde contre la façon dont les technologies émergentes d'IA peuvent avoir un impact sociétal négatif tel que :

"... iniquité, mauvaise utilisation, impact économique et environnemental, considérations juridiques et éthiques."

Selon l'article cité, des problèmes éthiques peuvent également découler de la tendance à l'homogénéisation des tâches, qui peut alors introduire un point de défaillance qui se reproduit ensuite à d'autres tâches qui suivent en aval.

Le document de recherche de mise en garde déclare:

« L'importance des modèles de fondation peut se résumer en deux mots : émergence et homogénéisation.

L'émergence signifie que le comportement d'un système est implicitement induit plutôt qu'explicitement construit ; c'est à la fois une source d'excitation scientifique et d'anxiété face à des conséquences imprévues.

L'homogénéisation indique la consolidation des méthodologies pour la construction de systèmes d'apprentissage automatique dans un large éventail d'applications ; il offre un puissant effet de levier pour de nombreuses tâches, mais crée également des points de défaillance uniques. »

Un domaine de prudence concerne l'IA liée à la vision.

L'article de 2021 indique que l'omniprésence des caméras signifie que toute avancée de l'IA liée à la vision pourrait comporter un risque concomitant pour que la technologie soit appliquée de manière imprévue, ce qui peut avoir un "impact perturbateur", notamment en ce qui concerne la confidentialité et la surveillance.

Un autre avertissement lié aux progrès de l'IA liée à la vision concerne les problèmes de précision et de biais.

Ils notent :

"Il existe une histoire bien documentée de biais appris dans les modèles de vision par ordinateur, entraînant des précisions plus faibles et des erreurs corrélées pour les groupes sous-représentés, avec par conséquent un déploiement inapproprié et prématuré dans certains contextes du monde réel."

Le reste de l'article documente comment les technologies d'IA peuvent apprendre les préjugés existants et perpétuer les inégalités.

« Les modèles de base ont le potentiel de produire des résultats inéquitables : le traitement des personnes qui est injuste, en particulier en raison d'une répartition inégale selon des lignes qui aggravent la discrimination historique…. Comme tout système d'IA, les modèles de base peuvent aggraver les inégalités existantes en produisant des résultats injustes, en enracinant les systèmes de pouvoir et en distribuant de manière disproportionnée les conséquences négatives de la technologie à ceux qui sont déjà marginalisés… »

Les chercheurs du LIMoE ont noté que ce modèle particulier pourrait être en mesure de contourner certains des préjugés contre les groupes sous-représentés en raison de la nature de la spécialisation des experts dans certaines choses.

Ces types de résultats négatifs ne sont pas des théories, ce sont des réalités et ont déjà eu un impact négatif sur des vies dans des applications réelles telles que les préjugés raciaux injustes introduits par les algorithmes de recrutement.

Les auteurs du document LIMoE reconnaissent ces lacunes potentielles dans un court paragraphe qui sert de mise en garde.

Mais ils notent également qu'il pourrait être possible de remédier à certains des biais avec cette nouvelle approche.

Ils ont écrit:

"... la capacité de mettre à l'échelle des modèles avec des experts qui peuvent se spécialiser profondément peut entraîner de meilleures performances sur les groupes sous-représentés."

Enfin, un attribut clé de cette nouvelle technologie qu'il convient de noter est qu'il n'y a pas d'utilisation explicite déclarée pour elle.

C'est simplement une technologie qui peut traiter des images et du texte de manière efficace.

Comment elle peut être appliquée, si jamais elle est appliquée sous cette forme ou une forme future, n'est jamais abordée.

Et c'est un facteur important qui est soulevé par le document de mise en garde ( Opportunities and Risks of Foundation Models) , attire l'attention sur le fait que les chercheurs créent des capacités pour l'IA sans tenir compte de la façon dont elles peuvent être utilisées et de l'impact qu'elles peuvent avoir sur des questions telles que la confidentialité et Sécurité.

« Les modèles de fondation sont des actifs intermédiaires sans finalité précise avant leur adaptation ; comprendre leurs méfaits nécessite de raisonner à la fois sur leurs propriétés et sur le rôle qu'ils jouent dans la construction de modèles spécifiques à une tâche.

Toutes ces mises en garde sont exclues de l'article d'annonce de Google, mais sont référencées dans la version PDF du document de recherche lui-même.

Architecture d'IA Pathways et LIMoE

Le texte, les images, les données audio sont appelés modalités, différents types de données ou spécialisation de tâche, pour ainsi dire. Les modalités peuvent également désigner le langage parlé et les symboles.

Ainsi, lorsque vous voyez l'expression « multimodal » ou « modalités » dans des articles scientifiques et des documents de recherche, ils parlent généralement de différents types de données.

L'objectif ultime de Google pour l'IA est ce qu'il appelle l'architecture d'IA de nouvelle génération Pathways.

Pathways représente une évolution des modèles d'apprentissage automatique qui font très bien une chose (nécessitant ainsi des milliers d'entre eux) vers un modèle unique qui fait tout très bien.

Pathways (et LIMoE) est une approche multimodale de résolution de problèmes.

C'est décrit comme ça :

« Les gens comptent sur plusieurs sens pour percevoir le monde. C'est très différent de la façon dont les systèmes d'IA contemporains digèrent l'information.

La plupart des modèles actuels traitent une seule modalité d'information à la fois. Ils peuvent prendre du texte, des images ou de la parole, mais généralement pas les trois à la fois.

Pathways pourrait permettre des modèles multimodaux qui englobent simultanément la vision, l'audition et la compréhension du langage.

Ce qui rend LIMoE important, c'est qu'il s'agit d'une architecture multimodale à laquelle les chercheurs font référence comme une « … étape importante vers la vision Pathways… »

Les chercheurs décrivent LIMoE comme une « étape » car il y a encore du travail à faire, qui comprend l'exploration de la façon dont cette approche peut fonctionner avec des modalités au-delà des images et du texte.

Ce document de recherche et l'article de synthèse qui l'accompagne montrent dans quelle direction vont les recherches sur l'IA de Google et comment elles y parviennent.


Citations

Lire l'article de synthèse de Google sur LimoE

LIMoE : apprendre plusieurs modalités avec un modèle de mélange clairsemé d'experts

Téléchargez et lisez le document de recherche LIMoE

Apprentissage contrastif multimodal avec LIMoE : le mélange langage-image d'experts (PDF)

Image de Shutterstock/SvetaZi