A cadeia de pensamento do Google pode impulsionar os melhores algoritmos de hoje

Publicados: 2022-05-16

O Google anunciou uma pesquisa inovadora em Processamento de Linguagem Natural chamada Chain of Thought Prompting, que eleva o estado da arte de tecnologias avançadas como PaLM e LaMDA ao que os pesquisadores chamam de um nível notável.

O fato de que o Chain of Thought Prompting pode melhorar o PaLM e o LaMDA nessas taxas significativas é um grande problema.

LaMDA e PaLM

A pesquisa realizou experimentos usando dois modelos de linguagem, Modelo de Linguagem para Aplicações de Diálogo (LaMDA) e Modelo de Linguagem de Caminhos (PaLM).

O LaMDA é um modelo focado na conversação e pode alimentar a pesquisa baseada em diálogo e assistentes de voz e outros aplicativos de diálogo.

O PaLM é um modelo que segue o que o Google chama de arquitetura Pathways AI, onde um modelo de linguagem é treinado para aprender a resolver problemas.

Anteriormente, os modelos de aprendizado de máquina eram treinados para resolver um tipo de problema e seriam soltos essencialmente para fazer essa coisa muito bem. Mas, para fazer outra coisa, o Google teria que treinar um novo modelo.

A arquitetura Pathways AI é uma maneira de criar um modelo que pode resolver problemas que não necessariamente viu antes.

Conforme citado no explicador do Google PaLM:

“… gostaríamos de treinar um modelo que não só pode lidar com muitas tarefas separadas, mas também aproveitar e combinar suas habilidades existentes para aprender novas tarefas com mais rapidez e eficácia.”

O que faz

O trabalho de pesquisa lista três avanços importantes para o Raciocínio em Cadeia de Pensamentos:

  1. Ele permite que os modelos de linguagem quebrem problemas complexos de várias etapas em uma sequência de etapas
  2. A cadeia do processo de pensamento permite que os engenheiros espreitem o processo e, quando as coisas dão errado, isso permite que eles identifiquem onde deu errado e consertem.
  3. Pode resolver problemas de palavras matemáticas, pode realizar raciocínio de senso comum e, de acordo com o trabalho de pesquisa, pode (em princípio) resolver qualquer problema baseado em palavras que um ser humano possa.

Tarefas de raciocínio em várias etapas

A pesquisa dá um exemplo de uma tarefa de raciocínio em várias etapas em que os modelos de linguagem são testados:

“P: O refeitório tinha 23 maçãs. Se eles usaram 20 para fazer o almoço e compraram mais 6, quantas maçãs eles têm?

R: A cafeteria tinha originalmente 23 maçãs. Eles usaram 20 para fazer o almoço. Então eles tinham 23 – 20 = 3. Eles compraram mais 6 maçãs, então eles têm 3 + 6 = 9. A resposta é 9.”

O PaLM é um modelo de linguagem de última geração que faz parte da arquitetura Pathways AI. É tão avançado que pode explicar por que uma piada é engraçada.

No entanto, por mais avançado que o PaLM seja, os pesquisadores afirmam que o Chain of Thought Prompting melhora significativamente esses modelos, e é isso que torna essa nova pesquisa tão digna de nota.
O Google explica assim:

“O raciocínio em cadeia de pensamento permite que os modelos decomponham problemas complexos em etapas intermediárias que são resolvidas individualmente.

Além disso, a natureza da cadeia de pensamento baseada na linguagem a torna aplicável a qualquer tarefa que uma pessoa possa resolver por meio da linguagem.”

O trabalho de pesquisa então observa que o prompt padrão realmente não melhora quando a escala do modelo é aumentada.

No entanto, com essa nova abordagem, a escala tem um impacto positivo significativo e notável no desempenho do modelo.

Resultados

O Chain of Thought Prompting foi testado no LaMDA e no PaLM, usando dois conjuntos de dados de problemas de palavras matemáticas.

  • GSM8K
  • MultiArith

Esses conjuntos de dados são usados ​​por pesquisadores como forma de comparar resultados de problemas semelhantes para diferentes modelos de linguagem.

Abaixo estão imagens de gráficos que mostram os resultados do uso do Chain of Thought Prompting no LaMDA.

Cadeia de Prompt de Pensamento e LaMDA

Os resultados do dimensionamento do LaMDA no conjunto de dados MultiArith mostram que resultou em uma melhora modesta. Mas o LaMDA pontua significativamente mais alto quando dimensionado com o Chain of Thought Prompting.

Os resultados no conjunto de dados GSM8K mostram uma melhora modesta.

É uma história diferente com o modelo de linguagem PaLM.

Cadeia de Prompt de Pensamento e PaLM

Como pode ser visto no gráfico acima, os ganhos do dimensionamento do PaLM com o Chain of Thought Prompting são enormes e são enormes para ambos os conjuntos de dados (MultiArith e GSM8K).

Os pesquisadores consideram os resultados notáveis ​​e um novo estado da arte:

“No conjunto de dados GSM8K de problemas de palavras matemáticas, o PaLM mostra um desempenho notável quando dimensionado para parâmetros de 540B.

...combinar a cadeia de pensamento com o modelo PaLM de parâmetro 540B leva a um novo desempenho de última geração de 58%, superando o estado da arte anterior de 55% alcançado pelo ajuste fino do GPT-3 175B em um grande treinamento definir e, em seguida, classificar soluções potenciais por meio de um verificador especialmente treinado.

Além disso, o trabalho de acompanhamento na autoconsistência mostra que o desempenho da orientação da cadeia de pensamento pode ser melhorado ainda mais com a maioria dos votos de um amplo conjunto de processos de raciocínio gerados, o que resulta em 74% de precisão no GSM8K.”

Conclusões

A conclusão de um trabalho de pesquisa é uma das partes mais importantes para verificar se a pesquisa avança o estado da arte ou é um beco sem saída ou precisa de mais pesquisas.

A seção de conclusão do trabalho de pesquisa do Google tem uma nota fortemente positiva.

Ele observa:

“Nós exploramos a cadeia de pensamento como um método simples e amplamente aplicável para melhorar o raciocínio em modelos de linguagem.

Por meio de experimentos em raciocínio aritmético, simbólico e de senso comum, descobrimos que o processamento da cadeia de pensamento é uma propriedade emergente da escala do modelo que permite que modelos de linguagem suficientemente grandes executem tarefas de raciocínio que, de outra forma, têm curvas de escala planas.

Ampliar a gama de tarefas de raciocínio que os modelos de linguagem podem realizar inspirará mais trabalhos sobre abordagens de raciocínio baseadas em linguagem.”

O que isso significa é que o Chain of Thought Prompting pode ter o potencial de fornecer ao Google a capacidade de melhorar significativamente seus vários modelos de linguagem, o que, por sua vez, pode levar a melhorias significativas nos tipos de coisas que o Google pode fazer.

Citações

Leia o artigo sobre IA do Google

Modelos de linguagem executam o raciocínio via cadeia de pensamento

Baixe e leia o artigo de pesquisa

Cadeia de Prompts de Pensamento Induz o Raciocínio em Modelos de Linguagem Grandes (PDF)