Google CALM: 새로운 언어 모델 기술

게시 됨: 2022-12-20

Google은 성능 수준을 저하시키지 않으면서 대규모 언어 모델(GPT-3 및 LaMDA 등)의 속도를 높이는 CALM이라는 획기적인 기술을 발표했습니다.

더 큰 교육 데이터가 더 좋지만 비용이 발생합니다.

대규모 언어 모델(LLM)은 많은 양의 데이터를 학습합니다.

더 많은 양의 데이터에서 언어 모델을 교육하면 모델이 항상 계획되지 않은 새로운 기능을 학습하게 됩니다.

예를 들어 언어 모델에 더 많은 교육 데이터를 추가하면 교육을 받지 않았음에도 불구하고 예기치 않게 다른 언어 간에 번역할 수 있는 기능을 얻게 될 수 있습니다.

이러한 새로운 능력을 창발 능력이라고 하며, 반드시 계획되지 않은 능력입니다.

창발 능력에 대한 다른 연구 논문(PDF)에서는 다음과 같이 말합니다.

"창발 능력의 예는 수십 가지가 있지만, 현재 그러한 능력이 나타나는 방식에 대한 설득력 있는 설명은 거의 없습니다."

그들은 다른 능력이 학습되는 이유를 설명할 수 없습니다.

그러나 기계를 훈련시키기 위해 데이터의 양을 늘리면 더 많은 능력을 얻을 수 있다는 것은 잘 알려져 있습니다.

훈련 데이터 확장의 단점은 출력을 생성하는 데 더 많은 계산 능력이 필요하다는 것입니다. 이로 인해 텍스트 출력을 생성하는 시점("추론 시간"이라고 하는 순간)에 AI가 느려집니다.

따라서 더 많은 데이터로 AI를 더 똑똑하게 만드는 것의 장단점은 AI도 추론 시간에 느려진다는 것입니다.

Google의 새로운 연구 논문( Confident Adaptive Language Modeling PDF)은 다음과 같은 문제를 설명합니다.

“최근 Transformer 기반 대규모 언어 모델(LLM)의 발전으로 인해 많은 작업에서 상당한 성능 향상이 이루어졌습니다.

이러한 이득은 모델 크기의 급격한 증가와 함께 제공되어 잠재적으로 추론 시간에 느리고 비용이 많이 드는 사용으로 이어집니다.”

자신감 있는 적응형 언어 모델링(CALM)

Google의 연구원들은 고성능을 유지하면서 언어 모델의 속도를 높일 수 있는 흥미로운 솔루션을 찾았습니다.

비유하자면 해결책은 쉬운 질문에 답하는 것과 더 어려운 질문을 푸는 것의 차이와 비슷합니다.

하늘이 무슨 색인지와 같은 쉬운 질문은 조금만 생각하면 대답할 수 있습니다.

그러나 어려운 답은 답을 찾기 위해 멈추고 조금 더 생각해야 합니다.

계산적으로 대규모 언어 모델은 텍스트 생성 작업의 어려운 부분과 쉬운 부분을 구분하지 않습니다.

추론 시 전체 컴퓨팅 성능을 사용하여 쉬운 부분과 어려운 부분 모두에 대한 텍스트를 생성합니다.

Google의 솔루션을 CALM(Confident Adaptive Language Modeling)이라고 합니다.

이 새로운 프레임워크가 하는 일은 텍스트 생성 작업의 사소한 부분에 더 적은 리소스를 할당하고 더 어려운 부분에 모든 권한을 할당하는 것입니다.

CALM에 대한 연구 논문에는 다음과 같은 문제와 해결책이 나와 있습니다.

“최근 Transformer 기반 대규모 언어 모델(LLM)의 발전으로 인해 많은 작업에서 상당한 성능 향상이 이루어졌습니다.

이러한 이득은 모델 크기의 급격한 증가와 함께 제공되며 잠재적으로 추론 시간에 느리고 비용이 많이 드는 사용으로 이어집니다.

그러나 실제로 LLM이 만든 일련의 세대는 다양한 수준의 난이도로 구성됩니다.

특정 예측은 모델의 전체 용량에서 실제로 이점을 얻을 수 있지만 다른 연속은 더 사소하고 컴퓨팅 감소로 해결할 수 있습니다.

…대형 모델이 일반적으로 더 잘 수행되지만 유사한 성능을 달성하기 위해 모든 입력에 대해 동일한 양의 계산이 필요하지 않을 수 있습니다(예: 입력이 쉬운지 어려운지에 따라 다름).”

Google CALM이란 무엇이며 작동합니까?

CALM은 전체 또는 일부 리소스가 필요한지 여부를 예측하는 알고리즘을 사용하여 작업의 개별 부분의 복잡성에 따라 리소스를 동적으로 할당하는 방식으로 작동합니다.

연구 논문에서는 다양한 자연어 처리 작업("텍스트 요약, 기계 번역 및 질문 답변")을 위해 새로운 시스템을 테스트했으며 추론 속도를 약 3배(300%) 높일 수 있음을 발견했다고 공유합니다. .

다음 그림은 CALM 시스템이 얼마나 잘 작동하는지 보여줍니다.

빨간색으로 표시된 몇 개의 영역은 기계가 작업의 해당 섹션에서 전체 용량을 사용해야 하는 위치를 나타냅니다.

녹색 영역은 기계가 용량의 절반 미만만 사용한 곳입니다.

빨간색 = 전체 용량/녹색 = 절반 미만 용량

구글 CALM

이것은 위의 그림에 대한 연구 논문의 내용입니다.

“CALM은 가능할 때 일찍 종료하고 소수의 토큰에 대해서만 전체 디코더의 용량을 선택적으로 사용하여 생성을 가속화합니다. 여기에는 softmax 기반 신뢰도 측정이 있는 CNN/DM 예제가 있습니다. Y(1) 조기 및 Y(2) 조기는 조기 종료에 대해 서로 다른 신뢰 임계값을 사용합니다.

텍스트 아래에 효율성 향상과 함께 두 출력 각각의 측정된 텍스트 및 위험 일관성을 보고합니다.

색상은 각 토큰에 사용되는 디코딩 레이어의 수를 나타냅니다. 밝은 녹색 음영은 전체 레이어의 절반 미만을 나타냅니다.

선택한 소수의 토큰만 모델의 전체 용량(빨간색)을 사용하는 반면 대부분의 토큰의 경우 모델은 하나 또는 몇 개의 디코딩 레이어(녹색) 후에 종료됩니다.”

연구자들은 CALM을 구현하는 데 큰 언어 모델을 더 빠르게 적용하기 위해 최소한의 수정만 필요하다는 점을 지적하면서 논문을 결론지었습니다.

이 연구는 높은 성능 수준을 유지하면서 더 느린 속도를 경험하지 않고 훨씬 더 큰 데이터 세트에서 훈련되는 더 복잡한 AI 모델을 만들 수 있는 문을 열어주기 때문에 중요합니다.

그러나 이 방법이 더 적은 데이터로 훈련된 대규모 언어 모델에도 도움이 될 수 있습니다.

예를 들어 ChatGPT가 형제 모델인 InstructGPT 모델은 약 13억 개의 매개변수에 대해 학습되지만 여전히 훨씬 더 많은 매개변수에 대해 학습된 모델을 능가할 수 있습니다.

연구원들은 결론에서 다음과 같이 언급했습니다.

"전반적으로 LM을 위한 우리의 완전한 적응형 컴퓨팅 프레임워크는 기본 모델에 대한 수정을 최소화하고 출력에 대한 엄격한 품질 보증을 충족하면서 효율성을 높일 수 있습니다."

이 연구 논문에 대한 이 정보는 2022년 12월 16일 Google의 AI 블로그에 방금 게시되었습니다. 연구 논문 자체의 날짜는 2022년 10월 25일입니다.

이 기술이 가까운 미래의 대규모 언어 모델에 적용되는지 확인하는 것은 흥미로울 것입니다.

Google의 블로그 게시물 읽기:

자신감 있는 적응형 언어 모델링(CALM)으로 텍스트 생성 가속화

연구 논문 읽기:

자신감 있는 적응형 언어 모델링(PDF)

Shutterstock/Master1305의 주요 이미지