검색에서의 머신 러닝 가이드: 주요 용어, 개념 및 알고리즘

게시 됨: 2022-05-02

기계 학습과 관련하여 검색하는 모든 사람이 알아야 하는 몇 가지 광범위한 개념과 용어가 있습니다. 우리는 모두 기계 학습이 사용되는 위치와 존재하는 다양한 유형의 기계 학습을 알고 있어야 합니다.

기계 학습이 검색에 미치는 영향, 검색 엔진이 하는 일, 직장에서 기계 학습을 인식하는 방법에 대해 더 잘 이해하려면 계속 읽으십시오. 몇 가지 정의부터 시작하겠습니다. 그런 다음 기계 학습 알고리즘과 모델에 대해 알아보겠습니다.

기계 학습 용어

다음은 몇 가지 중요한 기계 학습 용어에 대한 정의이며, 대부분은 이 기사의 어느 시점에서 논의될 것입니다. 이것은 모든 기계 학습 용어에 대한 포괄적인 용어집이 아닙니다. 당신이 그것을 원한다면 Google은 여기에서 좋은 것을 제공합니다.

알고리즘 : 출력을 생성하기 위해 데이터에서 실행되는 수학적 프로세스입니다. 다양한 기계 학습 문제에 대해 다양한 유형의 알고리즘이 있습니다.
인공 지능(AI) : 인간 지능을 복제하거나 영감을 받은 기술이나 능력을 컴퓨터에 갖추는 데 중점을 둔 컴퓨터 과학 분야.
코퍼스 (Corpus) : 작성된 텍스트의 모음입니다. 일반적으로 어떤 식으로든 조직화됩니다.
개체( Entity ) : 독특하고, 독특하고, 잘 정의되고 구별할 수 있는 사물이나 개념. 느슨하게 명사로 생각할 수 있지만 그보다 약간 더 넓습니다. 빨간색의 특정 색조는 개체가 됩니다. 그것과 똑같은 것이 없다는 점에서 독특하고 독특하며, 잘 정의되어 있으며(16진수 코드를 생각하십시오) 다른 색상과 구별할 수 있다는 점에서 구별됩니다.
기계 학습( Machine Learning ) : 작업을 수행하고 일반적으로 명시적으로 프로그래밍되지 않고 해당 작업을 수행하는 데 있어 스스로 개선하기 위한 알고리즘, 모델 및 시스템의 생성에 중점을 둔 인공 지능 분야.
모델: 모델은 종종 알고리즘과 혼동됩니다. 구분이 흐릿해질 수 있습니다(기계 학습 엔지니어가 아닌 경우). 본질적으로 차이점은 알고리즘이 단순히 출력 값을 생성하는 공식인 경우 모델은 특정 작업에 대해 훈련된 후 알고리즘이 생성한 것을 표현한다는 것입니다. 따라서 "BERT 모델"이라고 할 때 특정 NLP 작업(어떤 작업과 모델 크기에 따라 특정 BERT 모델이 결정됨)에 대해 훈련된 BERT를 의미합니다.
자연어 처리(NLP): 작업을 완료하기 위해 언어 기반 정보를 처리하는 작업 분야를 설명하는 일반적인 용어입니다.
신경망 : 뇌에서 영감을 받아 입력 레이어(신호가 입력되는 곳 - 인간의 경우 물체를 만졌을 때 뇌로 보내는 신호로 생각할 수 있음)를 포함하는 모델 아키텍처 숨겨진 레이어(입력을 조정하여 출력을 생성할 수 있는 다양한 경로 제공) 및 출력 레이어. 신호는 입력되고, 출력 레이어를 생성하기 위해 여러 다른 "경로"를 테스트하고, 더 나은 출력 조건을 향해 끌리도록 프로그래밍됩니다. 시각적으로 다음과 같이 나타낼 수 있습니다.

인공 지능 대 기계 학습: 차이점은 무엇입니까?

종종 우리는 인공 지능과 기계 학습이라는 단어가 같은 의미로 사용되는 것을 듣습니다. 그것들은 정확히 같지 않습니다.

인공 지능은 기계가 지능을 모방하도록 만드는 분야인 반면, 머신 러닝은 작업에 대해 명시적으로 프로그래밍되지 않고도 학습할 수 있는 시스템을 추구합니다.

시각적으로 다음과 같이 생각할 수 있습니다.

Google의 기계 학습 관련 알고리즘

모든 주요 검색 엔진은 한 가지 또는 여러 가지 방식으로 기계 학습을 사용합니다. 사실, 마이크로소프트는 몇 가지 중요한 돌파구를 만들고 있습니다. WebFormer와 같은 모델이 있는 Meta AI를 통해 Facebook과 같은 소셜 네트워크도 마찬가지입니다.

그러나 여기서 우리의 초점은 SEO입니다. Bing은 미국 시장 점유율이 6.61%인 검색 엔진이지만 인기 있고 중요한 검색 관련 기술을 살펴보기 때문에 이 기사에서는 이에 초점을 맞추지 않겠습니다.

Google은 많은 기계 학습 알고리즘을 사용합니다. 말 그대로 당신, 나 또는 Google 엔지니어가 모두 알 수 있는 방법은 없습니다. 게다가 많은 사람들이 단순히 이름 없는 검색 영웅이며 단순히 다른 시스템이 더 잘 작동하도록 만들기 때문에 완전히 탐색할 필요가 없습니다.

컨텍스트의 경우 여기에는 다음과 같은 알고리즘과 모델이 포함됩니다.

Google FLAN – 단순히 속도를 높이고 한 도메인에서 다른 도메인으로 학습을 이전하는 데 드는 계산 비용을 줄여줍니다. 주목할 가치: 머신 러닝에서 도메인은 웹사이트가 아니라 웹사이트가 수행하는 작업(예: 자연어 처리(NLP)의 감정 분석 또는 CV(Computer Vision)의 개체 감지)을 의미합니다.
V-MoE – 이 모델의 유일한 작업은 더 적은 리소스로 대규모 비전 모델을 교육할 수 있도록 하는 것입니다. 기술적으로 수행할 수 있는 것을 확장하여 발전을 허용하는 것은 이와 같은 개발입니다.
Sub-Pseudo Labels – 이 시스템은 비디오에서 동작 인식을 향상시켜 다양한 비디오 관련 이해 및 작업을 지원합니다.

이들 중 어느 것도 순위나 레이아웃에 직접적인 영향을 미치지 않습니다. 그러나 그것들은 구글의 성공 여부에 영향을 미칩니다.

이제 Google 순위와 관련된 핵심 알고리즘과 모델을 살펴보겠습니다.

랭크브레인

여기에서 모든 것이 시작되었으며 Google 알고리즘에 기계 학습이 도입되었습니다.

2015년에 도입된 RankBrain 알고리즘은 Google이 이전에 본 적이 없는 쿼리에 적용되었습니다(전체의 15% 차지). 2016년 6월까지 모든 쿼리를 포함하도록 확장되었습니다.

Hummingbird 및 Knowledge Graph와 같은 엄청난 발전에 이어 RankBrain은 Google이 세상을 문자열(키워드 및 단어 및 문자 집합)로 보는 것에서 사물(엔티티)로 확장하는 데 도움을 주었습니다. 예를 들어, 이 이전에 Google은 본질적으로 내가 살고 있는 도시(BC 빅토리아)를 정기적으로 함께 발생하지만 정기적으로 별도로 발생하며 서로 다른 의미를 가질 수 있지만 항상 그런 것은 아닌 두 단어로 간주합니다.

RankBrain 이후 그들은 BC주 빅토리아를 엔티티(아마도 머신 ID(/m/07ypt))로 보았으므로 "Victoria"라는 단어만 치더라도 컨텍스트를 설정할 수 있다면 동일한 엔티티로 취급할 것입니다. 빅토리아, BC.

이를 통해 그들은 단순한 키워드와 의미를 넘어 우리의 두뇌가 "본다". 결국, "내 근처의 피자"를 읽을 때 세 단어로 이해하거나 피자 머리 속에 시각적 이미지가 있고 현재 있는 위치에 대한 이해가 있습니까?

요컨대, RankBrain은 알고리즘이 키워드 대신 사물에 신호를 적용하는 데 도움이 됩니다.

버트

BERT ( T 변환기의 B 양방향 인코더 표현 ).

2019년 Google 알고리즘에 BERT 모델이 도입되면서 Google은 개념에 대한 단방향 이해에서 양방향으로 전환했습니다.

이것은 평범한 변화가 아니었다.

2018년 BERT 모델의 공개 소싱 발표에 포함된 시각적 Google은 그림을 그리는 데 도움이 됩니다.

기계 학습에서 토큰과 변환기가 작동하는 방식에 대해 자세히 설명하지 않고 여기에서 세 개의 이미지와 화살표를 보고 BERT 버전에서 각 단어가 둘 중 하나에서 정보를 얻는 방법에 대해 생각하는 것으로 충분합니다. 그 여러 단어를 포함하여 측면.

이전에 모델은 한 방향으로만 단어의 통찰력을 적용할 수 있었지만 이제는 양방향 단어를 기반으로 컨텍스트 이해를 얻습니다.

간단한 예는 "자동차는 빨간색입니다"일 수 있습니다.

BERT가 빨간색이 된 후에야 자동차의 색상으로 적절하게 이해되었습니다. 왜냐하면 그때까지는 빨간색이라는 단어가 car라는 단어 뒤에 와서 그 정보가 다시 전송되지 않았기 때문입니다.

제쳐두고, BERT로 플레이하고 싶다면 GitHub에서 다양한 모델을 사용할 수 있습니다.

람다

LaMDA는 아직 실제 배포되지 않았으며 2021년 5월 Google I/O에서 처음 발표되었습니다.

명확히 하자면 "아직 배포되지 않았습니다"라고 쓰는 것은 "내가 아는 한"을 의미합니다. 결국 우리는 RankBrain이 알고리즘에 배포된 지 몇 달 후에 알게 되었습니다. 즉, 혁명적일 것입니다.

LaMDA는 현재의 최첨단 기술을 압도하는 대화식 언어 모델입니다.

LaMDA의 초점은 기본적으로 두 가지입니다.

대화의 합리성과 구체성을 향상시킵니다. 기본적으로 채팅 응답이 합리적 이고 구체적이도록 합니다. 예를 들어, 대부분의 질문에 "모른다"라는 대답은 합리적이지만 구체적이지 않습니다. 반면에 “잘 지내세요?”와 같은 질문에 대한 대답은 즉, “나는 비오는 날 오리탕을 좋아한다. 그것은 연날리기와 매우 흡사합니다.” 매우 구체적이지만 거의 합리적이지 않습니다.
LaMDA는 두 가지 문제를 모두 해결하는 데 도움이 됩니다.
우리가 의사 소통을 할 때 선형 대화는 거의 없습니다. 토론이 어디에서 시작되고 어디에서 끝날지 생각할 때 단일 주제(예: "이번 주 트래픽이 감소한 이유는 무엇입니까?")일지라도 일반적으로 다루지 않았을 다른 주제를 다루게 됩니다. 들어갈 것이라고 예측했다.
챗봇을 사용해 본 사람은 이러한 시나리오에서 자신이 형편없다는 것을 알고 있습니다. 그들은 잘 적응하지 못하고 과거 정보를 미래로 잘 전달하지 않습니다(그 반대의 경우도 마찬가지입니다).
LaMDA는 이 문제를 추가로 해결합니다.

Google의 샘플 대화는 다음과 같습니다.

챗봇에서 기대하는 것보다 훨씬 더 잘 적응하는 것을 볼 수 있습니다.

Google 어시스턴트에서 LaMDA가 구현되는 것을 봅니다. 그러나 생각해 보면 개별 수준에서 쿼리 흐름이 작동하는 방식을 이해하는 향상된 기능은 검색 결과 레이아웃을 조정하고 사용자에게 추가 주제 및 쿼리를 표시하는 데 확실히 도움이 될 것입니다.

기본적으로 LaMDA에서 영감을 받은 기술이 채팅이 아닌 검색 영역에 침투할 것이라고 확신합니다.

켈름

위에서 RankBrain에 대해 논의할 때 머신 ID와 엔터티에 대해 다루었습니다. 2021년 5월에 발표된 KELM은 이를 완전히 새로운 차원으로 끌어 올립니다.

KELM은 검색의 편견과 유해한 정보를 줄이기 위한 노력에서 탄생했습니다. 신뢰할 수 있는 정보(위키데이터)를 기반으로 하기 때문에 이런 용도로 잘 사용할 수 있습니다.

KELM은 모델이라기보다는 데이터 세트에 가깝습니다. 기본적으로 머신러닝 모델을 위한 훈련 데이터입니다. 여기서 우리의 목적에 더 흥미로운 것은 Google이 데이터에 대해 취하는 접근 방식에 대해 알려준다는 것입니다.

간단히 말해서 구글은 트리플(주제 엔터티, 관계, 객체 엔터티(자동차, 색상, 빨강)의 집합체인 영문 위키데이터 지식 그래프를 가져와 다양한 엔터티 하위 그래프로 변환하고 구두화했습니다. 이것은 다음에서 가장 쉽게 설명됩니다. 이미지:

이 이미지에서 다음을 볼 수 있습니다.

트리플은 개별 관계를 설명합니다.
중앙 엔티티와 관련된 복수의 트리플을 매핑하는 엔티티 서브그래프.
엔터티 하위 그래프의 텍스트 버전입니다.
적절한 문장.

이것은 다른 모델이 사실을 인식하고 독성 정보를 필터링하도록 훈련하는 데 사용할 수 있습니다.

Google은 말뭉치를 오픈 소스로 제공했으며 GitHub에서 사용할 수 있습니다. 더 많은 정보가 필요한 경우 설명을 보면 작동 방식과 구조를 이해하는 데 도움이 됩니다.

침묵

MUM은 2021년 5월 Google I/O에서도 발표되었습니다.

혁신적이지만 설명하기가 매우 쉽습니다.

MUM은 M ultitask U nified M odel의 약자로 다중 모드입니다. 이는 테스트, 이미지, 비디오 등과 같은 다양한 콘텐츠 형식을 "이해"한다는 것을 의미합니다. 이를 통해 여러 양식에서 정보를 얻고 응답할 수 있는 능력을 갖게 됩니다.

제쳐두고: 이것은 MultiModel 아키텍처의 첫 번째 사용이 아닙니다. 2017년 구글에서 처음 선보였습니다.

또한 MUM은 문자열이 아닌 사물에서 작동하기 때문에 여러 언어에서 정보를 수집한 다음 사용자 고유의 답변을 제공할 수 있습니다. 이것은 특히 인터넷에서 제공되지 않는 언어를 사용하는 사람들에게 정보 접근에 있어 엄청난 개선의 문을 열어주지만, 심지어 영어 사용자에게도 직접적인 혜택을 줄 것입니다.

Google이 사용하는 예는 후지산을 오르려는 등산객입니다. 최고의 팁과 정보 중 일부는 일본어로 작성되어 사용자가 번역할 수 있다 하더라도 표면화하는 방법을 모르기 때문에 완전히 사용할 수 없습니다.

MUM에서 중요한 점은 모델이 콘텐츠를 이해할 뿐만 아니라 생성할 수 있다는 것입니다. 따라서 수동적으로 사용자를 결과로 보내는 대신 여러 소스에서 데이터 수집을 용이하게 하고 피드백(페이지, 음성 등) 자체를 제공할 수 있습니다.

이것은 또한 나를 포함하여 많은 사람들에게 이 기술의 우려되는 측면일 수 있습니다.

기계 학습이 사용되는 다른 곳

우리는 당신이 한 번쯤은 들어봤을 주요 알고리즘 중 일부에 대해서만 다루었습니다. 그러나 이것은 기계 학습이 사용되는 전체 영역과는 거리가 멉니다.

예를 들어 다음과 같이 질문할 수도 있습니다.

광고에서 자동 입찰 전략 및 광고 자동화의 이면에 있는 시스템을 구동하는 요소는 무엇입니까?
뉴스에서 시스템은 기사를 그룹화하는 방법을 어떻게 압니까?
이미지에서 시스템은 특정 개체와 개체 유형을 어떻게 식별합니까?
이메일에서 시스템은 스팸을 어떻게 필터링합니까?
번역에서 시스템 거래는 어떻게 새로운 단어와 구문을 학습합니까?
비디오에서 시스템은 다음에 추천할 비디오를 어떻게 학습합니까?

이 모든 질문과 수천 개는 아니더라도 수백 개는 모두 같은 대답을 가지고 있습니다.

기계 학습.

기계 학습 알고리즘 및 모델의 유형

이제 기계 학습 알고리즘 및 모델의 두 가지 감독 수준인 지도 학습과 비지도 학습을 살펴보겠습니다. 우리가 보고 있는 알고리즘의 유형과 알고리즘을 찾을 위치를 이해하는 것이 중요합니다.

지도 학습

간단히 말해서, 지도 학습을 통해 알고리즘은 완전히 레이블이 지정된 훈련 및 테스트 데이터로 전달됩니다.

즉, 누군가가 수천(또는 수백만)의 예제에 레이블을 지정하여 신뢰할 수 있는 데이터에 대한 모델을 훈련시키는 노력을 기울였습니다. 예를 들어, 빨간 셔츠를 입은 사람들의 x 개의 사진에서 빨간 셔츠에 라벨을 붙입니다.

지도 학습은 분류 및 회귀 문제에 유용합니다. 분류 문제는 매우 간단합니다. 어떤 것이 그룹의 일부인지 여부를 결정합니다.

쉬운 예가 Google 포토입니다.

Google은 나를 단계와 함께 분류했습니다. 그들은 이 사진들 각각에 수동으로 라벨을 붙이지 않았습니다. 그러나 모델은 단계에 대해 수동으로 레이블이 지정된 데이터에 대해 학습되었습니다. 그리고 Google 포토를 사용해 본 사람이라면 누구나 정기적으로 사진과 그 안의 인물을 확인하도록 요청한다는 것을 알고 있습니다. 우리는 수동 라벨러입니다.

ReCAPTCHA를 사용한 적이 있습니까? 당신이 무엇을하고 있는지 맞춰보세요? 좋아요. 정기적으로 기계 학습 모델 학습을 돕습니다.

반면 회귀 문제는 출력 값에 매핑해야 하는 입력 집합이 있는 문제를 처리합니다.

간단한 예는 평방 피트, 침실 수, 욕실 수, 바다로부터의 거리 등을 입력하여 주택 판매 가격을 추정하는 시스템을 생각하는 것입니다.

다양한 기능/신호를 전달한 다음 해당 엔티티(/사이트)에 값을 할당해야 하는 다른 시스템을 생각할 수 있습니까?

확실히 더 복잡하고 다양한 기능을 제공하는 방대한 개별 알고리즘을 사용하지만 회귀는 검색의 핵심 기능을 구동하는 알고리즘 유형 중 하나일 가능성이 큽니다.

나는 우리가 여기에서 반 감독 모델로 이동하고 있다고 생각합니다. 수동 레이블 지정(품질 평가자를 생각하십시오)은 일부 단계에서 수행되고 시스템 수집 신호는 사용 중인 모델을 조정하고 제작하는 데 사용되는 결과 세트로 사용자의 만족도를 결정합니다. .

비지도 학습

비지도 학습에서 시스템에는 레이블이 지정되지 않은 데이터 집합이 제공되고 이를 사용하여 수행할 작업을 스스로 결정할 수 있습니다.

최종 목표가 지정되지 않았습니다. 시스템은 유사한 항목을 함께 클러스터링하고, 이상값을 찾고, 상관 관계를 찾는 등의 작업을 수행할 수 있습니다.

비지도 학습은 데이터가 많고 어떻게 사용해야 하는지 미리 알 수 없거나 알 수 없을 때 사용됩니다.

좋은 예가 Google 뉴스일 수 있습니다.

Google은 유사한 뉴스 기사를 클러스터링하고 이전에 존재하지 않았던 뉴스 기사도 표시합니다(따라서 뉴스가 됨).

이러한 작업은 주로(배타적이지는 않지만) 감독되지 않는 모델에서 가장 잘 수행됩니다. 이전의 클러스터링 또는 표면화가 얼마나 성공 또는 실패했는지 "본" 모델은 레이블이 지정되지 않고(이전 뉴스와 같이) 결정을 내리는 현재 데이터에 이를 완전히 적용할 수 없습니다.

특히 사물이 확장됨에 따라 검색과 관련하여 머신 러닝에서 매우 중요한 영역입니다.

Google 번역이 또 다른 좋은 예입니다. 시스템이 영어의 단어 x 가 스페인어의 단어 y 와 같다는 것을 이해하도록 훈련된 기존의 일대일 번역이 아니라 둘 다의 사용 패턴을 찾아 세미를 통해 번역을 개선하는 새로운 기술입니다. -지도 학습(일부는 레이블이 지정된 데이터이고 대부분은 아님) 및 비지도 학습, 한 언어에서 완전히 알려지지 않은(시스템에 대한) 언어로 번역.

우리는 위의 MUM에서 이것을 보았지만 다른 논문에도 존재하고 모델도 잘 됩니다.

시작에 불과하다

바라건대 이것은 기계 학습과 검색에서 사용되는 방법에 대한 기준을 제공했습니다.

내 미래 기사는 기계 학습을 찾을 수 있는 방법과 위치에 관한 것이 아닙니다. 또한 더 나은 SEO를 위해 사용할 수 있는 기계 학습의 실제 응용 프로그램에 대해 자세히 알아보겠습니다. 걱정하지 마세요. 그런 경우에는 제가 코딩을 완료하고 일반적으로 따라하기 쉬운 사용하기 쉬운 Google Colab을 제공하여 몇 가지 중요한 SEO 및 비즈니스 질문에 답하는 데 도움을 드릴 것입니다.

예를 들어 직접 기계 학습 모델을 사용하여 사이트, 콘텐츠, 트래픽 등에 대한 이해를 높일 수 있습니다. 내 다음 기사는 방법을 보여줍니다. 티저: 시계열 예측.

이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 Search Engine Land는 아닙니다. 직원 저자가 여기에 나열됩니다.