학습 목표
토큰 예측 문제에 대해 먼저 알아보고, 트랜스포머의 핵심 메커니즘인 어텐션의 기본 개념과 작동 원리를 이해합니다.
핵심 키워드
- 토큰 예측 문제
- 어텐션(attention)
- positional encoding
학습하기
학습 목표
토큰 예측 문제에 대해 먼저 알아보고, 트랜스포머의 핵심 메커니즘인 어텐션의 기본 개념과 작동 원리를 이해합니다.
핵심 키워드
- 토큰 예측 문제
- 어텐션(attention)
- positional encoding
학습하기
학습 내용
- 트랜스포머의 핵심 메커니즘인 어텐션의 기본 개념과 작동 원리를 이해합니다.
- 포지셔널 인코딩, Scaled-dot-product Attention, 멀티헤드 어텐션과 같은 트랜스포머의 주요 구성 요소들을 학습합니다.
- 이러한 구성 요소들이 기존 모델과 어떤 차이를 만들어내는지 비교하며 탐구합니다.
<더 알아보기>
토큰(Token): 텍스트를 처리하기 위해 나눈 최소 단위입니다. 단어, 부분 단어, 또는 문자가 될 수 있습니다.
프리트레인(Pretrain): 모델을 실제 작업에 사용하기 전에 대규모 데이터로 미리 학습시키는 과정입니다.
인스트럭션 프롬프팅(Instruction Prompting): 모델에게 특정 작업을 수행하도록 지시하는 방법입니다. 명확한 지시문을 통해 원하는 출력을 얻습니다.
얼라이먼트(Alignment): 모델의 출력을 인간의 의도와 가치에 맞추는 과정입니다.
미세조정(Fine-tuning): 사전 학습된 모델을 특정 작업에 맞게 추가로 학습시키는 과정입니다.
포지셔널 인코딩(Positional Encoding): 시퀀스 내에서 각 토큰의 위치 정보를 모델에 주입하는 방법입니다. 홀수와 짝수 위치에 대해 사인과 코사인 함수를 사용하여 위치 정보를 표현합니다.
사인(Sine): 진동하는 물체의 상하 움직임을 표현할 때 사용됩니다. 예를 들어, 그네의 움직임이나 음파의 진동을 나타낼 수 있습니다.
코사인(Cosine): 원운동하는 물체의 좌우 움직임을 표현할 때 사용됩니다. 예를 들어, 회전하는 바퀴의 수평 위치 변화를 나타낼 수 있습니다.
멀티헤드 어텐션(Multi-head Attention): 여러 개의 어텐션을 병렬로 수행하여 다양한 관점에서 정보를 추출하는 메커니즘입니다.
Scaled Dot-Product Attention: 어텐션 스코어를 계산하는 방법으로, 쿼리와 키의 내적을 스케일링하여 사용합니다.
레지듀얼 커넥션(Residual Connection): 입력값을 변환된 출력에 더하는 잔여 연결 방식으로, 깊은 신경망의 학습을 돕습니다.
트랜스포즈(Transpose): 행렬의 행과 열을 바꾸는 연산을 의미합니다.
다이멘션(Dimension): 데이터의 특징을 표현하는 차원을 의미하며, 데이터셋의 특정 속성이나 특징을 나타냅니다.