-
[GenAI] 프리트레이닝(Pre-training)이란, 장점, 과정, 필요성
프리트레이닝(Pre-training)이란 무엇인가?인공지능(AI) 분야에서, 특히 머신러닝과 딥러닝의 세계에서, "프리트레이닝"은 중요한 개념 중 하나입니다. 이 용어는 말 그대로 "사전 훈련"을 의미하며, 대규모 데이터셋을 사용하여 모델을 미리 훈련시키는 과정을 말합니다. 하지만 왜, 어떻게 이 과정이 필요한 걸까요? 이 글에서는 프리트레이닝의 개념을 쉽고 자세히 풀어보겠습니다.프리트레이닝의 필요성모델이 새로운 작업을 효과적으로 수행하려면, 일반적으로 방대한 양의 데이터가 필요합니다. 하지만 모든 작업에 대해 충분하고 특화된 데이터를 확보하는 것은 현실적으로 어렵습니다. 여기서 프리트레이닝이 해결책으로 등장합니다. 대규모 범용 데이터셋을 사용해 모델을 사전에 훈련시킴으로써, 모델이 다양한 패턴, 특징,..
🖥️ IT, 컴퓨터/🤖 GenAI_Tech
2024. 5. 5.
-
[GenAI] 토큰, 토크나이저란? 정의, 종류, 활용
토큰과 토크나이저란?토큰(Token) 이란 프로그래밍 언어에서 문자열을 구성하는 기본 단위입니다. 예를 들어, "나는 기술 블로거입니다"라는 문장이 있다면, 이를 "나는", "기술", "블로거입니다"와 같이 개별 단어나 구에 해당하는 토큰으로 분리할 수 있습니다. 토큰은 프로그래밍 언어 뿐만 아니라 자연어 처리에서도 중요한 역할을 합니다.토크나이저(Tokenizer) 는 이러한 토큰을 생성하는 과정이나 그 과정을 수행하는 도구를 말합니다. 즉, 텍스트를 의미있는 단위로 나누는 역할을 합니다. 토크나이저는 단순히 공백이나 특정 기호를 기준으로 텍스트를 분리하는 것에서부터, 문법적, 의미적 분석을 통해 텍스트를 분리하는 복잡한 과정까지 다양한 방식을 포함합니다.토크나이저의 종류토크나이저는 크게 두 가지 유형..
🖥️ IT, 컴퓨터/🤖 GenAI_Tech
2024. 5. 5.