🖥️ IT, 컴퓨터/📁 데이터 분석42 전체 종사자 중 AI 자동화에 노출된 비율 (골드만삭스) https://www.gpters.org/c/news/3-27-ai 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 5. 26. [빅데이터] ETL (Extract, Transform, Load : 추출, 변환, 적재) ETL (Extract, Transform, Load): 데이터 처리의 핵심데이터는 현대 비즈니스의 핵심 자산입니다. 이러한 데이터를 효과적으로 관리하고 활용하기 위해서 ETL(Extract, Transform, Load) 프로세스는 필수적입니다. 이 블로그 글에서는 ETL의 개념, 중요성, 그리고 각 단계에 대해 자세히 알아보겠습니다.1. ETL이란 무엇인가?ETL은 데이터 웨어하우징 과정에서 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 세 가지 주요 단계를 의미합니다. 각 단계는 다음과 같이 정의됩니다:Extract (추출): 다양한 소스 시스템으로부터 데이터를 수집하는 과정입니다. 소스 시스템은 관계형 데이터베이스, 파일 시스템, 웹 서비스 등 다양할 수 있습니다... 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 5. 25. [NLP] 분당토큰수(tmp, token per minute)란? 분당토큰수(tmp)는 "토큰(단어) 당 분(token per minute)"의 약자로, 주로 소프트웨어 엔지니어링, 특히 자연어 처리나 데이터 분석 분야에서 사용되는 개념입니다. 이는 특정 시간 내에 처리할 수 있는 토큰(단어나 문자)의 수를 측정하는 단위로 사용되곤 합니다. 예를 들어, 자연어 처리 시스템에서 대량의 텍스트 데이터를 분석하거나 처리할 때, 이 시스템이 한 분 동안 얼마나 많은 토큰을 처리할 수 있는지를 나타내는 지표로 분당토큰수를 사용할 수 있습니다. 이를 통해 시스템의 성능을 평가하고, 시스템 간 성능 비교를 할 때도 활용됩니다. 분당토큰수를 측정하는 것은 다음과 같은 이유로 중요합니다: 성능 측정: 시스템이 얼마나 빠르게 텍스트를 처리할 수 있는지를 파악하고, 최적화할 부분을 찾아 .. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 4. 15. [AI] 자연어 처리(Natural Language Processing, NLP) 자연어 처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 해석할 수 있도록 하는 인공지능(AI) 및 컴퓨터 과학의 한 분야입니다. 이 기술은 텍스트나 음성 데이터를 분석하고 처리하여 다양한 응용 프로그램에서 사용할 수 있도록 변환하는 데 중점을 둡니다. 자연어 처리는 기본적으로 언어 데이터를 컴퓨터가 처리할 수 있는 형태로 변환하는 과정을 포함하며, 다음과 같은 다양한 하위 분야와 기술로 나눌 수 있습니다. 1. 텍스트 분석 및 이해 토큰화(Tokenization): 텍스트를 작은 단위(예: 단어, 문장)로 분리하는 과정. 형태소 분석(Morphological Analysis): 단어를 뿌리 단어(어간)와 접사(어미)로 분리하여 그 형태를 분석하는 과정... 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 4. 14. [NLP] 검색 증강생성 모델 RAG(Retrieval-Augmented Generation)란? 검색증강 생성 모델인 RAG(Retrieval-Augmented Generation)은 자연어 처리(NLP)에서의 강력한 기술 중 하나로, 특정 질문에 대한 답변을 생성할 때 관련 정보를 검색하여 그 결과를 생성 과정에 통합함으로써 더 정확하고 관련성 높은 답변을 제공할 수 있도록 설계되었습니다. RAG 모델은 크게 두 부분으로 구성됩니다: 검색 부분과 생성 부분입니다. 검색 부분: 이 부분에서 모델은 주어진 질문이나 프롬프트와 관련된 정보를 찾기 위해 대규모의 문서 데이터베이스를 검색합니다. 이 검색은 키워드 또는 더 발전된 기법을 사용하여 수행될 수 있으며, 목적은 문제에 대한 컨텍스트를 제공할 수 있는 가장 관련성 높은 문서를 찾는 것입니다. 생성 부분: 검색된 문서를 바탕으로, 생성 모델(예: T.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 4. 14. [빅데이터] 데이터 마트(Data Mart), 데이터 웨어하우스(Data Warehouse), 데이터 레이크(Data Lake) 차이 데이터 마트(Data Mart), 데이터 웨어하우스(Data Warehouse), 그리고 데이터 레이크(Data Lake)는 모두 조직에서 데이터를 저장하고 관리하기 위해 사용되는 기술 및 아키텍처입니다. 이들은 각각 다른 목적과 특성을 가지고 있으며, 데이터의 저장, 처리, 분석 방식에서 차이를 보입니다. 데이터 마트(Data Mart) 데이터 마트는 조직 내 특정 부서나 사용자 그룹의 특정 요구를 충족시키기 위해 설계된 데이터의 집합입니다. 이는 보다 작은 규모로, 특정 주제나 분야(예: 재무, 판매, 인사)에 초점을 맞추고 있습니다. 데이터 마트는 데이터 웨어하우스에서 파생된 것으로, 웨어하우스에서 추출한 데이터를 기반으로 구축될 수 있으며, 사용자가 필요한 정보에 더 빠르고 쉽게 접근할 수 있도록.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 3. 31. [빅데이터] 데이터 마트(Data Mart) 의미/개념/구축 방법 데이터 마트(Data Mart)는 특정 주제나 부서의 요구에 맞춰 설계된 데이터베이스의 한 형태입니다. 이는 조직 내의 특정 그룹이 사용하기 위해 설계되었으며, 데이터 웨어하우스의 한 부분으로 볼 수 있습니다. 데이터 마트는 데이터 웨어하우스보다 규모가 작고, 특정한 목적에 초점을 맞춘 데이터 모음을 제공하기 때문에, 사용자가 더 빠르고 쉽게 필요한 정보에 접근할 수 있도록 돕습니다. 데이터 마트 구축의 주된 목적은 데이터 웨어하우스에서 추출한 데이터를 사용해, 특정 부서나 사용자 그룹의 의사 결정 과정을 지원하는 것입니다. 데이터 마트는 다음과 같은 특징을 가지고 있습니다: 주제 중심: 데이터 마트는 특정 주제(예: 재무, 판매, 인사)에 초점을 맞춰 구성됩니다. 이를 통해 관련 있는 데이터만을 선택적.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 3. 31. [ML] 혼동 행렬(Confusion Matrix) / TP/TN/FP/FN 혼동 행렬(Confusion Matrix)은 분류 문제에서 예측값과 실제값을 비교하기 위해 사용되는 테이블입니다. 이 행렬은 모델의 성능을 이해하는 데 도움을 줍니다. 혼동 행렬은 다음과 같이 네 가지 기본 요소로 구성됩니다: 참 양성(True Positive, TP): 실제로 양성인 사례를 모델이 양성으로 정확하게 예측한 경우입니다. 참 음성(True Negative, TN): 실제로 음성인 사례를 모델이 음성으로 정확하게 예측한 경우입니다. 거짓 양성(False Positive, FP): 실제로는 음성인데 모델이 양성으로 잘못 예측한 경우입니다. 이를 '제1종 오류'라고도 합니다. 거짓 음성(False Negative, FN): 실제로는 양성인데 모델이 음성으로 잘못 예측한 경우입니다. 이를 '제2종.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 3. 5. [SQL] SQL JOINS 다이어그램 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 1. 2. [SQL] 쿼리 테스트 준비 (데이터 분석 직무) SQL 쿼리 테스트를 준비하는 데 도움이 되도록 문제를 만들어 드리겠습니다. 다음은 빅쿼리를 다루는 회사에서 SQL을 사용할 수 있는 상황과 그에 대한 쿼리 및 해설입니다. 문제 세트 1 상황 인사부에서는 각 부서별 직원 수와 평균 연봉을 알고 싶어합니다. 데이터베이스에는 '직원'과 '부서' 테이블이 있으며, 직원 테이블에는 연봉 정보가 포함되어 있습니다. 쿼리 SELECT D.부서명, COUNT(E.직원ID) AS 직원수, AVG(E.연봉) AS 평균연봉 FROM 직원 E JOIN 부서 D ON E.부서ID = D.부서ID GROUP BY D.부서명; 해설 이 쿼리는 '직원' 테이블(E)과 '부서' 테이블(D)을 부서ID를 기준으로 조인합니다. GROUP BY 절을 사용하여 각 부서별로 결과를 그룹화합.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 1. 2. [SQL] 기초 쿼리 모음 빅쿼리(BigQuery)에서 자주 사용되는 SQL 쿼리를 소개해드리겠습니다. 이들은 데이터 분석, 보고 및 처리 작업에서 효과적으로 사용됩니다. SELECT 쿼리: 데이터를 검색하고 추출합니다. SELECT column1, column2 FROM `your_dataset.your_table` WHERE condition ORDER BY column1; GROUP BY 쿼리: 특정 열에 따라 데이터를 그룹화하고 집계합니다. SELECT column1, COUNT(column2) FROM `your_dataset.your_table` GROUP BY column1; JOIN 쿼리: 두 개 이상의 테이블을 조인하여 관련된 데이터를 결합합니다. SELECT a.column1, b.column2 FROM `you.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 1. 2. [SQL] 기본적인 SQL 쿼리 모음 GROUP BY 절: 데이터를 특정 열의 값에 따라 그룹화하는 데 사용됩니다. 예를 들어, SELECT column_name, COUNT(*) FROM table_name GROUP BY column_name; 명령어는 'table_name' 테이블에서 'column_name' 열로 그룹화하고, 각 그룹의 레코드 수를 계산합니다. ORDER BY 절: 조회된 데이터를 특정 열의 값에 따라 정렬하는 데 사용됩니다. 예를 들어, SELECT * FROM table_name ORDER BY column_name DESC; 명령어는 'table_name' 테이블의 데이터를 'column_name' 열의 값에 따라 내림차순으로 정렬합니다. LIMIT 절: 조회 결과의 수를 제한할 때 사용됩니다. SELECT * .. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 1. 1. 이전 1 2 3 4 다음 반응형