🖥️ IT, 컴퓨터/📁 데이터 분석42 [데이터분석] Spark란? Spark란 무엇인가?Spark는 오픈 소스 분산 데이터 처리 프레임워크로, 대규모 데이터를 빠르고 효율적으로 처리할 수 있도록 설계되었습니다. 본래 AMPLab에서 개발되어 2014년 아파치 소프트웨어 재단(Apache Software Foundation)에 의해 프로젝트로 채택되었으며, 현재 데이터 분석, 머신러닝, 스트리밍 처리, 그리고 데이터 엔지니어링 작업에 널리 사용되고 있습니다. Spark의 주요 특징은 메모리 기반 처리(In-Memory Computing)로, 기존의 하둡(Hadoop)과 같은 디스크 기반 처리보다 훨씬 높은 성능을 제공합니다.Spark의 주요 구성 요소Spark는 모듈화된 설계로 다양한 데이터 처리 요구 사항을 충족시킬 수 있습니다. Spark의 주요 모듈은 다음과 같습니.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 12. 14. [데이터] 데이터 거버넌스(Data Governance)란? 데이터 거버넌스(Data Governance)는 조직이 데이터를 효과적으로 관리하고 활용하기 위해 수립하는 원칙, 정책, 절차, 기준, 역할 등을 포함하는 포괄적인 관리 체계입니다. 이는 데이터의 품질, 보안, 프라이버시, 사용 가능성, 일관성을 보장하고, 데이터가 조직의 목표를 지원하도록 하는 데 중점을 둡니다.데이터 거버넌스의 주요 목적데이터 품질 관리:데이터의 정확성, 완전성, 일관성을 유지하여 신뢰할 수 있는 데이터를 제공.데이터 보안 및 프라이버시:민감한 데이터 보호 및 관련 법률과 규정을 준수.데이터 활용성 증대:데이터를 적시에 적합한 사람이 사용할 수 있도록 관리.규제 준수:GDPR, CCPA 등 데이터 관련 법률을 준수하도록 지원.조직 내 데이터 활용 문화 구축:데이터를 비즈니스 의사결정에.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 12. 13. [데이터 분석] ad hoc 분석이란? 데이터 분석에서 "ad hoc"이라는 용어는 라틴어로 "특정 목적을 위해"라는 뜻으로, 특정한 문제나 질문에 대해 즉석에서 맞춤형으로 수행되는 분석을 의미합니다. 이는 미리 정의된 프로세스나 정형화된 보고서가 아닌, 필요에 따라 유연하게 진행되는 일회성 분석을 지칭합니다.주요 특징문제 중심:특정 문제를 해결하거나 질문에 답하기 위해 수행됩니다.예: "지난달 특정 캠페인 이후 신규 가입자의 행동 패턴은 어떻게 변했는가?"즉각성:사전에 준비된 분석 프로세스를 따르지 않고, 필요한 데이터를 바로 추출하고 분석합니다.대개 시간이 촉박하거나 긴급한 의사결정에 사용됩니다.유연성:분석 과정이 고정적이지 않고, 질문에 따라 다양한 방법론과 도구가 활용됩니다.정형화된 틀 없이 분석가의 창의성과 문제 해결 능력이 중요합니.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 12. 2. [데이터 분석] 데이터 EDA(Exploratory Data Analysis)란? 탐색적 데이터 분석 데이터 EDA(Exploratory Data Analysis)는 데이터 분석의 초기 단계에서 데이터를 탐색하고 이해하기 위해 사용하는 기법과 과정입니다. EDA는 데이터를 시각화하고 요약하여 데이터에 숨겨진 패턴, 관계, 이상치 등을 발견하고, 분석에 적합한 방향성을 설정하는 데 도움을 줍니다. 자세히 설명하자면 다음과 같은 주요 단계와 기법을 포함합니다:1. 데이터 로딩 및 구조 확인EDA의 첫 번째 단계는 데이터를 로드하고 데이터의 기본 구조를 파악하는 것입니다.기본 정보 확인:head(), tail()로 데이터 샘플 보기데이터의 행과 열 수 확인 (shape)데이터 타입 확인 (info() 또는 dtypes)결측값 확인:isnull().sum()을 사용하여 결측값이 있는 열과 개수 파악기술 통계:d.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 11. 20. [데이터 분석] 사용자 행동 분석(User Behavior Analysis)란? 사용자 행동 분석(User Behavior Analysis)란?사용자 행동 분석은 디지털 플랫폼, 웹사이트, 앱, 혹은 기타 제품에서 사용자가 보이는 행동 데이터를 수집하고 분석하여, 그들의 의도, 선호도, 문제점 등을 파악하는 과정을 의미합니다. 이를 통해 기업이나 조직은 사용자 경험을 개선하고, 제품을 최적화하며, 매출이나 고객 만족도를 높이는 데 활용할 수 있습니다.사용자 행동 분석의 주요 요소행동 데이터 유형정량적 데이터 (Quantitative Data): 클릭 수, 페이지 뷰, 세션 지속 시간, 전환율, 이탈률 등 수치로 측정 가능한 데이터.정성적 데이터 (Qualitative Data): 사용자의 피드백, 설문조사 결과, 인터뷰 내용 등 감정과 인식을 포함한 데이터.분석 대상사용자 경로 (U.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 11. 19. [데이터 분석] Cohort 분석 (코호트 분석), Funnel 분석 (퍼널 분석) 비교 Cohort 분석과 Funnel 분석은 IT 프로덕트에서 사용자의 행동을 분석하고 개선 방안을 도출하는 데 매우 유용한 데이터 분석 기법입니다. 두 기법은 각기 다른 관점에서 데이터를 살펴보며, 서로 보완적으로 활용될 수 있습니다.1. Cohort 분석 (코호트 분석)정의Cohort는 공통된 특성을 가진 사용자 집단을 의미합니다. Cohort 분석은 특정 시점이나 행동을 기준으로 그룹화된 사용자 집단의 행동 변화를 시간 경과에 따라 분석하는 기법입니다.활용 사례신규 사용자 유지율(Retention Rate) 분석사용자 이탈(Churn) 원인 파악특정 기능 도입 후 사용자 행동 변화 측정예시가입 Cohort: 사용자가 앱에 가입한 날짜(혹은 주/월) 기준으로 그룹화."1월에 가입한 사용자와 2월에 가입한 .. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 11. 19. [GIS] 카드 사용 빅데이터를 활용한 다양한 분석 사례 카드 데이터를 통해 여러 가지 분석을 수행할 수 있습니다. 데이터를 통해 얻을 수 있는 주요 인사이트와 그 분석 방향을 제시하겠습니다.1. 고객 소비 패턴 분석고객의 행정동 코드 및 격자 코드를 활용해 특정 지역에 거주하는 고객들이 자주 방문하는 타 지역의 상권을 파악할 수 있습니다. 이로써 지역 간 소비 이동을 파악하고 상권 활성화 전략에 대한 인사이트를 도출할 수 있습니다.시간대와 요일에 따른 소비 데이터를 활용해 고객 방문 시간대와 소비 활동 피크 시간대를 도출할 수 있습니다. 예를 들어, 특정 연령대나 성별이 언제 가장 많이 소비하는지 알아낼 수 있습니다.2. 상권 및 업종 선호도 분석업종(예: 패션잡화, 게임방, 편의점, 커피전문점) 별로 소비 금액과 빈도를 비교하여 고객의 선호 업종을 분석할 .. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 10. 30. [빅데이터] 이업종간 결합 데이터란? :: 개념/예시 이업종간 결합데이터는 서로 다른 업종에서 발생하는 데이터를 결합하여 새로운 인사이트나 가치를 도출하는 데이터 융합의 한 형태입니다. 기본적으로 이 데이터는 단일 업종 내의 데이터가 아닌, 전혀 다른 업종에서 발생한 데이터들을 통합하여 분석합니다. 이를 통해 개별 업종에서 얻을 수 없는 새로운 상관관계를 발견하거나, 더욱 풍부한 정보를 바탕으로 다양한 문제를 해결하는 데 활용할 수 있습니다.이업종간 결합데이터의 개념서로 다른 업종에서 발생한 데이터: 예를 들어, 한 업종에서 수집한 매출 데이터와 다른 업종에서 발생한 날씨 데이터를 결합하는 것이 이에 해당합니다. 이 두 가지 데이터는 각각의 업종에서 독립적으로는 특별한 연관이 없을 수 있지만, 결합하면 날씨가 특정 제품의 매출에 미치는 영향을 분석할 수 있.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 10. 21. [데이터 분석] 코딩 없는 뉴스기사 빅데이터 시각화 툴 : 빅카인즈 안녕하세요, 오늘은 트렌드나 사건 사고 등을 뉴스기사를 이용해 파악 및 분석해야 하는 대학생, 대학원생, 직장인들에게 유용한 툴을 소개하려고 합니다.이 툴은 논문을 통해 알게 되었는데요, 코딩을 할 필요 없이 특정 키워드로 검색한 기사들을 분석하고, 시각화 결과도 보여주는 유용한 툴입니다!써 보니 유용하다고 느껴서 이렇게 공유해보려고 해요 :D빅카인즈?한국언론진흥재단에서 만든 서비스인데요, 종합일간지, 경제지, 지역일간지, 방송사 등을 포함한 국내 최대의 기사DB에 빅데이터 분석 기술을 접목한 새로운 뉴스 분석 서비스이며, 누구나 무료로 이용할 수 있는 서비스이며, 회원가입 시 분석데이터 다운로드, 관심뉴스 메일링 등 다양한 개인화 서비스를 지원합니다.뉴스수집시스템, 분석시스템, 저장시스템 등으로 구.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 7. 24. [데이터 시각화] Sankey 다이어그램이란? / 파이썬 Plotly로 그리는 코드 Sankey 다이어그램은 데이터 흐름을 시각화하는 데 사용되는 다이어그램입니다. 이 다이어그램은 특히 에너지, 자금, 물자 등의 흐름을 나타내는 데 유용하며, 각 흐름의 크기를 직관적으로 이해할 수 있도록 도와줍니다. Sankey 다이어그램은 노드(노드 사이의 점)와 링크(노드를 연결하는 화살표)로 구성되어 있으며, 링크의 두께는 흐름의 크기를 나타냅니다. 파이썬에서는 여러 라이브러리를 사용하여 Sankey 다이어그램을 만들 수 있습니다. 그 중 가장 일반적으로 사용되는 라이브러리는 plotly와 matplotlib입니다. plotly 라이브러리를 사용하여 Sankey 다이어그램을 만드는 방법을 설명하겠습니다.Plotly를 사용한 Sankey 다이어그램 만들기1. 라이브러리 설치먼저 Plotly 라이브러.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 7. 23. [빅데이터] 서울 빅데이터 캠퍼스 방문 후기, 꿀팁 필자는 서울시 빅데이터 캠퍼스 (빅캠)에 여러 차례 방문하였다. 서울빅데이터캠퍼스 위치 본원은 상암에, 분원은 성수, 양재, 서울대 등등에 위치해 있다. 참고로 서울대는 재학생만 출입 가능하더라,,, 학생증 필요함 방문 가능 시간10시 - 17시 준비물 - 분석 계획 : 노션이든 한컴 문서든, 어떤 식으로 분석할 계획인지 미리 생각해오는 것이 좋다. 어떻게 분석할지를 여기 와서 처음 생각하면 낭패다.. - 개인 노트북 : 현장에 비치된 PC는 인터넷이 되지 않음. 그리고 똥컴이기 때문에 사양이 낮고 램도 적고... 굉장히 불편함. 따라서 분석 계획을 세우거나 참고할 만한 코드가 들어있는 개인 노트북을 가져오는 것이 좋다.- 물 : 현장에 정수기가 없을 수 있으니 물, 간단한 간식은 가져오자. 방문.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 7. 10. [빅데이터] GranData : SK텔레콤, 신한카드, KCB의 데이터 협력 얼라이언스 SK의 'GranData': 데이터 협력 얼라이언스의 확장SK텔레콤, 신한카드, 코리아크레딧뷰로(KCB) 등 민간 기업들이 참여하는 데이터 협력 얼라이언스 'GranData'가 금융과 방송 분야로 사업을 확대하고 있습니다. [1] [3] [4]GranData의 주요 특징민간 기업 간 데이터 협력 얼라이언스: SK텔레콤, 신한카드, KCB 등 다양한 민간 기업들이 참여하여 데이터를 공유하고 활용하는 협력체입니다. [1] [3] [4]금융 및 방송 분야로 확대: 초기에는 통신 분야에서 시작했지만, 최근 금융과 방송 분야로 사업 영역을 확장하고 있습니다. [1] [3] [4]SK텔레콤 뉴스룸 채널: SK텔레콤은 GranData 관련 소식을 자사 뉴스룸 채널을 통해 제공하고 있습니다. [2]GranData의 미.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 6. 13. 이전 1 2 3 4 다음 반응형