🖥️ IT, 컴퓨터/📁 데이터 분석46 [데이터 분석] 코딩 없는 뉴스기사 빅데이터 시각화 툴 : 빅카인즈 안녕하세요, 오늘은 트렌드나 사건 사고 등을 뉴스기사를 이용해 파악 및 분석해야 하는 대학생, 대학원생, 직장인들에게 유용한 툴을 소개하려고 합니다.이 툴은 논문을 통해 알게 되었는데요, 코딩을 할 필요 없이 특정 키워드로 검색한 기사들을 분석하고, 시각화 결과도 보여주는 유용한 툴입니다!써 보니 유용하다고 느껴서 이렇게 공유해보려고 해요 :D빅카인즈?한국언론진흥재단에서 만든 서비스인데요, 종합일간지, 경제지, 지역일간지, 방송사 등을 포함한 국내 최대의 기사DB에 빅데이터 분석 기술을 접목한 새로운 뉴스 분석 서비스이며, 누구나 무료로 이용할 수 있는 서비스이며, 회원가입 시 분석데이터 다운로드, 관심뉴스 메일링 등 다양한 개인화 서비스를 지원합니다.뉴스수집시스템, 분석시스템, 저장시스템 등으로 구.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 7. 24. [데이터 시각화] Sankey 다이어그램이란? / 파이썬 Plotly로 그리는 코드 Sankey 다이어그램은 데이터 흐름을 시각화하는 데 사용되는 다이어그램입니다. 이 다이어그램은 특히 에너지, 자금, 물자 등의 흐름을 나타내는 데 유용하며, 각 흐름의 크기를 직관적으로 이해할 수 있도록 도와줍니다. Sankey 다이어그램은 노드(노드 사이의 점)와 링크(노드를 연결하는 화살표)로 구성되어 있으며, 링크의 두께는 흐름의 크기를 나타냅니다. 파이썬에서는 여러 라이브러리를 사용하여 Sankey 다이어그램을 만들 수 있습니다. 그 중 가장 일반적으로 사용되는 라이브러리는 plotly와 matplotlib입니다. plotly 라이브러리를 사용하여 Sankey 다이어그램을 만드는 방법을 설명하겠습니다.Plotly를 사용한 Sankey 다이어그램 만들기1. 라이브러리 설치먼저 Plotly 라이브러.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 7. 23. [빅데이터] 서울 빅데이터 캠퍼스 방문 후기, 꿀팁 필자는 서울시 빅데이터 캠퍼스 (빅캠)에 여러 차례 방문하였다. 서울빅데이터캠퍼스 위치 본원은 상암에, 분원은 성수, 양재, 서울대 등등에 위치해 있다. 참고로 서울대는 재학생만 출입 가능하더라,,, 학생증 필요함 방문 가능 시간10시 - 17시 준비물 - 분석 계획 : 노션이든 한컴 문서든, 어떤 식으로 분석할 계획인지 미리 생각해오는 것이 좋다. 어떻게 분석할지를 여기 와서 처음 생각하면 낭패다.. - 개인 노트북 : 현장에 비치된 PC는 인터넷이 되지 않음. 그리고 똥컴이기 때문에 사양이 낮고 램도 적고... 굉장히 불편함. 따라서 분석 계획을 세우거나 참고할 만한 코드가 들어있는 개인 노트북을 가져오는 것이 좋다.- 물 : 현장에 정수기가 없을 수 있으니 물, 간단한 간식은 가져오자. 방문.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 7. 10. [빅데이터] GranData : SK텔레콤, 신한카드, KCB의 데이터 협력 얼라이언스 SK의 'GranData': 데이터 협력 얼라이언스의 확장SK텔레콤, 신한카드, 코리아크레딧뷰로(KCB) 등 민간 기업들이 참여하는 데이터 협력 얼라이언스 'GranData'가 금융과 방송 분야로 사업을 확대하고 있습니다. [1] [3] [4]GranData의 주요 특징민간 기업 간 데이터 협력 얼라이언스: SK텔레콤, 신한카드, KCB 등 다양한 민간 기업들이 참여하여 데이터를 공유하고 활용하는 협력체입니다. [1] [3] [4]금융 및 방송 분야로 확대: 초기에는 통신 분야에서 시작했지만, 최근 금융과 방송 분야로 사업 영역을 확장하고 있습니다. [1] [3] [4]SK텔레콤 뉴스룸 채널: SK텔레콤은 GranData 관련 소식을 자사 뉴스룸 채널을 통해 제공하고 있습니다. [2]GranData의 미.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 6. 13. 전체 종사자 중 AI 자동화에 노출된 비율 (골드만삭스) https://www.gpters.org/c/news/3-27-ai 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 5. 26. [빅데이터] ETL (Extract, Transform, Load : 추출, 변환, 적재) ETL (Extract, Transform, Load): 데이터 처리의 핵심데이터는 현대 비즈니스의 핵심 자산입니다. 이러한 데이터를 효과적으로 관리하고 활용하기 위해서 ETL(Extract, Transform, Load) 프로세스는 필수적입니다. 이 블로그 글에서는 ETL의 개념, 중요성, 그리고 각 단계에 대해 자세히 알아보겠습니다.1. ETL이란 무엇인가?ETL은 데이터 웨어하우징 과정에서 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 세 가지 주요 단계를 의미합니다. 각 단계는 다음과 같이 정의됩니다:Extract (추출): 다양한 소스 시스템으로부터 데이터를 수집하는 과정입니다. 소스 시스템은 관계형 데이터베이스, 파일 시스템, 웹 서비스 등 다양할 수 있습니다... 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 5. 25. [NLP] 분당토큰수(tmp, token per minute)란? 분당토큰수(tmp)는 "토큰(단어) 당 분(token per minute)"의 약자로, 주로 소프트웨어 엔지니어링, 특히 자연어 처리나 데이터 분석 분야에서 사용되는 개념입니다. 이는 특정 시간 내에 처리할 수 있는 토큰(단어나 문자)의 수를 측정하는 단위로 사용되곤 합니다. 예를 들어, 자연어 처리 시스템에서 대량의 텍스트 데이터를 분석하거나 처리할 때, 이 시스템이 한 분 동안 얼마나 많은 토큰을 처리할 수 있는지를 나타내는 지표로 분당토큰수를 사용할 수 있습니다. 이를 통해 시스템의 성능을 평가하고, 시스템 간 성능 비교를 할 때도 활용됩니다. 분당토큰수를 측정하는 것은 다음과 같은 이유로 중요합니다: 성능 측정: 시스템이 얼마나 빠르게 텍스트를 처리할 수 있는지를 파악하고, 최적화할 부분을 찾아 .. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 4. 15. [AI] 자연어 처리(Natural Language Processing, NLP) 자연어 처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 해석할 수 있도록 하는 인공지능(AI) 및 컴퓨터 과학의 한 분야입니다. 이 기술은 텍스트나 음성 데이터를 분석하고 처리하여 다양한 응용 프로그램에서 사용할 수 있도록 변환하는 데 중점을 둡니다. 자연어 처리는 기본적으로 언어 데이터를 컴퓨터가 처리할 수 있는 형태로 변환하는 과정을 포함하며, 다음과 같은 다양한 하위 분야와 기술로 나눌 수 있습니다. 1. 텍스트 분석 및 이해 토큰화(Tokenization): 텍스트를 작은 단위(예: 단어, 문장)로 분리하는 과정. 형태소 분석(Morphological Analysis): 단어를 뿌리 단어(어간)와 접사(어미)로 분리하여 그 형태를 분석하는 과정... 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 4. 14. [NLP] 검색 증강생성 모델 RAG(Retrieval-Augmented Generation)란? 검색증강 생성 모델인 RAG(Retrieval-Augmented Generation)은 자연어 처리(NLP)에서의 강력한 기술 중 하나로, 특정 질문에 대한 답변을 생성할 때 관련 정보를 검색하여 그 결과를 생성 과정에 통합함으로써 더 정확하고 관련성 높은 답변을 제공할 수 있도록 설계되었습니다. RAG 모델은 크게 두 부분으로 구성됩니다: 검색 부분과 생성 부분입니다. 검색 부분: 이 부분에서 모델은 주어진 질문이나 프롬프트와 관련된 정보를 찾기 위해 대규모의 문서 데이터베이스를 검색합니다. 이 검색은 키워드 또는 더 발전된 기법을 사용하여 수행될 수 있으며, 목적은 문제에 대한 컨텍스트를 제공할 수 있는 가장 관련성 높은 문서를 찾는 것입니다. 생성 부분: 검색된 문서를 바탕으로, 생성 모델(예: T.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 4. 14. [빅데이터] 데이터 마트(Data Mart), 데이터 웨어하우스(Data Warehouse), 데이터 레이크(Data Lake) 차이 데이터 마트(Data Mart), 데이터 웨어하우스(Data Warehouse), 그리고 데이터 레이크(Data Lake)는 모두 조직에서 데이터를 저장하고 관리하기 위해 사용되는 기술 및 아키텍처입니다. 이들은 각각 다른 목적과 특성을 가지고 있으며, 데이터의 저장, 처리, 분석 방식에서 차이를 보입니다. 데이터 마트(Data Mart) 데이터 마트는 조직 내 특정 부서나 사용자 그룹의 특정 요구를 충족시키기 위해 설계된 데이터의 집합입니다. 이는 보다 작은 규모로, 특정 주제나 분야(예: 재무, 판매, 인사)에 초점을 맞추고 있습니다. 데이터 마트는 데이터 웨어하우스에서 파생된 것으로, 웨어하우스에서 추출한 데이터를 기반으로 구축될 수 있으며, 사용자가 필요한 정보에 더 빠르고 쉽게 접근할 수 있도록.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 3. 31. [빅데이터] 데이터 마트(Data Mart) 의미/개념/구축 방법 데이터 마트(Data Mart)는 특정 주제나 부서의 요구에 맞춰 설계된 데이터베이스의 한 형태입니다. 이는 조직 내의 특정 그룹이 사용하기 위해 설계되었으며, 데이터 웨어하우스의 한 부분으로 볼 수 있습니다. 데이터 마트는 데이터 웨어하우스보다 규모가 작고, 특정한 목적에 초점을 맞춘 데이터 모음을 제공하기 때문에, 사용자가 더 빠르고 쉽게 필요한 정보에 접근할 수 있도록 돕습니다. 데이터 마트 구축의 주된 목적은 데이터 웨어하우스에서 추출한 데이터를 사용해, 특정 부서나 사용자 그룹의 의사 결정 과정을 지원하는 것입니다. 데이터 마트는 다음과 같은 특징을 가지고 있습니다: 주제 중심: 데이터 마트는 특정 주제(예: 재무, 판매, 인사)에 초점을 맞춰 구성됩니다. 이를 통해 관련 있는 데이터만을 선택적.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 3. 31. [ML] 혼동 행렬(Confusion Matrix) / TP/TN/FP/FN 혼동 행렬(Confusion Matrix)은 분류 문제에서 예측값과 실제값을 비교하기 위해 사용되는 테이블입니다. 이 행렬은 모델의 성능을 이해하는 데 도움을 줍니다. 혼동 행렬은 다음과 같이 네 가지 기본 요소로 구성됩니다: 참 양성(True Positive, TP): 실제로 양성인 사례를 모델이 양성으로 정확하게 예측한 경우입니다. 참 음성(True Negative, TN): 실제로 음성인 사례를 모델이 음성으로 정확하게 예측한 경우입니다. 거짓 양성(False Positive, FP): 실제로는 음성인데 모델이 양성으로 잘못 예측한 경우입니다. 이를 '제1종 오류'라고도 합니다. 거짓 음성(False Negative, FN): 실제로는 양성인데 모델이 음성으로 잘못 예측한 경우입니다. 이를 '제2종.. 🖥️ IT, 컴퓨터/📁 데이터 분석 2024. 3. 5. 이전 1 2 3 4 다음 반응형