🖥️ IT, 컴퓨터/📁 데이터 분석

[데이터 분석] 코딩 없는 뉴스기사 빅데이터 시각화 툴 : 빅카인즈

김 홍시 2024. 7. 24.
반응형

안녕하세요, 오늘은 트렌드나 사건 사고 등을 뉴스기사를 이용해 파악 및 분석해야 하는 대학생, 대학원생, 직장인들에게 유용한 툴을 소개하려고 합니다.

이 툴은 논문을 통해 알게 되었는데요, 코딩을 할 필요 없이 특정 키워드로 검색한 기사들을 분석하고, 시각화 결과도 보여주는 유용한 툴입니다!

써 보니 유용하다고 느껴서 이렇게 공유해보려고 해요 :D

빅카인즈?

한국언론진흥재단에서 만든 서비스인데요,

종합일간지, 경제지, 지역일간지, 방송사 등을 포함한 국내 최대의 기사DB에 빅데이터 분석 기술을 접목한 새로운 뉴스 분석 서비스이며,

누구나 무료로 이용할 수 있는 서비스이며, 회원가입 시 분석데이터 다운로드, 관심뉴스 메일링 등 다양한 개인화 서비스를 지원합니다.

뉴스수집시스템, 분석시스템, 저장시스템 등으로 구성돼 있으며,

저장된 뉴스 분석 정보는 국민, 언론사, 학계, 스타트업 등이 활용할 수 있는 뉴스빅데이터 분석서비스 ‘빅카인즈(BIGKinds)’로 제공됩니다.

이러한 방식으로요!

하루에도 이정도의 많은 뉴스를 수집하더라구요 :O

사용 방법

1. 뉴스 검색 및 분석

홈페이지 접속 및 회원가입, 로그인

사이트에 들어가서 회원가입 후 로그인합니다.

검색 및 결과 확인

오늘 저는 "김광석 다시 그리기 길"에 대해서 알아보려고 합니다.

먼저 검색창에 "김광석 다시 그리기 길" 키워드를 입력한 후 '상세 검색'을 누릅니다.

이후 기간, 언론사 등을 검색합니다.

저는 언제 처음으로 김광석 다시 그리기 길에 대한 기사가 나왔는지 잘 모르기 때문에 이렇게 기간을 '전체'로 설정했어요.

그럼 1990년 1월 1일부터 지정됩니다.

기간 외에도 다양한 검색 조건들이 있으니 확인해보세요 :)

그런 후 '적용하기'를 누릅니다.

검색 결과는 다음과 같아요.

총 649건이 검색되었습니다.

분석 결과 및 시각화

1. 데이터 다운로드

해당 키워드가 포함된 기사들을 엑셀 파일 형태로 내려받을 수 있는데요,

여기서 일자, 언론사, 기고자, 제목, 분류, 키워드 등에 대한 정보를 추출 가능합니다.

2. 관계도 분석

 
 

기사문들과 관련된 키워드를 추출할 수 있어요. 관련도에 따라 크기나 점의 위치가 달라집니다.

기사문 개수를 가중치로 두며, 이 수치에 따라 검색 값이 달라집니다.

단, 가중치를 너무 작게 잡으면 크게 관련 없는 본질을 담지 못하는 단어들도 키워드로 뜰 수 있어요. 따라서 가중치를 적절하게 설정하는 것이 중요합니다.

사진은 각각 가중치를 순서대로 6/8/40씩 준 결과예요.

참고로 이것은 동적 시각화이기 때문에 아이콘을 막 잡아 끌면 움직여요 !

 
 

3. 키워드 트렌드

키워드 트렌드 란에서는 일별/월별/연별로 “김광석 다시 그리기 길"에 대한 기사가 몇 건씩 등록되었는지 시각화해줍니다.

최댓값은 2016년 1월의 24건이었고, 당시 김광석 20주기 기념행사로 다양한 콘서트 열렸기 때문이더라구요!

따라서 해당 키워드가 언제 핫했는지 눈으로 쉽게 알 수 있겠죠 :)

4. 연관어 분석

다음으로는 연관어 분석이에요.

막대그래프 혹은 워드클라우드로 보여줍니다.

이것 또한 가중치에 따라 결과가 다르게 나타납니다.

원래 언론에 언급된 특정 키워드를 워드클라우드로 시각화하려면

인터넷 기사 크롤링을 통해 기사문을 표의 형태로 정리함 => 키워드 등장 횟수를 추출함 => 워드클라우드 형태로 시각함

이라는 귀찮은 코딩 작업을 거쳐야 하는데, 그럴 필요 없이 간단히 이렇게 예쁘게 워드클라우드로 시각화해준다는 게 정말 마음에 들었어요 :)

5. 정보 추출

다음으로는 정보 추출입니다.

이 김광석 그리기 길이라는 것이 문화의 측면에서도 볼 수 있고, 경제적 측면에서도 볼 수 있고, 사회적 측면에서도 볼 수 있잖아요?

저는 검색 결과를 살펴보니 대부분이 문화의 측면에서 살펴본 기사더라구요..!

그래서 기사들 중에서도 경제를 다룬 기사는 없을까 싶어서 이렇게 '경제'라고 검색해보았어요.

그럼 이렇게 '경제'라는 특정 키워드를 포함하는 정보만을 추출할 수 있습니다.

사용 방법

2. 형태소 및 개체수 분석

 

이 기사문을 넣고 우선 특성 추출을 하면 아래와 같이 자주 등장하는 단어가 어떤 것인지, 비중은 얼마나 되는지 보여줍니다.

자세한 것은 아래를 참고합시다!

"""

특성값이란?

특성값 정보는 특성추출에 기반해 계산된 중요도 값입니다.

특성추출이란 뉴스에 등장하는 명사 중에서 해당 뉴스에서 중요하다고 판단하여 추출한 키워드입니다. 이 때 중요도는 ‘텍스트 랭크(Text Rank)’ 알고리즘으로 판단합니다. 텍스트 랭크 알고리즘은 단어 간 연결망을 그려서 중심이 되는 단어를 찾는 알고리즘입니다. 특정 문서에서 같이 사용된 단어들 간에 연결망을 그리고, 그 연결망에서 다른 단어들과 많이 연결될수록 중요한 단어라고 판단합니다.

빈도수 비중이란?

빈도수 비중 정보는 추출된 모든 키워드에서 해당 키워드가 차지하는 비중을 의미합니다.

즉, 모든 키워드의 빈도수의 총합을 해당 키워드의 빈도수로 나누어 100을 곱하여 구한 값입니다.

"""

또 개체명과 그에 해당하는 속성도 바로 알려줍니다.

코딩 없이 정말 많은 게 가능하네요 히히

 

또한 컴싸 하시는 분들 (컴퓨터 사인펜 아님... computer science,,,,⭐) 을 위해 이렇게 형태소 분석도 해줍니당 하하

사용 방법

3. 분석 결과 및 시각화

위에서 언급했던 엑셀 파일 내용을 붙여넣으면 해당 단어의 개체수를 세어주는 기능입니다.

엑셀파일 내 빈도수 추출을 원하는 컬럼을 선택 후 복사 - 붙여넣기 하면 됩니다.

 

이렇게 원하는 열을 선택해 오른쪽처럼 빈칸에 붙여넣었어요.

그럼 이렇게 키워드의 개수만큼 막대그래프로 표현이 됩니다.

다만 아쉬운 점은, 딱 한 번 키워드로 추출된 경우에도 모두 표시가 되는 상황이라서

버벅거리기도 하고 유의미한 인사이트를 제공하지는 못한다는 점이었어요.

최소 몇 번 이상은 나와야 그래프에 추가되도록 하는 기능이 있으면 좀 더 좋을 듯합니다.

사용 방법

4. 시각화 보고서 만들기

또 이 시각화한 내용을 저장하고 싶을 때는 '시각화 보고서 만들기' 기능을 사용합니다.

이렇게 저장해두면 나중에 언제든지 다시 볼 수 있어요.

pdf, 이미지, word 파일로도 제공하는데요, 이 파일을 내려받으면 이렇게 종합적인 시각화 자료를 받을 수 있어요.

5. 오늘의 키워드

전 특히 트렌드에 관심이 많은데요,

예전에는 포털사이트에서 제공하는 실시간 검색어 기능을 확인했다면,

이제는 이렇게 간단히 워드클라우드의 형태로 확인할 수 있더라구요 !

 

나가며

정말 정말 우연히 알게된 플랫폼인데, 너무나 활용도가 높은 거 같아 이렇게 공유해보아요 !

여러분들은 어떠셨나요?

실제로 이렇게 이 데이터들을 활용해서 기사도 많이 나오고, 심지어 논문도 많이 나오고 있는 상황이에요.

나만 알기 아까운 서비스인 거 같아요 정말 ㅎㅎ

앞으로도 이 좋은 서비스 계속 제공해주면 좋겠다는 바람을 가져봅니다!

그럼 20000

궁금해서 찾아본 빵탄의 떡상 과정,,

반응형

댓글