🖥️ IT, 컴퓨터/🐍 Python166 [Python] BeautifulSoup 라이브러리란? :: html 파싱, Selenium과의 차이 BeautifulSoup이란?BeautifulSoup은 Python을 사용하여 HTML 및 XML 문서를 쉽게 파싱(parsing)할 수 있게 해주는 라이브러리입니다. 웹 스크래핑을 할 때 자주 사용되며, 문서의 구조를 탐색하고 원하는 데이터를 추출하기 위해 HTML 요소를 검색하거나 조작할 수 있습니다.주요 특징간단한 사용법: HTML과 XML 파일을 Python 객체로 변환하여 간편하게 데이터에 접근할 수 있도록 도와줍니다.다양한 파서 지원:기본적으로 Python 표준 라이브러리의 html.parser를 사용합니다.더 빠른 파싱 속도를 원할 경우 lxml이나 html5lib를 사용할 수 있습니다.유연한 탐색 기능:태그, 속성, 텍스트 등을 기반으로 요소를 찾고 필터링할 수 있습니다.문서 복구 기능:손.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 20. [Python] Selenium 라이브러리란? :: 크롤링, 웹스크래핑 Selenium이란?Selenium은 웹 브라우저 자동화를 위한 오픈 소스 도구입니다. 주로 웹 애플리케이션 테스트를 자동화하는 데 사용되지만, 웹 스크래핑, 데이터 수집, 브라우저 상호작용 자동화와 같은 다양한 작업에도 널리 활용됩니다. Selenium은 여러 프로그래밍 언어(Python, Java, C#, Ruby 등)를 지원하며 다양한 브라우저(Chrome, Firefox, Edge, Safari 등)와 호환됩니다.Python Selenium 주요 구성 요소WebDriverSelenium에서 브라우저를 제어하기 위한 주요 도구입니다.브라우저의 동작(열기, 닫기, 페이지 이동 등)을 프로그래밍 방식으로 제어할 수 있습니다.브라우저별로 WebDriver가 다르므로, 사용하는 브라우저에 맞는 WebDri.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 20. [Python] 파이썬 BeautifulSoup 뷰티풀수프로 html 파싱해 원하는 부분 표로 만들기 :: 공차 매장명, 주소 추출 문제상황 공차 매장명, 주소를 추출하고 싶다. 해결방법공차 사이트의 매장찾기 메뉴에서매장명, 주소 정보가 있는 컨테이너를 선택한다. 이후 우클릭 > copy > copy element 복사한 것을 vscode 등에 붙여넣기 아래 html = "" 부분에 넣는다. 필자는 매장명을 '매장명'이라는 열로, 주소는 '주소'라는 열로 df 를 만들려고 한다. from bs4 import BeautifulSoupimport pandas as pd# HTML 코드html = """ 부산공항덕두점 부산광역시 강서구 공항로811번가길 7, 1층(대저2동) 서귀포신시가지점 .. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 17. [Python] geopandas이용하여 shp파일 단순화하기 :: simplify import geopandas as gpdfrom shapely.geometry import Polygon# 데이터 로드gdf = gpd.read_file("shp파일경로.shp")# 단순화 수행 (허용 오차: 0.01)gdf['geometry'] = gdf['geometry'].simplify(tolerance=0.8, preserve_topology=True)# 저장gdf.to_file("shp파일경로.shp")원하는 오차를 수치로 정하면 됨.수치가 클수록 많이 단순화됨 m라면 100까지가 적당함. 1. Tolerance 설정 기준단위: tolerance는 입력된 데이터의 좌표계 단위에 따라 다릅니다.만약 좌표계가 WGS84 (EPSG:4326)라면, 단위는 도(degree)입니다.만약 좌표계가 .. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 13. [Python] 전국 올리브영 매장 크롤링 :: 매장명, 매장주소 beautifulsoup https://www.oliveyoung.co.kr/store/store/getStoreInfoMain.do?t_page=%ED%99%88&t_click=%EC%83%81%EB%8B%A8%ED%97%A4%EB%8D%94&t_header_type=%EB%A7%A4%EC%9E%A5%EC%95%88%EB%82%B4 올리브영 온라인몰대한민국 NO.1 헬스&뷰티 스토어 OLIVEYOUNGwww.oliveyoung.co.kr위의 링크 혹은 상단 헤더의 '올영매장' 클릭 서울, 경기 등 시/도단위 입력 후 스크롤을 가장 하단까지 내린다. 충북은 충청북도로 입력, 전북은 전북특별자치도, 제주는 제주특별자치도, 세종은 세종특별자치시로 입력함혹시 매장명 내에 타지역 명이 섞일 수 있으니(경기 광주) 가능하면 '광주광역시'.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 7. [Python] 파이썬 코드로 PPT 자동으로 만들기 문제상황예쁘지 않아도 되는 PPT 만들려고 한다.하나하나 입력하기는 귀찮다. 해결방법 from pptx import Presentation# PPT 객체 생성prs = Presentation()# 슬라이드별 질문과 내용questions = ["자신의 강점과 약점을 각각 한 가지씩 설명해보세요.","하이닉스의 제품과 서비스에 대한 생각과 개선할 점이 있다면?","본인의 직업적 가치관은 무엇인가요?","이전에 맡았던 직무 중 가장 큰 성과를 거둔 경험을 소개해주세요.","하이닉스의 강점과 약점에 대해 말해보세요.","본인의 기술적 역량과 직무 관련 소프트 스킬에 대해 설명해주세요.","왜 반도체 산업에서 하이닉스를 선택했는가?","업무 중에 스트레스를 어떻게 관리하나요?",]# 슬라이드 생성 및 내용 추가f.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 4. [Python] 파이썬으로 다이소 전국 매장 주소 크롤링하기 :: Selenium 활용 스타벅스 크롤링 사례는 많았는데 다이소 크롤링 사례는 없어서 올려보는 포스팅 https://www.daiso.co.kr/cs/shop 매장검색 | 다이소꼭 필요한 생활용품처럼, 꼭 필요한 국민가게가 되겠습니다.www.daiso.co.kr다이소 > 매장검색에 가면 전국 다이소 매장 매장명과 주소 알 수 있음. 다만 아래와 같이 시/도, 시/군/구, 읍/면/동 3개의 depth를 모두 선택한 후 검색 버튼 눌러야아래와 같이 리스트가 뜸 기본 세팅은 아래 글 참고 https://kimhongsi.tistory.com/entry/Python-%EC%8A%A4%ED%83%80%EB%B2%85%EC%8A%A4-%EC%A0%84%EA%B5%AD-%EB%A7%A4%EC%9E%A5%EC%A3%BC%EC%86%8C-.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 11. 2. [Python] 스타벅스 전국 매장주소 크롤링하기 스타벅스 공식 홈피에서는 매장 정보를 제공한다. https://www.starbucks.co.kr/store/store_map.do 스타벅스 커피 코리아스타벅스 커피 코리아www.starbucks.co.kr 플로우는 아래와 같다. 먼저 시도를 고른다. 그다음 군/구를 고른다. 그러나 세종은 step 2 없이 매장정보가 나온다. 구조가 세종특별자치시만 다르기 때문에,세종 제외 전국과 세종을 나눠서 코드를 돌렸다. 세종 제외 전국 스타벅스 크롤링 코드 from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.action_chains import Act.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 10. 31. [Python] 파이썬에서 도로 shp파일을 시군별로 clip하는 반복문 사용:: 지오판다스로 clip하기 문제상황 현재 경기도 도로 shp파일이 있는데,이것을 시군별로 잘라내고 싶다. 해결방법아래의 파이썬 geopandas 코드 이용 import geopandas as gpdimport os# 도로 데이터 파일 경로road_shp_path = r"도로경로/도로.shp"road_gdf = gpd.read_file(road_shp_path)# 시군 경계 파일이 있는 폴더 경로city_folder_path = r"시군경계파일있는폴더의경로"# 시군별로 클립된 결과를 저장할 폴더 경로 (필요한 경우 새로 생성)output_folder = r"저장할폴더경로"os.makedirs(output_folder, exist_ok=True)# 도로 데이터 좌표계를 시군 경계 파일에 맞춰 변환 (EPSG:5186으로 맞춘다고 가정.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 10. 31. [Python] shp파일 내 피처를 shp 파일로 내보내기 / 전국 시군별, 시도별로 파일 만들기 :: 지오판다스 이용 문제상황 이와 같이 시/군별로 피처들이 있는데,이것을 지역별로 별도의 shp를 만들고 싶음 해결방법시군구 or 시군 등 shp파일 준비필자는 아래의 shp 파일을 사용함 https://kimhongsi.tistory.com/entry/%EA%B3%B5%EA%B0%84%EC%9E%90%EB%A3%8C-%EC%A0%84%EA%B5%AD-%EC%8B%9C%EA%B5%B0-shp%ED%8C%8C%EC%9D%BC-%EA%B5%AC-%EC%A0%9C%EC%99%B8-2024%EB%85%84-%EC%B5%9C%EC%8B%A0 [공간자료] 전국 시군 shp파일 :: 구 제외 (2024년 최신)특별시, 광역시의 자치구와 시의 일반구를 제외한 전국 시군 shp파일입니다.대구 군위군을 반영한 2024년 기준 최신 shp.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 10. 28. [Python] Mac 환경에서 Matplotlib pyplot 애플고딕 (AppleGothic)외의 다른 원하는 폰트로 바꾸기 문제상황 애플고딕이 마음에 들지 않아, Pretendard 폰트로 바꾸려고 한다.import matplotlib.pyplot as plt from matplotlib import font_manager, rc # MacOS에서 한글 폰트 설정 rc('font', family='AppleGothic') # 음수 기호(-)가 깨지는 문제 해결 plt.rcParams['axes.unicode_minus'] = False이에 이 기존 한글 깨짐 방지 코드에서 AppleGothic을 Pretendard로 바꾸려 한다. 그러나 이와같이 findfont: Font family 'Pretendard' not found. 오류가 발생한다. 그 이유는 시스템 상에 설치 되어있더라도 matplotlib 용으로 따로 설치해야.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 10. 13. [Python] matplotilb pyplot 그래프 한글, 음수 ㅁㅁㅁ로 깨져서 나올 때 해결법 문제상황 matplotilb에서 pyplot으로 그래프 그렸는데 한글과 음수가 ㅁㅁㅁ로 깨져나오는 것은 유명한 에러임 해결방법 import matplotlib.pyplot as plt from matplotlib import font_manager, rc # MacOS에서 한글 폰트 설정 rc('font', family='AppleGothic') # 음수 기호(-)가 깨지는 문제 해결 plt.rcParams['axes.unicode_minus'] = False를 추가하면 아래처럼 정상적으로 나옴 https://kimhongsi.tistory.com/m/entry/Python-Mac-%ED%99%98%EA%B2%BD%EC%97%90%EC%84%9C-Mabplotlib-pyplot-%EC%95%A0%ED%9.. 🖥️ IT, 컴퓨터/🐍 Python 2024. 10. 13. 이전 1 2 3 4 ··· 14 다음 반응형