목록beautifulsoup (13)
DevSSOM
커뮤니티 댓글 수집하기 커뮤니티 댓글을 수집하여 출력해보기. 댓글 영역의 텍스트 데이터만 출력. 사용 URL 주소 :https://pann.nate.com/talk/350939697 우리집 댕댕이 털 긴게 더 이쁘죠 ㅎㅎ pann.nate.com 출력 예시 댓글 1 댓글 2 팁 \t 문자는 탭 문자. 이번 실습에서 크롤링한 데이터를 그대로 출력하면 읽기 어려울 수 있음. replace()를 하기 전에 추출한 값을 print() 해보면 대체해야 하는 특정 값을 확인 할 수 있음. 어떤 문자열 변수 text가 있을 때, 아래처럼 작성하면 탭 문자와 개행 문자를 제거한 text 변수를 출력할 수 있음. text.replace("\t", "").replace("\n", "") import requests fro..
영화 리뷰 수집하기 영화 사이트에 있는 영화평의 제목을 수집해서 출력해보기. 사용 URL 주소 : https://movie.naver.com/movie/bi/mi/review.nhn?code=168058# 퍼스트맨 이제껏 누구도 경험하지 못한 세계에 도전한 우주비행사 닐(라이언 고슬링)은, 거대한 위험 속에서 극한... movie.naver.com 수집할 리뷰 출력 예시 후기 제목 1 후기 제목 2 팁 HTML 문서에서 원하는 태그를 정확히 추출하기 위해, find 함수를 여러 번 중첩하여 사용할 수 있음. 아래처럼 find로 찾은 결과에서 다시 find 함수로 찾는 방식. # 예시 soup.find("ul").find("li").find("div").find("span") import requests ..
bugs 실시간 음원차트 순위 추출하기 bugs 실시간 음원차트의 순위별로 곡명을 담은 리스트를 출력하기. https://music.bugs.co.kr/chart 슈퍼사운드 벅스 4천만곡 음악서비스, 슈퍼사운드, 고음질, FLAC, 최신 인기가요, 뮤직PD, 커넥트, 페이코, 추천 플레이리스트, 추천 선곡, 테마 음악 music.bugs.co.kr 출력 예시 [곡명1, 곡명2, 곡명3, ———] 팁 \n은 개행문자(줄바꿈 문자). \n을 포함한 문자열 변수 text가 있을 때, \n을 제거하기 위해서는 text.replace("\n","") 활용. str.replace("a", "b") : 문자열 str에 등장하는 "a"란 문자를 모두 "b"로 대체하는 함수 import requests from bs4 ..
연합뉴스 속보 기사 제목 추출하기 네이버 뉴스 연합뉴스 속보 페이지의 기사 제목을 출력해보기. https://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y 네이버 뉴스 다양한 기사 정보를 제공합니다. news.naver.com 출력예시 [기사제목1, 기사제목2, 기사제목3, ———] 해야할 것 crawling 함수는 네이버 뉴스 페이지의 연합뉴스 기사들을 찾고, 그것들의 제목을 담고 있는 리스트를 반환해야 함. 주어진 코드는 main 함수와 crawling 함수가 있습니다. main 함수에서는 crawling 함수의 결과값을 출력. main 함수를 직접 수정하실 필요는 없음. crawling..
크롤링이란? : 웹 페이지에서 필요한 데이터를 추출해내는 작업. 크롤링을 하는 프로그램은 크롤러라고 함. BeautifulSoup 라이브러리 : HTML, XML, JSON 등 파일의 구문을 분석하는 모듈. 웹 페이지를 표현하는 HTML을 분석하기 위해 사용함. 1. BeautifulSoup 시작하기 HTML 파일로 BeautifulSoup 객체를 만들 수 있음. 변수 이름은 관습적으로 soup이라고 지음. "html.parser"의 의미는, BeautifulSoup 객체에게 "HTML을 분석해라"라고 알려주는 것. "html.parser"는 파이썬 내장 클래스. 별도로 써주지 않으면 BeautifulSoup 객체는 자동으로 "html.parser"가 작동됨. soup = BeautifulSoup(ope..