목록크롤링실습 (6)
DevSSOM
특정 영화 리뷰 추출하기 리뷰를 알고 싶은 영화의 제목을 입력하면, 해당 영화의 리뷰들의 제목을 알려주는 프로그램을 제작. ["특정 영화의 리뷰 제목 1", "특정 영화의 리뷰 제목 2", "특정 영화의 리뷰 제목 3"...] 해야할 것 get_url, get_href, crawling 함수를 올바르게 구현하기 get_url : main 함수에서 입력된 영화 제목을 네이버 영화 검색창에 검색하였을 때 나오는 url을 반환해야함. get_href : get_url에서 얻은 url로 접근하였을 때, 가장 위에 존재하는 영화의 href를 반환. crawling : 이전에 구현하였던 영화 리뷰 추출 방식과 동일. 팁 get_href 함수를 구현할 때 유의할 점. - 이것은 어떤 영화의 기본 정보를 보여주는 UR..
네이버 뉴스 기사내용 추출하기 이전 글에 이어서 이번엔 기사 내용까지 추출하는 실습. 마찬가지로 네이버 뉴스 속보 페이지에서 실습을 진행. 사용 url :https://news.naver.com/main/list.nhn 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 이번에는 특정 분야를 입력받으면 해당 분야의 속보 기사들의 href를 얻고, 그 href로 각각의 기사로 접근하여 기사의 내용을 크롤링해보겠음. 출력 예시 ["특정 분야의 기사 내용 1", "특정 분야의 기사 내용 2"... ] 해야할 것 get_request, get_href, crawling 함수를 올바르게 구현하기 get_request : 문자열 형태의 분야 이름이 매개변수로 주어지면, 해당 분야의 뉴스..
네이버 뉴스 섹션들 기사 href 추출하기 네이버 뉴스 속보 페이지에는 여러 섹션이 있음. 이번엔 “정치”, “경제”, “사회”, “생활”, “세계”, “과학”으로 나뉘어진 다양한 분야의 속보 기사를 추출하는 실습. https://news.naver.com/main/list.nhn?sid1=100 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 위 url에서, sid1 부분으로 분야를 설정할 수 있음. 100 정치 103 생활 101 경제 104 세계 102 사회 105 과학 해야할 것 get_request 함수를 올바르게 구현하기. get_request 함수에 문자열 형태의 분야 이름이 들어가면, 해당 분야의 뉴스 속보 홈페이지의 GET 요청의 응답을 반환해야 함. ge..
네이트 최신뉴스 href 수집하기 웹 페이지 href 링크들을 수집하여 리스트형 변수 list_href에 담아 출력해보기. https://news.nate.com/recent?mid=n0100 전체 - 최신뉴스 : 네이트 뉴스 news.nate.com 출력 예시 [href1, href2, ----] 해야할 것 a 태그가 있는 div 태그 및 class를 찾기. find("a")["href"]로 속성값 href의 데이터를 추출. 추출한 href 문자열 앞에 "https:" 를 앞에 붙여 완벽한 링크로 만들기. import requests from bs4 import BeautifulSoup def get_href(soup) : # 각 기사에 접근할 수 있는 href를 리스트로 반환 return None d..
영화 리뷰 수집하기 영화 사이트에 있는 영화평의 제목을 수집해서 출력해보기. 사용 URL 주소 : https://movie.naver.com/movie/bi/mi/review.nhn?code=168058# 퍼스트맨 이제껏 누구도 경험하지 못한 세계에 도전한 우주비행사 닐(라이언 고슬링)은, 거대한 위험 속에서 극한... movie.naver.com 수집할 리뷰 출력 예시 후기 제목 1 후기 제목 2 팁 HTML 문서에서 원하는 태그를 정확히 추출하기 위해, find 함수를 여러 번 중첩하여 사용할 수 있음. 아래처럼 find로 찾은 결과에서 다시 find 함수로 찾는 방식. # 예시 soup.find("ul").find("li").find("div").find("span") import requests ..
네이버 헤드 뉴스 찾기 이번 실습에서는 네이버 홈페이지에서 표시되는 헤드라인 뉴스를 전부 크롤링하여 출력해보고자 함. 해야할 것에 맞춰 올바른 코드 작성하기. 위 사진의 빨간 상자 부분이 헤드 뉴스. 출력 예시는 아래처럼. [헤드뉴스1, 헤드뉴스2, 헤드뉴스3, ———] 해야할 것 주어진 코드는 main 함수와 crawling 함수가 있음. main 함수에서는 crawling 함수의 결과값을 출력. main 함수를 직접 수정하실 필요는 없음. crawling 함수를 올바르게 구현해봐. crawling 함수는 네이버 메인 페이지의 헤드 뉴스를 찾고, 그것들의 제목을 담고 있는 리스트를 반환해야 함. 팁 list.append() : 리스트의 맨 뒤에 요소를 추가하는 파이썬 메소드입니다. soup.find()..