목록Python/크롤링 (17)
DevSSOM
Daum 증권 페이지에서 주가 크롤링 Daum 증권 페이지 http://finance.daum.net/ 에서 보여주는 인기 검색 상위 10개 기업의 결과는, 이전처럼 HTML 문서를 분석하여 크롤링하는 방식을 사용할 수 없음. 웹 페이지가 API로부터 실시간으로 변하는 주식의 정보를 주기적으로 요청하여 표시하고 있기 때문. 그래서 웹에서 요청하는 서버에 직접 요청하여 json 데이터를 얻은 후 출력해보기. API의 URL은 개발자 도구의 Network 탭에서 얻을 수 있음. 출력 예시 (1, '삼성전자', 54500) (2, '삼성중공업', 6970) ... 해야할 것 get_data 함수를 올바르게 구현하기. get_data : json 파일로부터 원하는 데이터를 추출한 리스트를 반환합니다. 팁 jso..
API Application Programming Interface의 줄임말. 어떤 프로그램과 또 다른 프로그램을 연결해주는 매개체임. 컴퓨터를 다루기 위해 마우스와 키보드를 이용하는 것처럼 API는 프로그램과 프로그램 사이를 연결해주는 역할을 함. 예를 들어, 지도 데이터를 이용해서 맛집 찾기 웹 서비스를 제작하려면 어떻게 해야할까? 보통 사람들은 지도 데이터를 애초에 가지고 있지도 않고, 지도 데이터를 수집하는 것 또한 매우 어려운 일임. 그런데, 어느 날 구글이 가지고 있던 지도 데이터를 공개했다고 가정해봐. 하지만 원본 데이터는 너무 방대하기도 하고, 호환성 등의 문제도 있어서 쉽게 사용할 수가 없어. 그래서 구글은 지도 데이터를 응용해서 사용할 수 있도록 Google Map API라는 매개체를 ..
특정 영화 리뷰 추출하기 리뷰를 알고 싶은 영화의 제목을 입력하면, 해당 영화의 리뷰들의 제목을 알려주는 프로그램을 제작. ["특정 영화의 리뷰 제목 1", "특정 영화의 리뷰 제목 2", "특정 영화의 리뷰 제목 3"...] 해야할 것 get_url, get_href, crawling 함수를 올바르게 구현하기 get_url : main 함수에서 입력된 영화 제목을 네이버 영화 검색창에 검색하였을 때 나오는 url을 반환해야함. get_href : get_url에서 얻은 url로 접근하였을 때, 가장 위에 존재하는 영화의 href를 반환. crawling : 이전에 구현하였던 영화 리뷰 추출 방식과 동일. 팁 get_href 함수를 구현할 때 유의할 점. - 이것은 어떤 영화의 기본 정보를 보여주는 UR..
네이버 뉴스 기사내용 추출하기 이전 글에 이어서 이번엔 기사 내용까지 추출하는 실습. 마찬가지로 네이버 뉴스 속보 페이지에서 실습을 진행. 사용 url :https://news.naver.com/main/list.nhn 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 이번에는 특정 분야를 입력받으면 해당 분야의 속보 기사들의 href를 얻고, 그 href로 각각의 기사로 접근하여 기사의 내용을 크롤링해보겠음. 출력 예시 ["특정 분야의 기사 내용 1", "특정 분야의 기사 내용 2"... ] 해야할 것 get_request, get_href, crawling 함수를 올바르게 구현하기 get_request : 문자열 형태의 분야 이름이 매개변수로 주어지면, 해당 분야의 뉴스..
네이버 뉴스 섹션들 기사 href 추출하기 네이버 뉴스 속보 페이지에는 여러 섹션이 있음. 이번엔 “정치”, “경제”, “사회”, “생활”, “세계”, “과학”으로 나뉘어진 다양한 분야의 속보 기사를 추출하는 실습. https://news.naver.com/main/list.nhn?sid1=100 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 위 url에서, sid1 부분으로 분야를 설정할 수 있음. 100 정치 103 생활 101 경제 104 세계 102 사회 105 과학 해야할 것 get_request 함수를 올바르게 구현하기. get_request 함수에 문자열 형태의 분야 이름이 들어가면, 해당 분야의 뉴스 속보 홈페이지의 GET 요청의 응답을 반환해야 함. ge..
뉴스기사 목록의 내용 수집하기 수집하는 페이지에 연동되어 있는 href를 추출하여 href 주소에 있는 내용을 크롤링해보기. 이전의 실습들은 언론 기사의 href만 크롤링했다면, 이번에는 각 기사의 내용까지 수집하는 것까지 실습. 사용 url : https://news.sbs.co.kr/news/newsflash.do?plink=GNB&cooper=SBSNEWS SBS 뉴스 최신/속보 대한민국 뉴스의 기준, 중심을 지키는 저널리즘 SBS뉴스 - 시청자의 눈높이에 맞는, 더욱 품격 있는 뉴스를 제공합니다. news.sbs.co.kr 출력 예시 [“href로 연결된 기사 내용1”, “href로 연결된 기사 내용2”, ——] 해야할 것 각 기사의 href를 리스트로 반환하는 get_href 함수를 올바르게 구..
네이트 최신뉴스 href 수집하기 웹 페이지 href 링크들을 수집하여 리스트형 변수 list_href에 담아 출력해보기. https://news.nate.com/recent?mid=n0100 전체 - 최신뉴스 : 네이트 뉴스 news.nate.com 출력 예시 [href1, href2, ----] 해야할 것 a 태그가 있는 div 태그 및 class를 찾기. find("a")["href"]로 속성값 href의 데이터를 추출. 추출한 href 문자열 앞에 "https:" 를 앞에 붙여 완벽한 링크로 만들기. import requests from bs4 import BeautifulSoup def get_href(soup) : # 각 기사에 접근할 수 있는 href를 리스트로 반환 return None d..
뉴스 기사의 href 수집하기 이전 실습에서 진행된 페이지가 1,2,3 — 으로 구성된 웹 사이트 형태도 있지만, 단일 페이지에 여러 가지 링크가 있는 경우가 있음. 스포츠동아 뉴스에서는 기사를 클릭하면 해당 기사를 볼 수 있는 url로 이동할 수 있는데, 이런 url로 이동하는 링크들을 수집해보기. https://sports.donga.com/ent?p=1&c=02 스포츠동아 스포츠동아는 정보와 재미를 함께 즐길 수 있는 신문을 지향하고, 새로운 사회 트렌드와 독자의 목소리를 반영해 신속하고 정확한 뉴스를 전달합니다. sports.donga.com HTML 태그 중, 연동된 href를 수집하여 리스트형 변수 list_href에 담아 출력하는 실습임. get_href는 soup 객체를 받아서, 뉴스 기사..