목록Python/크롤링 (17)
DevSSOM
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/1XeVh/btq8L7EafvF/0bKVIjk2N1pmNwoVe9hKoK/img.png)
Daum 증권 페이지에서 주가 크롤링 Daum 증권 페이지 http://finance.daum.net/ 에서 보여주는 인기 검색 상위 10개 기업의 결과는, 이전처럼 HTML 문서를 분석하여 크롤링하는 방식을 사용할 수 없음. 웹 페이지가 API로부터 실시간으로 변하는 주식의 정보를 주기적으로 요청하여 표시하고 있기 때문. 그래서 웹에서 요청하는 서버에 직접 요청하여 json 데이터를 얻은 후 출력해보기. API의 URL은 개발자 도구의 Network 탭에서 얻을 수 있음. 출력 예시 (1, '삼성전자', 54500) (2, '삼성중공업', 6970) ... 해야할 것 get_data 함수를 올바르게 구현하기. get_data : json 파일로부터 원하는 데이터를 추출한 리스트를 반환합니다. 팁 jso..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/exo1P6/btq8Blpj60a/SMktpG339CNqFKEZo5L8qK/img.png)
API Application Programming Interface의 줄임말. 어떤 프로그램과 또 다른 프로그램을 연결해주는 매개체임. 컴퓨터를 다루기 위해 마우스와 키보드를 이용하는 것처럼 API는 프로그램과 프로그램 사이를 연결해주는 역할을 함. 예를 들어, 지도 데이터를 이용해서 맛집 찾기 웹 서비스를 제작하려면 어떻게 해야할까? 보통 사람들은 지도 데이터를 애초에 가지고 있지도 않고, 지도 데이터를 수집하는 것 또한 매우 어려운 일임. 그런데, 어느 날 구글이 가지고 있던 지도 데이터를 공개했다고 가정해봐. 하지만 원본 데이터는 너무 방대하기도 하고, 호환성 등의 문제도 있어서 쉽게 사용할 수가 없어. 그래서 구글은 지도 데이터를 응용해서 사용할 수 있도록 Google Map API라는 매개체를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bCAZwt/btq8mlXJA0q/VlSgphPToAlwD3kOOPWfUk/img.png)
특정 영화 리뷰 추출하기 리뷰를 알고 싶은 영화의 제목을 입력하면, 해당 영화의 리뷰들의 제목을 알려주는 프로그램을 제작. ["특정 영화의 리뷰 제목 1", "특정 영화의 리뷰 제목 2", "특정 영화의 리뷰 제목 3"...] 해야할 것 get_url, get_href, crawling 함수를 올바르게 구현하기 get_url : main 함수에서 입력된 영화 제목을 네이버 영화 검색창에 검색하였을 때 나오는 url을 반환해야함. get_href : get_url에서 얻은 url로 접근하였을 때, 가장 위에 존재하는 영화의 href를 반환. crawling : 이전에 구현하였던 영화 리뷰 추출 방식과 동일. 팁 get_href 함수를 구현할 때 유의할 점. - 이것은 어떤 영화의 기본 정보를 보여주는 UR..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c4LIWF/btq7Znosd3C/eW8RtQK7LUGSgITtbMADKK/img.png)
네이버 뉴스 기사내용 추출하기 이전 글에 이어서 이번엔 기사 내용까지 추출하는 실습. 마찬가지로 네이버 뉴스 속보 페이지에서 실습을 진행. 사용 url :https://news.naver.com/main/list.nhn 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 이번에는 특정 분야를 입력받으면 해당 분야의 속보 기사들의 href를 얻고, 그 href로 각각의 기사로 접근하여 기사의 내용을 크롤링해보겠음. 출력 예시 ["특정 분야의 기사 내용 1", "특정 분야의 기사 내용 2"... ] 해야할 것 get_request, get_href, crawling 함수를 올바르게 구현하기 get_request : 문자열 형태의 분야 이름이 매개변수로 주어지면, 해당 분야의 뉴스..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bEHmik/btq705TTA8I/hpJlgisfHjdyaPzyCV9NL1/img.png)
네이버 뉴스 섹션들 기사 href 추출하기 네이버 뉴스 속보 페이지에는 여러 섹션이 있음. 이번엔 “정치”, “경제”, “사회”, “생활”, “세계”, “과학”으로 나뉘어진 다양한 분야의 속보 기사를 추출하는 실습. https://news.naver.com/main/list.nhn?sid1=100 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 위 url에서, sid1 부분으로 분야를 설정할 수 있음. 100 정치 103 생활 101 경제 104 세계 102 사회 105 과학 해야할 것 get_request 함수를 올바르게 구현하기. get_request 함수에 문자열 형태의 분야 이름이 들어가면, 해당 분야의 뉴스 속보 홈페이지의 GET 요청의 응답을 반환해야 함. ge..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cTIzOo/btq7VziigtA/zraWRzbamftvHkL7SG2F81/img.png)
뉴스기사 목록의 내용 수집하기 수집하는 페이지에 연동되어 있는 href를 추출하여 href 주소에 있는 내용을 크롤링해보기. 이전의 실습들은 언론 기사의 href만 크롤링했다면, 이번에는 각 기사의 내용까지 수집하는 것까지 실습. 사용 url : https://news.sbs.co.kr/news/newsflash.do?plink=GNB&cooper=SBSNEWS SBS 뉴스 최신/속보 대한민국 뉴스의 기준, 중심을 지키는 저널리즘 SBS뉴스 - 시청자의 눈높이에 맞는, 더욱 품격 있는 뉴스를 제공합니다. news.sbs.co.kr 출력 예시 [“href로 연결된 기사 내용1”, “href로 연결된 기사 내용2”, ——] 해야할 것 각 기사의 href를 리스트로 반환하는 get_href 함수를 올바르게 구..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/BCMRz/btq7Y33yePW/9dOTi4C3xGFjDNKni2gNC0/img.png)
네이트 최신뉴스 href 수집하기 웹 페이지 href 링크들을 수집하여 리스트형 변수 list_href에 담아 출력해보기. https://news.nate.com/recent?mid=n0100 전체 - 최신뉴스 : 네이트 뉴스 news.nate.com 출력 예시 [href1, href2, ----] 해야할 것 a 태그가 있는 div 태그 및 class를 찾기. find("a")["href"]로 속성값 href의 데이터를 추출. 추출한 href 문자열 앞에 "https:" 를 앞에 붙여 완벽한 링크로 만들기. import requests from bs4 import BeautifulSoup def get_href(soup) : # 각 기사에 접근할 수 있는 href를 리스트로 반환 return None d..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/PIM1R/btq7Vy4LSZl/RkCQkONEkAUGBzBxWg6Rv0/img.png)
뉴스 기사의 href 수집하기 이전 실습에서 진행된 페이지가 1,2,3 — 으로 구성된 웹 사이트 형태도 있지만, 단일 페이지에 여러 가지 링크가 있는 경우가 있음. 스포츠동아 뉴스에서는 기사를 클릭하면 해당 기사를 볼 수 있는 url로 이동할 수 있는데, 이런 url로 이동하는 링크들을 수집해보기. https://sports.donga.com/ent?p=1&c=02 스포츠동아 스포츠동아는 정보와 재미를 함께 즐길 수 있는 신문을 지향하고, 새로운 사회 트렌드와 독자의 목소리를 반영해 신속하고 정확한 뉴스를 전달합니다. sports.donga.com HTML 태그 중, 연동된 href를 수집하여 리스트형 변수 list_href에 담아 출력하는 실습임. get_href는 soup 객체를 받아서, 뉴스 기사..