목록뉴스기사수집 (2)
DevSSOM
뉴스기사 목록의 내용 수집하기 수집하는 페이지에 연동되어 있는 href를 추출하여 href 주소에 있는 내용을 크롤링해보기. 이전의 실습들은 언론 기사의 href만 크롤링했다면, 이번에는 각 기사의 내용까지 수집하는 것까지 실습. 사용 url : https://news.sbs.co.kr/news/newsflash.do?plink=GNB&cooper=SBSNEWS SBS 뉴스 최신/속보 대한민국 뉴스의 기준, 중심을 지키는 저널리즘 SBS뉴스 - 시청자의 눈높이에 맞는, 더욱 품격 있는 뉴스를 제공합니다. news.sbs.co.kr 출력 예시 [“href로 연결된 기사 내용1”, “href로 연결된 기사 내용2”, ——] 해야할 것 각 기사의 href를 리스트로 반환하는 get_href 함수를 올바르게 구..
네이트 최신뉴스 href 수집하기 웹 페이지 href 링크들을 수집하여 리스트형 변수 list_href에 담아 출력해보기. https://news.nate.com/recent?mid=n0100 전체 - 최신뉴스 : 네이트 뉴스 news.nate.com 출력 예시 [href1, href2, ----] 해야할 것 a 태그가 있는 div 태그 및 class를 찾기. find("a")["href"]로 속성값 href의 데이터를 추출. 추출한 href 문자열 앞에 "https:" 를 앞에 붙여 완벽한 링크로 만들기. import requests from bs4 import BeautifulSoup def get_href(soup) : # 각 기사에 접근할 수 있는 href를 리스트로 반환 return None d..