목록href (6)
DevSSOM
링크를 넣을 땐 태그 태그는 텍스트, 이미지를 클릭했을 때 다른 웹페이지로 이동시키는 기능을 갖고 있음. 참고로 a는 Anchor(닻)의 약자. 네이버 href – 연결할 웹페이지의 URL 주소. target – 웹페이지를 연결하는 방식. target="_blank"면 새 탭으로 이동시키겠다는 의미. 위의 예시는 그래서 '네이버'라는 텍스트를 클릭하게 되면, 새 탭으로 네이버가 뜨게 됨. 만약, 태그 안에 태그를 넣으면, 로고 이미지를 누르면 네이버 홈페이지로 이동하게 됨.
네이버 뉴스 섹션들 기사 href 추출하기 네이버 뉴스 속보 페이지에는 여러 섹션이 있음. 이번엔 “정치”, “경제”, “사회”, “생활”, “세계”, “과학”으로 나뉘어진 다양한 분야의 속보 기사를 추출하는 실습. https://news.naver.com/main/list.nhn?sid1=100 언론사별 속보 뉴스 언론사별 속보 뉴스를 제공합니다. news.naver.com 위 url에서, sid1 부분으로 분야를 설정할 수 있음. 100 정치 103 생활 101 경제 104 세계 102 사회 105 과학 해야할 것 get_request 함수를 올바르게 구현하기. get_request 함수에 문자열 형태의 분야 이름이 들어가면, 해당 분야의 뉴스 속보 홈페이지의 GET 요청의 응답을 반환해야 함. ge..
네이트 최신뉴스 href 수집하기 웹 페이지 href 링크들을 수집하여 리스트형 변수 list_href에 담아 출력해보기. https://news.nate.com/recent?mid=n0100 전체 - 최신뉴스 : 네이트 뉴스 news.nate.com 출력 예시 [href1, href2, ----] 해야할 것 a 태그가 있는 div 태그 및 class를 찾기. find("a")["href"]로 속성값 href의 데이터를 추출. 추출한 href 문자열 앞에 "https:" 를 앞에 붙여 완벽한 링크로 만들기. import requests from bs4 import BeautifulSoup def get_href(soup) : # 각 기사에 접근할 수 있는 href를 리스트로 반환 return None d..
뉴스 기사의 href 수집하기 이전 실습에서 진행된 페이지가 1,2,3 — 으로 구성된 웹 사이트 형태도 있지만, 단일 페이지에 여러 가지 링크가 있는 경우가 있음. 스포츠동아 뉴스에서는 기사를 클릭하면 해당 기사를 볼 수 있는 url로 이동할 수 있는데, 이런 url로 이동하는 링크들을 수집해보기. https://sports.donga.com/ent?p=1&c=02 스포츠동아 스포츠동아는 정보와 재미를 함께 즐길 수 있는 신문을 지향하고, 새로운 사회 트렌드와 독자의 목소리를 반영해 신속하고 정확한 뉴스를 전달합니다. sports.donga.com HTML 태그 중, 연동된 href를 수집하여 리스트형 변수 list_href에 담아 출력하는 실습임. get_href는 soup 객체를 받아서, 뉴스 기사..
여러 페이지의 기사 제목 수집하기 스포츠동아의 연예부 기사 제목 부분을 크롤링하는 실습. https://sports.donga.com/ent?p=1&c=02 스포츠동아 스포츠동아는 정보와 재미를 함께 즐길 수 있는 신문을 지향하고, 새로운 사회 트렌드와 독자의 목소리를 반영해 신속하고 정확한 뉴스를 전달합니다. sports.donga.com 이 사이트는 URL의 쿼리 부분에서 p의 값에 따라 페이지가 결정됨. 한 페이지에 기사가 20개씩 있기 때문에 p=1이면 1페이지, p=21이면 2페이지와 같은 식으로 페이지마다 20개씩 증가하게 됨. URL을 문자열의 덧셈 연산으로 만들 수도 있지만, requests.get 함수의 params 매개변수로 쿼리 변수를 추가할 수도 있음. 하지만 이번에는 각 기사로 이..
HTML 태그와 속성 제목 #태그 속성 속성 HTML에는 여러 종류의 태그와, 태그에 특정 기능이나 유형을 적용하는 속성이 있음. div라는 태그에 class와 id 속성이 각각 있는 것임. find 함수를 이용해서 찾은 어떤 태그에 속성이 무엇무엇이 있는지 확인하려면, attrs 멤버변수를 출력하면 됨. div = soup.find("div") print(div.attrs) 그리고 attrs 딕셔너리의 키로 인덱싱해서 태그의 속성에 접근할 수 있음. print(div['class']) # div태그 안에 있는 class가 어떤 태그인지 출력 href 속성 a 태그는 하이퍼링크를 걸어주는 태그로써 이동할 URL을 href 속성에 담고 있음. 기사 제목 그래서, a 태그를 먼저 찾고 그 다음에 해당 a 태..