목록쿼리 (2)
DevSSOM
여러 페이지의 기사 제목 수집하기 스포츠동아의 연예부 기사 제목 부분을 크롤링하는 실습. https://sports.donga.com/ent?p=1&c=02 스포츠동아 스포츠동아는 정보와 재미를 함께 즐길 수 있는 신문을 지향하고, 새로운 사회 트렌드와 독자의 목소리를 반영해 신속하고 정확한 뉴스를 전달합니다. sports.donga.com 이 사이트는 URL의 쿼리 부분에서 p의 값에 따라 페이지가 결정됨. 한 페이지에 기사가 20개씩 있기 때문에 p=1이면 1페이지, p=21이면 2페이지와 같은 식으로 페이지마다 20개씩 증가하게 됨. URL을 문자열의 덧셈 연산으로 만들 수도 있지만, requests.get 함수의 params 매개변수로 쿼리 변수를 추가할 수도 있음. 하지만 이번에는 각 기사로 이..
이 뉴스 웹사이트는 각 페이지의 URL에서 p=(숫자) 부분이 20씩 증가하고 있는 규칙이 있음. 이 사이트에서 여러 페이지를 크롤링하려면 어떻게 해야할까? 쉬운 방법으로는, URL을 문자열 연산으로 처리해서 새로운 URL을 얻는 방법이 있어. for i in range(0, 5): url = "http://sports.dong.com/ent?p="+str((i*20_1)) ... 하지만, URL의 쿼리를 이용한다면 이 작업을 더 효과적으로 할 수 있음. 쿼리(Query) : 웹 서버에 GET 요청을 보낼 때, 조건에 맞는 정보를 표현하기 위한 변수. ex 1) 번호가 1번인 학생을 보여줘 -> '번호'가 쿼리가 됨. ex 2) 전체 기사 중 페이지가 21인 기사들을 보여줘 -> '페이지'가 쿼리가 됨...