파이썬을 이용하여 "네이버 쇼핑"의 제품 리스트를 긁어오기 (데이터 크롤링)

아래 화면은 네이버 쇼핑 / 짐벌 카테고리에서 오늘 날짜 Best 100 제품을 표시하는 화면입니다.

아마 국내에서 잘 팔리는 짐벌은 모두 리스트업 되어 있을 것으로 보입니다.

URL은 아래와 같습니다.

https://search.shopping.naver.com/best100v2/detail.nhn?catId=50006369#

BEST100 : 네이버쇼핑

최근 2일/7일 기준 네이버쇼핑을 통한 판매실적과 상품클릭수를 반영하여 매일 업데이트 됩니다. 정품 페이유 브이로그 포켓 초소형 접이식 ... 89,000원 가우라이트 네이버페이플러스 가맹점 찜��

search.shopping.naver.com

오늘 포스팅의 목적은 지난주에 "구름 IDE"에 "파이썬" 프로그램을 사용할 수 있는 환경을 만드는 것을 소개해 드렸는데 이를 활용하여 위의 네이버 쇼핑 짐벌 Best 100 제품 리스트를 긁어와서 문서 파일로 만든 것을 소개드리고자 합니다.

구름 IDE 관련 부분은 아래 포스팅을 참조하세요 ↓↓↓↓↓

2020/06/29 - 구름 IDE에 파이썬 사용 환경 만들기

이와 같은 작업 (웹의 내용을 긁어 오는 행위)은 일반적으로 "파이썬을 이용하여 웹 크롤링, python web scrapping or web crawling" 정도로 표현을 합니다. 본 포스팅을 읽으시다가 부족한 부분이 있으면 이 용어를 이용해서 구글 검색을 해 보시면 도움되는 정보를 많이 찾을 수 있습니다.

참고로 저는 코딩 전문가가 아니고 그냥 재미 삼아 (치매 방지용 ^^) 코딩 공부를 막 시작한 입장이기 때문에 코드의 하나하나를 설명드리는 것은 피하고 전체적인 윤곽을 설명하는 형태로 글을 작성했습니다.

위의 과제를 진행하기 위해서는 아래와 같은 일들이 필요합니다. 비교적 간단합니다.

이를 단계별로 나누면 아래와 같습니다.

1> 파이썬 설치

2> 파이썬에 웹 크롤링을 전문적으로 지원하는 "Beautifulsoap"라는 라이브러리를 인스톨

3> 웹을 크롤링핑하는 기본 코드 작성

4> 크롤링을 하고자하는 웹사이트 (네이버 쇼핑 짐벌 베스트 100) 확정 및 URL 확인

5> 크롤링 대상 데이터들의 Select 속성을 확보

6> 위의 3>에 작성된 기본 코드에서 4>와 5> 값은 대체하여 코드 수정

7> 파이썬 실행

♣ 최근에 "은퇴 준비"라는 주제로 유튜브를 시작했어요.

실제 경험을 바탕으로 재미있는 콘텐츠를 만들어 보려고 해요.

많은 응원 부탁드려요....(좋아요... 댓글 말이예요...ㅎ)

youtu.be/Bb484bGVPSs

◈구체적인 내용을 설명하면 아래와 같습니다.

1> 파이썬 설치

: 지난 포스팅을 참조하시면 됩니다.

2020/06/29 - 구름 IDE에 파이썬 사용 환경 만들기

2> 파이썬에 웹 크롤링을 전문적으로 지원하는 "Beautifulsoap"라는 라이브러리를 인스톨하기

: 구글 IDE의 터미널 창에 "pip install bs4"을 입력하여 이름도 예쁜 Beautifulsoap 4.0을 인스톨합니다.

3> 웹을 크롤링하는 기본 코드 작성

: 아래 코드는 위키피디아에 소개된 Beautifulsoap 코드 예제입니다. 이 부분을 복사해서 수정해서 사용하면 됩니다.

위의 코드 내용은 Wikipedia 사이트 메인 페이지에서 모든 "a" 태그를 찾아내어서 그 주소를 뽑아 기록하라는 내용임.

4> 크롤링을 하고자하는 웹사이트 (네이버 쇼핑 짐벌 베스트 100) 확정 및 URL 확인

: 일단 글의 앞머리에 위 사이트를 소개했고 이 페이지의 구조에 대해서는 크롬에서 F12를 눌러서 불러낸 개발자 모드를 이용해서 확인해 봅니다.

-URL : https://search.shopping.naver.com/best100v2/detail.nhn?catId=50006369#

5> 크롤링 대상 데이터들의 Select 속성을 확보

: 긁어 오고 싶은 데이터들이 Best 100 제품들의 제품명 정보입니다. 이것들이 이 페이지에서 어떤 구조에 있는지 확인합니다.

위에 표시한 것처럼, 제품명은 "P 태그"밑에 "cont"라는 클래스에 들어 있습니다.

그러면, 위의 웹 페이지에서 ["P 태그"밑에 "cont"라는 클래스]의 값들을 크롤링하도록 위의 코드를 수정하면 됩니다.

6> 위의 3>에 작성된 기본 코드에서 4>와 5> 값은 대체하여 코드 수정

: 코드에 URL과 Select 값을 수정하고 순서대로 등수를 표시하도록 코드를 수정합니다. 그리고 크롤링된 값들을 화면에 표시하는 것이 아니라 "네이버 집 벌 리스트. txt"라는 파일을 만들어서 넣도록 코드를 보완합니다.

완성된 코드는 아래와 같습니다.

각주를 빼고 나면 11줄 밖에 되지 않는 간단한 코딩으로 네이버의 중요한 정보를 긁어 올 수 있게 되었습니다.

7> 파이썬 실행

: 터미널 창에서 "python 파일명. py"을 입력해서 실행합니다.

그러면, 잠시 크롤링하는 시간이 걸리고 같은 폴더에 "네이버 짐벌 리스트. txt"라는 파일이 만들어집니다.

이 파일을 열어 보겠습니다. 아래와 같이 Best 100 제품 리스트가 모두 모아졌습니다. 🎵🎵🎵🎵🎵

불과 11줄의 코드 (Code)로 대단한 일이 벌어지지 않았습니까?

이 데이터 크롤링 (Crawling), 혹은 스크 랩핑(Scrapping)의 의미를 한번 짚어 보도록 하겠습니다.

만일 제가 짐볼을 개발하거나 해외에서 아웃 소싱을 해서 국내에 판매할 계획을 갖고 있다면 위의 크롤링한 데이터는 매우 의미가 있을 것입니다. 매일 한번, 혹은 일주일 단위, 월 단위로 데이터를 주기적으로 긁어와서 축적을 해 두면 가장 잘 팔리는 제품의 트렌드를 확인할 수 있고 가격 정보도 같이 불러오면 가격 추이도 확인할 수 있을 것입니다.

위의 예제는 네이버 쇼핑 데이터이지만 원리만 알면 어떤 웹사이트이던지 눈에 보이는 페이지의 데이터를 크롤링을 할 수 있으므로 본인의 전문 분야나 관심 분야에서 매우 다양하게 활용할 수 있습니다.

주식하시는 분들도 자신의 투자 포트폴리오나 투자 계획을 수립하는데 활용할 수 있고, 스포츠에 관심이 있는 분들도 그쪽의 유용한 데이터를 확보할 수 있을 겁니다.

데이터를 확보한다는 것은 차별화된 경쟁력을 이미 확보했다는 이야기가 될 것입니다.