상세 컨텐츠

본문 제목

세계 주식시장 데이터 크롤링하기 (2)

Work

by Financial Solution 2020. 2. 5. 18:45

본문

https://financialsolution.tistory.com/75

 

세계 주식시장 데이터 크롤링하기 (1)

단순히 세계 주식시장의 현재 지수만 아는 건 쉽습니다. Investing.com이나, 아니면 단순히 네이버증권에서도 주요 주식시장 지수는 다 알려줍니다. 하지만 우리가 원하는 데이터는 그것보다는 더 복잡합니다. 최..

financialsolution.tistory.com

어느 사이트에서 데이터를 가져와야 하는 지 알았으니, 이제 사이트 구조를 분석해서 기계에게 명령을 내려 봅시다.

 

구글 크롬에서 F12키를 누르면 오른쪽에 HTML을 분석할 수 있는 창이 나옵니다. HTML이란, 웹사이트를 구성하는 코드이며 우리의 브라우저(크롬, 익스플로러, 사파리 등)가 이 코드를 읽어서 화면에 뿌려주는 겁니다. 우리는 화면의 어느 부분에 데이터가 있는지 보고, 그 코드를 찾아서 자동으로 수집할 겁니다. 여러분이 프론트엔드 웹 디자인을 할 게 아니라 크롤링만 할 거라면, 이것만 이해해도 충분합니다.

 

위의 캡쳐를 자세히 보시면, 오른쪽 코드 중에서 하늘색으로 하이라이트 되어있는 부분이 보이실 겁니다. 마우스를 해당 코드 위에 올리면 저렇게 하이라이트가 되는데, 그와 동시에 해당 코드가 화면으로 나타나는 부분도 왼쪽 웹페이지 화면에 표시가 됩니다. 즉, 웹페이지를 보고 내가 원하는 정보가 있는 코드가 어느 줄에 있는지 찾을 수 있다는 의미입니다. 우리가 저 화면에서 가져와야 하는 건, ETF의 증권코드(IWM), 이름(iShares Russell 2000 ETF)과 그 아래에 있는 YTD수익률, Expense Ratio 및 기타 정보들입니다. 

 

HTML 코드에서 <div>의 의미는 화면을 분할했다는 의미입니다. 즉 하이라이트 된 <div>안에 우리가 찾고 있는 구성요소, 글자나 숫자로 된 진짜 데이터가 들어있는 것입니다. 더 안으로 파고들어가 보겠습니다.

 

우리는 ETF의 이름을 추출하고 싶었는데, 해당 코드를 찾아보니 <h1 class=...>안에 iShares Russell 200 ETF라는 텍스트가 들어 있는 것을 볼 수 있습니다. 크롬 개발자 도구에서는 HTML 명령어는 <이런 색상으로 나오고> 텍스트, 즉 우리가 정말로 필요해서 추출할 데이터는 검은색으로 나옵니다. 

 

크롤링은 이렇게 간단하지만, 하나하나 정성들여야 하는 작업입니다. 물론 하루 걸려서 코드를 만들어 놓으면 평생(목표 웹사이트가 구조를 바꾸면 다시 처음부터) 쓸 수 있어요. 무엇을 가져와야 하는 지, HTML에 대해서 알았다면 이제 파이썬으로 가보겠습니다.

 

https://financialsolution.tistory.com/manage/posts/

반응형

관련글 더보기