웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-1 (기초 개념)

2021. 11. 8. 23:44빅데이터 스터디

웹 스크래핑 : 웹에 있는 데이터를 수집하는 기술

웹 크롤링과 거의 같은 뜻으로 사용

로봇 배제 표준 : robots.txt

웹의 동작 방식 : 프론트엔트 – Html, Css, java script

 

프론트엔드 : 클라이언트 -> <-서버 : 백엔드

html, css, java script                   server,DB,API

http 통신규약을 이용해 요청을 주고 받음

 

web page 구성요소

HTML : structure 뼈대, 구조

CSS : styling 예쁘게

java script : functionality 살아 움직이게

 

HTML의 요소와 속성

HTML elements(요소) : 시작 tag와 끝 tag안에 내용 (, <h1></h1>)

-<br>,<img>등은 닫는 태그가 없음

HTML attributes(속성) : 요소의 추가적인 정보 제공 (, href = ,src = , width=)

 

<!DOCTYPE html>

이 문서가 html문서임을 알림

<html>

html문서의 시작

<body>

몸체 태그

<h1></h1>

가장 큰 글씨

<h2></h2>

두번 째로 가장 큰 글씨

<a href = http://웹주소>고양이 사진보러 가기</a>

인터넷상에서 링크를 설정할 수 있는 a태그

, 글자 or 이미지를 클릭했을 때

원하는 웹페이지로 이동할 수 있게 해주는 태그

a anchor의 약자로 종료태그 </a>와 함께 쓰이며

hrefHyperText Reference의 줄임말로

이동을 원하는 웹페이지 주소(URL)를 이 속성 안에 기재해주면 됩니다.

<img

src = <-이미지에 대한 주소

width = 넓이

height = 높이

</body>

</html>

 

 

 

크롬 개발자 도구

- f12

크롤링에 필요한 라이브러리

- python requests = 웹페이지읽어오기

                      =빠르다

                      =정적 웹페이지

- beautifulsoup      = 원하는 데이터 가져오기 (스크래핑)

 

- selenium = 웹페이지 자동화

           =느리다

           =동적 웹페이지(스크롤, 로그인)

-user agent : my user agent로 검색하여 정보를 확인하고 headers에 넣어준다

 ,내가 어떤 브라우저를 사용하여 접속했는지 (가짜로) 알려주기 위해...

->사람이 직접 접속하는 걸로 속이기위해

 

requests 코드

- headers={‘User-Agent’ : ‘유저정보’}

- url = ‘접속할 사이트

- requests.get(url, headers = headers)