웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-1 (기초 개념)

웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-1 (기초 개념)

2021. 11. 8. 23:44ㆍ빅데이터 스터디

웹 스크래핑 : 웹에 있는 데이터를 수집하는 기술

웹 크롤링과 거의 같은 뜻으로 사용

로봇 배제 표준 : robots.txt

웹의 동작 방식 : 프론트엔트 – Html, Css, java script

프론트엔드 : 클라이언트 -> <-서버 : 백엔드

html, css, java script server,DB,API

http 통신규약을 이용해 요청을 주고 받음

web page 구성요소

HTML : structure 뼈대, 구조

CSS : styling 예쁘게

java script : functionality 살아 움직이게

HTML의 요소와 속성

HTML elements(요소) : 시작 tag와 끝 tag안에 내용 (예, <h1></h1>)

-<br>,<img>등은 닫는 태그가 없음

HTML attributes(속성) : 요소의 추가적인 정보 제공 (예, href = ,src = , width=)

<!DOCTYPE html>

이 문서가 html문서임을 알림

<html>

html문서의 시작

<body>

몸체 태그

가장 큰 글씨

두번 째로 가장 큰 글씨

인터넷상에서 링크를 설정할 수 있는 a태그

즉, 글자 or 이미지를 클릭했을 때

원하는 웹페이지로 이동할 수 있게 해주는 태그

a는 anchor의 약자로 종료태그 </a>와 함께 쓰이며

href는 HyperText Reference의 줄임말로

이동을 원하는 웹페이지 주소(URL)를 이 속성 안에 기재해주면 됩니다.

<img

src = <-이미지에 대한 주소

width = 넓이

height = 높이

</body>

</html>

크롬 개발자 도구

- f12키

크롤링에 필요한 라이브러리

- python requests = 웹페이지읽어오기

=빠르다

=정적 웹페이지

- beautifulsoup = 원하는 데이터 가져오기 (스크래핑)

- selenium = 웹페이지 자동화

=느리다

=동적 웹페이지(스크롤, 로그인)

-user agent : my user agent로 검색하여 정보를 확인하고 headers에 넣어준다

,내가 어떤 브라우저를 사용하여 접속했는지 (가짜로) 알려주기 위해...

->사람이 직접 접속하는 걸로 속이기위해

requests 코드

- headers={‘User-Agent’ : ‘유저정보’}

- url = ‘접속할 사이트’

- requests.get(url, headers = headers)

'빅데이터 스터디' 카테고리의 다른 글

웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-3 (실전 크롤링) (0)	2021.11.08
웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-2 (웹 크롤링 연습) (0)	2021.11.08
프로세스 마이닝을 활용한 고객여정분석 - 4 (0)	2021.10.28
프로세스 마이닝을 이용한 고객여정 분석-3 (0)	2021.10.28
프로세스 마이닝을 활용한 고객여정분석-2 (0)	2021.10.28

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발 블로그

개발 블로그

태그

최근글

댓글

공지사항

아카이브

'빅데이터 스터디' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역