2021. 11. 8. 23:44ㆍ빅데이터 스터디
웹 스크래핑 : 웹에 있는 데이터를 수집하는 기술
웹 크롤링과 거의 같은 뜻으로 사용
로봇 배제 표준 : robots.txt
웹의 동작 방식 : 프론트엔트 – Html, Css, java script
프론트엔드 : 클라이언트 -> <-서버 : 백엔드
html, css, java script server,DB,API
http 통신규약을 이용해 요청을 주고 받음
web page 구성요소
HTML : structure 뼈대, 구조
CSS : styling 예쁘게
java script : functionality 살아 움직이게
HTML의 요소와 속성
HTML elements(요소) : 시작 tag와 끝 tag안에 내용 (예, <h1></h1>)
-<br>,<img>등은 닫는 태그가 없음
HTML attributes(속성) : 요소의 추가적인 정보 제공 (예, href = ,src = , width=)
<!DOCTYPE html>
이 문서가 html문서임을 알림
<html>
html문서의 시작
<body>
몸체 태그
<h1></h1>
가장 큰 글씨
<h2></h2>
두번 째로 가장 큰 글씨
<a href = http://웹주소>고양이 사진보러 가기</a>
인터넷상에서 링크를 설정할 수 있는 a태그
즉, 글자 or 이미지를 클릭했을 때
원하는 웹페이지로 이동할 수 있게 해주는 태그
a는 anchor의 약자로 종료태그 </a>와 함께 쓰이며
href는 HyperText Reference의 줄임말로
이동을 원하는 웹페이지 주소(URL)를 이 속성 안에 기재해주면 됩니다.
<img
src = <-이미지에 대한 주소
width = 넓이
height = 높이
</body>
</html>
크롬 개발자 도구
- f12키
크롤링에 필요한 라이브러리
- python requests = 웹페이지읽어오기
=빠르다
=정적 웹페이지
- beautifulsoup = 원하는 데이터 가져오기 (스크래핑)
- selenium = 웹페이지 자동화
=느리다
=동적 웹페이지(스크롤, 로그인)
-user agent : my user agent로 검색하여 정보를 확인하고 headers에 넣어준다
,내가 어떤 브라우저를 사용하여 접속했는지 (가짜로) 알려주기 위해...
->사람이 직접 접속하는 걸로 속이기위해
requests 코드
- headers={‘User-Agent’ : ‘유저정보’}
- url = ‘접속할 사이트’
- requests.get(url, headers = headers)
'빅데이터 스터디' 카테고리의 다른 글
웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-3 (실전 크롤링) (0) | 2021.11.08 |
---|---|
웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석-2 (웹 크롤링 연습) (0) | 2021.11.08 |
프로세스 마이닝을 활용한 고객여정분석 - 4 (0) | 2021.10.28 |
프로세스 마이닝을 이용한 고객여정 분석-3 (0) | 2021.10.28 |
프로세스 마이닝을 활용한 고객여정분석-2 (0) | 2021.10.28 |