[모각코] day5. 8/3 3과목 1장, 2장 R프로그래밍 기초 오답정리

2022. 8. 3. 22:32ADsP 스터디

245p 7회 기출 - 4. 다음중 세개의 명령과 결과가 다른것은?

1)

z = c(1:3,NA)
is.na(z)

2)

z <- c(1:3,NA)
is.na(z)

 

3)

z = c(1:3,NA)
z==NA

4)

c(1,1,1,2)==2

 

3)  1,2,4의 경우 모두 FALSE,FALSE,FALSE,TRUE 가 반환 된다.

3의 경우 모두 NA가 반환 된다.

 

#1. is.na(a)

a 객체 안에 NA 값이 있으면 그 자리에 TRUE를 반환하고, 없으면 FALSE를 반환한다.

 

#2. a==NA

a가 NA와 동일한지 확인을 하려고 비교연산자 ==를 사용하면

무조건 NA가 return된다.

a가 여러가지 값을 가진 벡터이면 그 값들의 개수만큼 NA NA NA...가 나열된다.

 

심지어 b에 NA를 할당한 후에 확인해도 마찬가지로 결과는 NA.

TRUE나 FALSE로 논리적인 계산을 하지 않는다.

 

 

#3. NA가 들어 있으면 평균값도 마찬가지로 NA

mean(a) 함수를 쓰면 a객체 값에 대한 평균을 내주는데, a가 NA를 포함하고 있으면 그 결과 값이 NA가 나온다.

#4. 결론

일단 데이터에 Not Available한 값이 있으면 모든 연산의 결과를 NA로 한 이유는,

해당값을 정제한 후 데이터 분석을 하라는 의도가 아닐까 생각해본다.

[출처] https://lovelydiary.tistory.com/328

 

247p 15회 기출 15. Carseats 데이터프레임은 400개 상점에서 판매 중인 유아용 카시트의 재료이고, Sales 변수는 해당 상점에서 판매된 카시트의 수를 나타낸다. 다음 중 R 패키지에서 Sales 변수의 표준편차를 계산하기 위한 식으로 가장 부적절한 것은? 

1) stdev(Carseats$Sales)

2) sd(Carseats$Sales)

3) sqrt(var(Carseats$Sales)

4) var(Carseats$Sales)^(1/2)

 

1) stdev 함수는 엑셀에서의 표준편차를 구하는 함수이다. R에서는 sd()함수를 사용한다.

 

 

 

246p 18회 기출 - 11. R에서 제공하는 데이터 가공, 처리를 위한 패키지의 설명으로 가장 부적절한 것은?

1) data.table 패키지는 데이터 프레임 처리함수인 ddply함수를 제공한다.

2) reshape 패키지는 melt와 cast를 이용하여 데이터를 재구성할 수 있다.

3)sqldf 패키지는 R에서 표준 SQL 명령을 실행하고 결과를 가져올 수 있다.

4)plyf 패키지는 데이터의 분리, 결합 등 필수적인 데이터 처리 기능을 제공한다.

 

1) data.table패키지는 큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다. ddply는 plyr패키지에서 지원한다.

 

 

247p 10회기출 -12 아래 R코드를 수행한 결과로 적절한 것은?

"+"(2,3)

1) 에러 메시지가 출력된다.

2) 경고 메시지가 출력된다.

3) 숫자 5가 출력된다.

4) 두개의 원소로 이루어진 벡터가 출력된다.

 

3) "연산자"(요소1,요소2) 의 명령어는 요소1과 요소2의 연산을 수행한다.

 

 

250p 23회 기출 - 22. 다음 중 2019/08/23을 "2019-08-23"으로 나타내는 코드로 올바른 것은?

1) as.Date('08/23/2019','%m/%d/%Y')

2) as.Date('08/23/2019,'%m/%D/%Y')

3) as.Date('08/23/2019','%M/%d/%Y')

4) as.Date('08/23/2019','%M/%D/%Y')

 

1) Date format에서 4자리 숫자연도를 나타낼 때는 대문자, 2자리 숫자연도를 나타낼때는 소문자를 사용한다.

월, 일은 두자리이므로 소문자만 사용한다.

 

 

[출처] 데이터에듀 - ADsP 데이터 분석 준전문가 합격을 위한 완벽 요약집