빅데이터 분석기사 실기 독학 ②

*본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성
*오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022)

빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15

데이터 가져오기 : read.csv() , read_excel() 함수를 이용하여 데이터를 가져옴

데이터 내보내기 : write.csv(), write_excel() 함수를 사용하여 데이터를 저장

summary() : 데이터프레임의 요약통계량을 확인, 데이터의 특성을 파악하기 위해 자주 사용됨

=> 최솟값, 1사분위수, 중앙값, 평균, 3사분위수, 최댓값을 보여줌

dim() : 데이터프레임의 차원 출력

nrow() : 데이터프레임의 행 개수 출력

ncol() : 데이터프레임의 열 개수 출력

length() : 데이터프레임의 길이 출력

split() : 분리할 열 팩터를 기준으로 분리 => split(데이터프레임, 데이터프레임$지정 열)

substr() : 지정한 자리만큼 문자열을 선택 => substr(데이터프레임$열, 2(두번째 위치), 3(세번째 위치))

merge() : 공통 열을 기준으로 2개의 데이터프레임을 병합

sort() : 데이터 값의 순서를 직접 정렬해서 반환, 데이터프레임을 직접 정렬시키는 것은 아님

=>sort(df$열, decreasing=TRUE or FALSE)

order() : 데이터 값의 위치 인덱스를 정렬 순서대로 반환 => order(df$열, decreasing=TRUE)

tapply() : 특정열의 값을 기준으로 그룹화 한 후, 각 다른 열에 통계함수를 적용한 결과를 반환 => tapply(함수가 적용될 열, 그룹화 기준 열, 적용할 통계 함수)

dplyr 패키지

- library() : 패키지 로딩 함수

- 파이프 연산자(%>%) : 데이터 전달, 연산된 결과나 데이터를 다음 연산(함수)으로 전달

summarise() : 행 요약 함수, 함수 안에 다양한 통계 함수 사용 가능

group_by() : 지정한 열을 기준으로 행을 그룹화 할 수 있으며, 각 그룹별로 통계함수 적용 가능 => group_by(df, 열이름)

filter() : 특정 조건을 만족하는 행을 필터링하여 반환, subset 함수와 유사, 여러 조건을 논리연산자 사용해서 조합 가능

distinct() : 컬럼의 중복값을 제거한 유일한 값만을 선택해서 출력

slice() : 지정한 위치의 행을 선택 => slice(df, 2:5)

arrange() : 지정한 열을 기준으로 행을 오름차순 또는 내림차순 정렬, 내림차순 정렬에는 desc() 옵션 사용

add_row() : 데이터프레임에 행 추가

sample_frac(), sample_n() : 무작위로 지정한 수의 샘풀을 추출, frac는 비율, n은 수를 지정

select() : 지정 열 선택하여 해당 열들만 출력=> select(df, 2, 5)

mutate() : 기존의 데이터프레임에 계산된 열을 추가

transmute() : 추가된 열만 출력

mutate_all() : 몯느 열을 조작해서 새로운 열을 생성, 함수 지정을 위해 funs() 옵션을 사용

rename() : 열 이름 변경 함수

데이터 전처리 : 데이터 변환, 정규화, 이상치제거, 결측치 대처 등의 작업을 데이터 전처리라고 함

transform() : 파생변수 만드는 함수 => transform(df, 합계 = 2열+5열)

scale() : 표준화 함수 => scale(데이터, center=TRUE, scale=TRUE) ==> Z-score 로 변환

+scale(데이터, center=최솟값, scale=최댓값-최솟값) ==> 정규화된 값

aggregate() : 특정 열을 기준으로 데이터를 그룹화하고 집계함수를 적용

table() : 각 범주별 도수분포표를 작성 / prop.table() : 상대도수분포표 작성

apply() : 데이터의 행 또는 열 방향으로 주어진 함수를 한번에 적용 ==> apply(df[2:5], 2, mean) : 데이터프레임의 2~5열의 평균을 열방향에 따라 구함

결측값 : 입력이 누락된 값, NA로 출력됨

is.na(x) : 결측값이 있으면 TRUE 반환

결측값 대치 - 단순대치법(완전분석법, 평균대치법, 단순확률 대치법), 다중대치법 등이 있음

- 완전분석법 : 결측값이 있는 행 제거

- 평균대치법 : 결측값을 해당 열의 평균으로 대체

- 단순확률대치법 : 확률 분포를 이용한 추정 값으로 대치(Hot-deck) 또는 주변값으로 대치

이상값 처리 : 데이터의 범위에서 크게 벗어난 값 처리, 사분위범위, 정규분포를 이용해서 식별

quantile(x, prob=p) : 사분위수 함수

사분위범위 : IQR() 함수

이상치 판별 : (1사분위수-1.5*사분위범위) 보다 작거나 (3사분위수+1.5*사분위범위) 보다 큰 수

저작자표시 비영리 동일조건 (새창열림)

'R' 카테고리의 다른 글

빅데이터 분석기사 실기 독학 ④ - 데이터 전처리 개요 (0)	2022.06.20
빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 (0)	2022.06.18
빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 (0)	2022.06.18
R 기초 ② - 패키지 설치 (0)	2021.12.25
R 기초 ① - 데이터 입력, 평균, 분산, 표준편차 함수 (0)	2021.12.18

현생 병행 덕후의 핵현생 블로그

빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기

'R' 카테고리의 다른 글

티스토리툴바

빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기

'R' 카테고리의 다른 글

'R' Related Articles

티스토리툴바