*본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성
*오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022)
빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15
데이터 가져오기 : read.csv() , read_excel() 함수를 이용하여 데이터를 가져옴
데이터 내보내기 : write.csv(), write_excel() 함수를 사용하여 데이터를 저장
summary() : 데이터프레임의 요약통계량을 확인, 데이터의 특성을 파악하기 위해 자주 사용됨
=> 최솟값, 1사분위수, 중앙값, 평균, 3사분위수, 최댓값을 보여줌
dim() : 데이터프레임의 차원 출력
nrow() : 데이터프레임의 행 개수 출력
ncol() : 데이터프레임의 열 개수 출력
length() : 데이터프레임의 길이 출력
split() : 분리할 열 팩터를 기준으로 분리 => split(데이터프레임, 데이터프레임$지정 열)
substr() : 지정한 자리만큼 문자열을 선택 => substr(데이터프레임$열, 2(두번째 위치), 3(세번째 위치))
merge() : 공통 열을 기준으로 2개의 데이터프레임을 병합
sort() : 데이터 값의 순서를 직접 정렬해서 반환, 데이터프레임을 직접 정렬시키는 것은 아님
=>sort(df$열, decreasing=TRUE or FALSE)
order() : 데이터 값의 위치 인덱스를 정렬 순서대로 반환 => order(df$열, decreasing=TRUE)
tapply() : 특정열의 값을 기준으로 그룹화 한 후, 각 다른 열에 통계함수를 적용한 결과를 반환 => tapply(함수가 적용될 열, 그룹화 기준 열, 적용할 통계 함수)
dplyr 패키지
- library() : 패키지 로딩 함수
- 파이프 연산자(%>%) : 데이터 전달, 연산된 결과나 데이터를 다음 연산(함수)으로 전달
summarise() : 행 요약 함수, 함수 안에 다양한 통계 함수 사용 가능
group_by() : 지정한 열을 기준으로 행을 그룹화 할 수 있으며, 각 그룹별로 통계함수 적용 가능 => group_by(df, 열이름)
filter() : 특정 조건을 만족하는 행을 필터링하여 반환, subset 함수와 유사, 여러 조건을 논리연산자 사용해서 조합 가능
distinct() : 컬럼의 중복값을 제거한 유일한 값만을 선택해서 출력
slice() : 지정한 위치의 행을 선택 => slice(df, 2:5)
arrange() : 지정한 열을 기준으로 행을 오름차순 또는 내림차순 정렬, 내림차순 정렬에는 desc() 옵션 사용
add_row() : 데이터프레임에 행 추가
sample_frac(), sample_n() : 무작위로 지정한 수의 샘풀을 추출, frac는 비율, n은 수를 지정
select() : 지정 열 선택하여 해당 열들만 출력=> select(df, 2, 5)
mutate() : 기존의 데이터프레임에 계산된 열을 추가
transmute() : 추가된 열만 출력
mutate_all() : 몯느 열을 조작해서 새로운 열을 생성, 함수 지정을 위해 funs() 옵션을 사용
rename() : 열 이름 변경 함수
데이터 전처리 : 데이터 변환, 정규화, 이상치제거, 결측치 대처 등의 작업을 데이터 전처리라고 함
transform() : 파생변수 만드는 함수 => transform(df, 합계 = 2열+5열)
scale() : 표준화 함수 => scale(데이터, center=TRUE, scale=TRUE) ==> Z-score 로 변환
+scale(데이터, center=최솟값, scale=최댓값-최솟값) ==> 정규화된 값
aggregate() : 특정 열을 기준으로 데이터를 그룹화하고 집계함수를 적용
table() : 각 범주별 도수분포표를 작성 / prop.table() : 상대도수분포표 작성
apply() : 데이터의 행 또는 열 방향으로 주어진 함수를 한번에 적용 ==> apply(df[2:5], 2, mean) : 데이터프레임의 2~5열의 평균을 열방향에 따라 구함
결측값 : 입력이 누락된 값, NA로 출력됨
is.na(x) : 결측값이 있으면 TRUE 반환
결측값 대치 - 단순대치법(완전분석법, 평균대치법, 단순확률 대치법), 다중대치법 등이 있음
- 완전분석법 : 결측값이 있는 행 제거
- 평균대치법 : 결측값을 해당 열의 평균으로 대체
- 단순확률대치법 : 확률 분포를 이용한 추정 값으로 대치(Hot-deck) 또는 주변값으로 대치
이상값 처리 : 데이터의 범위에서 크게 벗어난 값 처리, 사분위범위, 정규분포를 이용해서 식별
quantile(x, prob=p) : 사분위수 함수
사분위범위 : IQR() 함수
이상치 판별 : (1사분위수-1.5*사분위범위) 보다 작거나 (3사분위수+1.5*사분위범위) 보다 큰 수
'R' 카테고리의 다른 글
빅데이터 분석기사 실기 독학 ④ - 데이터 전처리 개요 (0) | 2022.06.20 |
---|---|
빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 (0) | 2022.06.18 |
빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 (0) | 2022.06.18 |
R 기초 ② - 패키지 설치 (0) | 2021.12.25 |
R 기초 ① - 데이터 입력, 평균, 분산, 표준편차 함수 (0) | 2021.12.18 |