*본 글은 개인이 나중에 다시 실습할 때 이해하고자 정리하는 글임*
*본 글은 '메이저리그 야구 통계학' 및 기타 R을 다루는 통계책을 참고하여 작성함*
R에서 데이터를 하나하나 입력하여 데이터파일을 만드는 경우는 매우 드물지만
외부에서 가져올 데이터를 R에서 편집해야 될 수도 있기 때문에 아주 기초적인 데이터입력 작업을 기록하고자 한다
메이저리그 선수 다섯명의 타율 0.280, 0.257, 0.312, 0.266, 0.295가 순서대로 나열되도록 코딩하고자 한다
이때, 이를 한꺼번에 불러올 수 있는 변수의 이름으로 AVG라 정의한다
코딩 입력 방법은 다음과 같다
AVG<-c(0.280, 0.257, 0.312, 0.266, 0.295)
(왼쪽 상단 창에 입력 후 ctrl+enter 동시에 눌러도 되고, 왼쪽 하단 창에 입력 후 엔터를 눌러도 된다)
그러면 오른쪽 상단에 AVG 변수가 5개의 데이터로 구성되었다는 결과가 뜬다
이후 AVG만 입력하면 5개의 타율이 결과로 나타난다
변수는 타율과 같은 숫자가 아니라, 문자들로도 구성이 가능하다
단, 문자들로 구성할 땐 큰따옴표롤 사용해야 한다
예를 들어, 올해 FA 계약이 끝난 타자들(FABAT)(12/17 기준) 이니셜인
CJH, PHM, PKW, KJH, KHS 로 구성된 변수를 생성하기 위해서는 "CJH", "PHM" 이런 식으로 입력해야 한다
FABAT<-c("CJH", "PHM", "PKW", "KJH", "KHS")
큰따옴표로 표시할 경우 문자는 데이터가 되지만, 큰따옴표가 없을 경우 문자는 변수가 된다
CJH 라는 변수를 따로 정의하지 않았기 때문에 큰따옴표가 없다면 에러메시지가 뜬다
앞에서 만들어놓은 변수 AVG와 FABAT를 묶어서 새로운 변수(RESULT 라 정의)를 만들때는 큰따옴표가 필요없다
RESULT<-c(AVG, FABAT)
이후 RESULT만 입력하면 타율 다섯 개 먼저, 이후에 FA 계약 타자들 이니셜이 순서대로 나열되어 나온다
문자 데이터를 변수에 넣는 것과 변수를 묶는 것 까지 하면 아래와 같은 모습이다
숫자로 이루어진 변수 AVG 는 명령어를 이용하여 평균, 분산, 표준편차를 구할 수 있다
평균을 구할 경우 mean(AVG) 를
분산을 구할 경우 var(AVG) 를
표준편차를 구할 경우 sd(AVG) 를 사용할 수 있다
+데이터가 간단할 경우 왼쪽 하단 Console 박스에서 바로바로 입력 후 enter를 눌러도 된다
다만, 실수로 잘못 눌러 명령어가 실행되면 console에 기록이 남아 이후에 필요한 분석 결과만 찾기 어려울 수도 있다
이를 방지하기 위해 왼쪽 상단에 연습장처럼 작성하고 ctrl+enter 동시에 눌러 명령어를 실행하는 것이 좋다
++c() => 괄호 안에 있는 데이터 혹은 변수를 묶어서 구성된 벡터를 변수에 넣는 명령어이다
+++ 변수에 어떤 명령어를 적용한다는 뜻의 화살표 <- 는 < 와 - 을 연달아 입력해주면 된다
'R' 카테고리의 다른 글
빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 (0) | 2022.06.18 |
---|---|
빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 (0) | 2022.06.18 |
빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 (0) | 2022.06.18 |
R 기초 ② - 패키지 설치 (0) | 2021.12.25 |
R과 R studio 설치 과정 (0) | 2021.12.14 |