본문 바로가기

R

빅데이터 분석기사 실기 독학 ④ - 데이터 전처리 개요 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15 빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 : https://masami.tistory.com/16 빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 : https://masami.tistory.com/17 데이터 전처리 : 데이터 가공, 데이터 핸들링으로 불리며, 원시적인 형태의 데이터를 내가 원하는 형태로 변환하는 과정 - 데이터의 수집 목적과 다르게 사용하려면 데이터 전처리 과정 필요 - 데이터에 틀린.. 더보기
빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15 빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 : https://masami.tistory.com/16 데이터의 변수 타입 변환 : 명목형 변수 유형을 factor형으로 변환 데이터 탐색 : head(), str(), summary()를 통해 데이터셋 탐색 : 결측치가 있는지, 데이터 총 관측치가 몇개인지, 변수들의 속성이 무엇인지 확인해야 함 Pclass 변수 분석 : 각 Pclass별 탑승객의 빈도수를 분.. 더보기
빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15 데이터 가져오기 : read.csv() , read_excel() 함수를 이용하여 데이터를 가져옴 데이터 내보내기 : write.csv(), write_excel() 함수를 사용하여 데이터를 저장 summary() : 데이터프레임의 요약통계량을 확인, 데이터의 특성을 파악하기 위해 자주 사용됨 => 최솟값, 1사분위수, 중앙값, 평균, 3사분위수, 최댓값을 보여줌 dim() : 데이터프레임의 차원 출력 nrow() :.. 더보기
빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 변수 : 데이터를 저장하는 메모리 공간, 언제든 변경 가능, 할당식( 괄호 안에 있는 변수를 날짜형으로 변환 논리형 : 참과 거짓을 표현, 참=True(T), 거짓=False(F) **연산자 우선순위 : () > ^,** > +,-(부호) > *,/,//,%/%,%% > +,-(더하기,빼기) > 관계연산자 > not > and > or 벡터구조 - rep() 함수 : 특정 숫자를 반복해서 생성 - seq() 함수 : 수열 생성시 사용 - 인덱스는 대괄호를 이용하여 표현하며 1부터 시작(python은 0부터 시작) - names(.. 더보기
R 기초 ② - 패키지 설치 *본 글은 개인이 나중에 다시 실습할 때 이해하고자 정리하는 글임* *본 글은 '메이저리그 야구 통계학' 및 기타 R을 다루는 통계책을 참고하여 작성함* R 기초 ①은 아래 링크에서 확인할 수 있다 https://masami.tistory.com/6 R 기초 ① - 데이터 입력, 평균, 분산, 표준편차 함수 *본 글은 개인이 나중에 다시 실습할 때 이해하고자 정리하는 글임* *본 글은 '메이저리그 야구 통계학' 및 기타 R을 다루는 통계책을 참고하여 작성함* R에서 데이터를 하나하나 입력하여 데이터 masami.tistory.com R을 사용하는 건 무료로 다양한 패키지를 실행할 수 있기 때문이다 그렇기 때문에, 패키지 설치 방법은 짚고 넘어갈 필요가 있다 패키지 설치 방법은 크게 2개 있다 1. 명령어.. 더보기
R 기초 ① - 데이터 입력, 평균, 분산, 표준편차 함수 *본 글은 개인이 나중에 다시 실습할 때 이해하고자 정리하는 글임* *본 글은 '메이저리그 야구 통계학' 및 기타 R을 다루는 통계책을 참고하여 작성함* R에서 데이터를 하나하나 입력하여 데이터파일을 만드는 경우는 매우 드물지만 외부에서 가져올 데이터를 R에서 편집해야 될 수도 있기 때문에 아주 기초적인 데이터입력 작업을 기록하고자 한다 메이저리그 선수 다섯명의 타율 0.280, 0.257, 0.312, 0.266, 0.295가 순서대로 나열되도록 코딩하고자 한다 이때, 이를 한꺼번에 불러올 수 있는 변수의 이름으로 AVG라 정의한다 코딩 입력 방법은 다음과 같다 AVG 더보기
R과 R studio 설치 과정 R은 모든 사람들이 개발에 참여할 수 있는 오픈형 소프트웨어로 통계분석 외에 프로그래밍도 할 수 있다 무료이기 때문에 많은 통계분석가와 프로그래머들이 사용하고 있으며 R 인강 혹은 R 특강이 늘어나고 있다 본격적으로 R 프로그램을 통해 통계분석 하는 법을 하나하나 정리하기 전에 설치 과정부터 정리해보려고 한다 https://www.r-project.org/ 위 링크는 R 프로그램 공식 홈페이지로, 접속해서 좌측의 CRAN을 누르면 다운로드를 받으러 갈 수 있다 CRAN 누르면 위와 같은 화면이 뜨는데, 여기서 마음 편하게 스크롤 내려서 Korea를 찾으면... 이렇게 CRAN Mirror 링크가 뜨는데, 아무거나 눌러도 다 똑같은 화면이 뜬다 이 화면에서 자신의 노트북 OS와 호환되는 프로그램으로 설치하.. 더보기