본문 바로가기

분류 전체보기

MATLAB 온라인 교육 링크 모음+홈페이지 내 유용한 링크들 *본 글은 개인이 나중에 온라인 교육이 필요할 때 이용하고자 정리하는 글임* MATLAB은 주로 공대 tool로 알고 있지만, MATLAB에도 통계분석 Toolbox는 있다 머신러닝, 딥러닝, 영상처리 등 다양한 것을 MATLAB으로 진행할 수 있으니 알아두면 도움이 될 것 같다 필자의 팔자에는 MATLAB을 할 일이 없을 줄 알았는데, 의도치 않게 MATLAB을 하게 되었다 (R, Python도 익숙하지 않은데 MATLAB이라니..) MATLAB은 그래도 라이센스를 갖고 있는 정도에 따라 제공해주는 무료 교육들이 많다 최소 라이센스나 회원가입만 한 상태여도 기본 무료 교육은 온라인으로 받을 수 있다 앞으로 여러번 사이트 왔다갔다 하면서 들을 수 있는 교육과정을 많이 들을 것 같으니까 이를 정리해보려고 .. 더보기
네이버 영화 평점 리뷰 수집 및 WordCloud 만들기 *본 글은 크롤링 관련 kmooc 수업, 외부 수업을 듣고 이를 활용하여 실습한 내용을 정리한 것 *따라서 코드에 대한 자세한 설명이 어려울 수 있음 *오타가 있을 수 있음 먼저, 크롤링 하고자 하는 url을 파이썬에 입력 url = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=217719&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page={}' - 실제 웹페이지 url은 빨간색 글씨 부분이 'page=1' 이런식으로 뜰텐데, 여러 페이지를 크롤링 할 것이기 때문에 'pag.. 더보기
빅데이터 분석기사 실기 독학 ④ - 데이터 전처리 개요 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15 빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 : https://masami.tistory.com/16 빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 : https://masami.tistory.com/17 데이터 전처리 : 데이터 가공, 데이터 핸들링으로 불리며, 원시적인 형태의 데이터를 내가 원하는 형태로 변환하는 과정 - 데이터의 수집 목적과 다르게 사용하려면 데이터 전처리 과정 필요 - 데이터에 틀린.. 더보기
빅데이터 분석기사 실기 독학 ③ - 데이터 탐색 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15 빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 : https://masami.tistory.com/16 데이터의 변수 타입 변환 : 명목형 변수 유형을 factor형으로 변환 데이터 탐색 : head(), str(), summary()를 통해 데이터셋 탐색 : 결측치가 있는지, 데이터 총 관측치가 몇개인지, 변수들의 속성이 무엇인지 확인해야 함 Pclass 변수 분석 : 각 Pclass별 탑승객의 빈도수를 분.. 더보기
빅데이터 분석기사 실기 독학 ② - R로 데이터 다루기 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 : https://masami.tistory.com/15 데이터 가져오기 : read.csv() , read_excel() 함수를 이용하여 데이터를 가져옴 데이터 내보내기 : write.csv(), write_excel() 함수를 사용하여 데이터를 저장 summary() : 데이터프레임의 요약통계량을 확인, 데이터의 특성을 파악하기 위해 자주 사용됨 => 최솟값, 1사분위수, 중앙값, 평균, 3사분위수, 최댓값을 보여줌 dim() : 데이터프레임의 차원 출력 nrow() :.. 더보기
빅데이터 분석기사 실기 독학 ① - R 프로그래밍 기초 *본 글은 개인적으로 헷갈리거나 정리하고 싶은 것을 블로그에 타이핑 필기하는 용도로 작성 *오타가 있을 수 있음 / *사용한 책 : 이기적 빅데이터분석기사 실기 기본서(2022) 변수 : 데이터를 저장하는 메모리 공간, 언제든 변경 가능, 할당식( 괄호 안에 있는 변수를 날짜형으로 변환 논리형 : 참과 거짓을 표현, 참=True(T), 거짓=False(F) **연산자 우선순위 : () > ^,** > +,-(부호) > *,/,//,%/%,%% > +,-(더하기,빼기) > 관계연산자 > not > and > or 벡터구조 - rep() 함수 : 특정 숫자를 반복해서 생성 - seq() 함수 : 수열 생성시 사용 - 인덱스는 대괄호를 이용하여 표현하며 1부터 시작(python은 0부터 시작) - names(.. 더보기
회귀분석 ② - 다중회귀분석, 위계적회귀분석 *회귀분석에 대한 정확한 정의를 기억하기 위해 작성 - 특히 기본 가정* *본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임* *n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*+*전공서적 내용 정리 포함* 다중회귀분석 : 여러 개의 독립변수를 회귀모형에 포함하여 종속변수에 가장 큰 영향을 미치는 독립변수가 어떠한 것인지, 종속변수를 설명할 수 있는 가장 적합한 모형이 무엇인지를 밝히는 통계적 방법 - 단순회귀분석의 특성에 더해, 독립변수 간 상관이 낮아야 한다 => 다중공선성 : 독립변수 간 상관이 높은 경우 다중공선성이 있다고 판단한다 *다중공선성이 높다 = 오차가 정확히 추정되지 않는다+회귀계수 추정치가 불안정+관계방향의 오류 다중공선성 정도를 나타내는 .. 더보기
회귀분석 ① - 회귀분석의 기본 가정, 단순회귀분석 *회귀분석에 대한 정확한 정의를 기억하기 위해 작성 - 특히 기본 가정* *본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임* *n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*+*전공서적 내용 정리 포함* 회귀분석 : 한 변수로부터 다른 변수를 예측하기 위해 예측방정식을 구하는 통계방법 - 독립변수와 종속변수 사이를 나타내는 선형식을 산출 - 변수들 사이의 인과관계를 나타내어 예측 및 추론하는 분석 - 독립변수의 개수가 1개 : 단순회귀분석, 독립변수의 개수가 2개 이상 : 다중회귀분석 단순회귀분석의 기본적인 회귀모형 식(단순회귀분석은 선형회귀분석이다) Y = m+aX+e (m=절편, a=회귀계수, 기울기, e=오차) 회귀선 : 산포도에 나타난 점들(즉, 데.. 더보기