본문 바로가기
정보

R데이터분석 요약

by 모오오어 2021. 2. 13.
반응형
SMALL



1. plot (pie,bar,box,histogram,scatter plot)

2. 기술통계 - summary, describe

cf. 척도
명목척도 - 구분만 (남,여)
서열척도 - 순서 (초,중,고,대)
등간척도 - 간격(덧셈,뺄셈) (기온)
비율척도 - 0을 가짐(사칙연산) (길이)
(정량척도=등간척도,비율척도)

3. 교차분석
독립성 검정 - 두 변수가 독립적인지 아닌지
적합성 검정 - 이론적 분포와 실제 분포가 동일한지 (멘델유전법칙)
동일성 검정 - 하위 모집단이 각 범주에 대해 동일한지(자료 분포가 동일한지) (남녀 신용도 동일한가?)

4. 평균비교
일표본 평균비교 - 1개 표본을 모수와 비교(차이가 있는지 없는지) (남성 평균 몸무게는 70kg와 차이가 있는지)
두집단 평균비교 - 2개 표본의 평균비교(서로 독립적이어야함) (A,B고등학교 수학실력 비교)
대응표본 평균비교 - 1개 표본을 사전,사후 측정 (식이요법 전후 체중변화 있는지)

5. 분산분석(anova) (독립은 명목, 종속은 연속이어야함)
일원분산분석 - 독립 1개 (스마트폰 4사와 고객만족도의 차이여부)
이원분산분석(독립변수간 관계x) - 독립 2개 (작업자 경력과 기계의 종류가 생산량에 영향을 미치는지)
이원분산분석(독립변수간 상호작용o) - 독립 2개 (압력과 온도에 따른 화학공장 수율차이)

공분산분석(anocova) - 교란분석 투입해 분석(투입 전후 비교)
(교란변수는 주로 연속형 변수) (비료량,밭 유형이 작물강도에 미치는 영향 + 교란변수 비옥도)
반복측정 분산분석 - 동일대상에 3번 이상 반복측정으로 실험효과 확인 (점수를 멘토링 시작 전, 후1달, 후2달 측정)
다변량분산분석(manova) - 종속 2개 이상일 때 집단 간 차이 (제품유형과 고객유형에 따른 관심도와 구매의도 차이)
(종속변수 간 상관관계 없으면 각각 anova, 상관관계 있으면 manova)

6. 상관분석
공분산(cov)
상관계수(cor.test)
1.0 ~ 0.7: 매우 강한 관련성
0.7 ~ 0.4: 상당한 관련성
0.4 ~ 0.2: 약간의 관련성
0.2 ~ 0.0: 관련이 없음
부분상관분석(pcor) - 특정 변수 통제한 상관계수
정준상관분석(cancor) - 두개 이상 독립변수군(설명변수)과 종속변수군(기준변수)간 상관관계

7. 회귀분석
단순 회귀분석(lm) - 하나의 독립변수가 하나의 종속변수에 미치는 영향
다중 회귀분석(lm) - 2개 이상 독립변수(등간,비율)가 하나의 종속변수에 미치는 영향
(독립변수간 다중공산성 확인)
*as.factor이용하면 범주형 변수도 이용 가능하긴함

로지스틱 회귀분석(glm) - 독립(모든척도), 종속(명목,서열)
(종속 명목 2개=이분형 로지스틱, 종속 명목이나 서열 3개 이상=다항 로지스틱)
(confint 신뢰구간 확인)

다중회귀 -> 홍보비 지출액과 홍보팀 수가 극장수익에 영향 미치는지
로지스틱 회귀분석 -> 가족수,월급,여행횟수가 자동차 소유 여부(Y/N)에 영향 미치는지

8. 판별분석(lda)
소속집단 알고 있음, 집단수 미리 결정, 대상이 어느 집단에 속하는지 파악(집단분류), 지도학습(종속변수 정해져 있음)
로지스틱 회귀분석과 유사

9.군집분석
소속집단 정보 없음. 집단수 미리 정하지 않음, 탐색적 성격(시장 세분화 등), 비지도학습
집단을 형성함

10. 요인분석(factnal)
변수 축약

11. 분류분석(의사결정나무)
12. 소셜네트워크분석
13. 텍스트마이닝

반응형
LIST

댓글