본문 바로가기
카테고리 없음

문화산업과데이터분석 5주차_기술통계

by 모오오어 2020. 10. 8.
반응형
SMALL

 

 

 

 

문화산업과데이터분석 5주차_기술통계

 

 

 

 

 

  • 양수이면 꼬리가 오른쪽
  • 음수이면 꼬리가 왼쪽

  • var=변수개수
  • n=표본수
  • mean=평균값
  • sd=표준편차
  • median=중앙값
  • trimmed=절사평균(극단값의 영향력 줄임)
  • mad=평균편차=절댓값
  • skew=왜도 -이므로 왼쪽에 꼬리 꼬리쪽으로 평균값도
  • kurtosis=첨도 -이므로 정규분포에 비해 퍼진모양
  • se=표준오차 -> p값 선정할 때 중요한 수치

 

 

 

문화산업과데이터분석 5주차_교차분석

 

교차분석에 사용하는 검정=> 카이제곱검정: p값과 a값이용

독립성을 가정하고,  기대도수를 계산한 후관찰도수와 기대도수를 비교

 

#독립성 검정

cyl와 gear는 명목변수이므로 평균값으로 구하기 어려우므로 빈도값으로 구해야함-> 교차분석을 사용할 수 밖에 없다=> 카이제곱 검정 cyl와 gear사이에 독립성이 있을까?

attach를 mtcars이용하기

crossTable-> 교차분석표   T가 대문자인 것 유의하라

mtcars$cy1=mtcars에 있는 cyl이라는 변수를 사용한다

검정하기위해서 검정용 테이블로 바꾼다 mytable이라는 객체에 Xtabs라는 함수를 위해

분석을 위한 테이블로 바꾸어야함, ~cyl+gear로 연결해야함

카이스퀘어테스트=chisq.test(mytable)

실제로 카이제곱검정을 하기위해서는 xtab이랑 chisq.test필요한

유의수준은 0.05

x-squared=카이스퀘어값: 18.036 -> 2보다 크니깐 아마 차이가 있을 것

df=자유도: 4

p-value=유의확률값: 0.001214 -> 이런 차이가 우연히 발생할 확률이 0.001로 희귀함

유의수준은 0.05 > 유의확률값  0.001=>영가설기각연구가설채택

유의확률값 p-value < 유의수준 0.05 =p값< a값 

귀무가설 기각, 대립가설 채택

 

 

#적합성 검정

mandel=실제 결과

prob=이론적 분포

 

x-squared=카이스퀘어값: 0.47002

df=자유도: 3

p-value=유의확률값: 0.9254

유의확률값 p-value=0.9254 > 유의수준 0.05

-> 이런 차이가 우연히 발생할 확률이 0.9254로 매우 흔한 케이스: 둘 간의 차이가 없다

=> 멘델의 유전법칙이 맞다.

p값> a값 -> 귀무가설 채택

 

 

 

#동일성 검정

앞서 보았던 데이터가 표안에 들어있으므로 matrix로 

총 변수가 6개이므로,  row는 2개라고 정하면, colum은 정할 필요가 없다

prop.table => 비율을 알려주는 테이블

X-squared값=카이스퀘어값이 2보다 크면 보통 크다고 한다

df=자유도: 2

p-value=유의확률값: 3.323e-07 => 3.323 X 10의 -7 승 => 0.000001이라는 뜻 

즉, 유의확률값이 0.000000323

유의확률값 p-value=0.000000323 < 유의수준 0.05

남성과 여성에 있어서 차이가 있다 :동일성이 기각된다=>귀무가설 기각, 대립가설 채택

 

 

문화산업과데이터분석 5주차_평균비교

 

 

t값이 -1.1293 으로 절댓값 2보다 작다

df=9

p-value는 0.288로 유의수준 0.05에 도달하지 못했다-> 영가설 영역에 그대로 있기 때문에

유의확률값 p-value= 0.288 > 유의수준 0.05

영가설을 채택하고 연구가설(대리가설) 기각=> 70kg와 차이가 없다

 

저번에는 카이스퀘어분포에 기반해서 카이스퀘어 테스트를 하였다.

이번에는, t분포에 기반하기 때문에 t-테스트를 한다.

저번에는 한집단비교라 모수를 집어넣어 비교했지만 ex) mu=70

이번에는 두 집단간의 비교니깐 모수를 집어넣을 필요가 없다.

t=-0.279    : a가 b보다 작다 a<b => t값이 2보다 작으니깐 둘의 차이가 없을 것

p-value=0.7834로 0.05보다 크므로 유의수준 0.05에 도달하지 못했다

유의 확률값 p-value=0.7834 > 유의수준 0.05

-> 영가설 영역에 그대로 있기 때문에

영가설을 채택하고 연구가설(대리가설) 기각=> a와 b간의 차이가 없다

 

대응표본의 경우에는 쌍표본 t검정

 

t값이 2보다 크므로 차이가 있을 것으로 예상

p-value= 0.01661 < 유의수준은 0.05

-> 영가설을 기각하고 연구가설(대리가설) 채택

=> 차이가 있다-> 식이요법은 효과가 있다

신뢰구간 0.688 ~ 5.311 의 사이에 0이 있는가? 가 중요

0이 있으면 귀무가설 채택, 대립가설 기각

0이 없으면 대립가설 채택, 귀무가설 기각

 

반응형
LIST

댓글