산포도measure of dispersion 자료의흐트러진정도를나타내는척도 분산(variance) •각개체편차(평균과의차이)의제곱합을관측치수인n 또는n-1로나눈것 표준편차(standard deviation) •분산의양의제곱근 분산과표준편차의성질 •분산과표준편차는흐트러짐정도의측도 •분산과표준편차가작을수록자료가평균에근접해서분포함 •분산과표준편차는항상0보다크거나같은값을가짐. •분산과표준편차가0이면자료의관측치의퍼짐이전혀없이모두같은값을지님 •관측치들의측정단위와표준편차의측정단위는같음. 분산의단위는관측치단위의제곱 •분산과표준편차는특이치(outlier)에큰영향을받음. 변동계수(coefficient of variation: CV) • 자료의 측정 단위에 의존하지 않는 상대적인 산포에 대한 측도 • 서로 측정 ..
확률(probability)이란? •무작위적인혹은우연한현상들을가지고, 특정결과(혹은사건)에대한확률은수많은시도끝에결과적으로나타난해당사건의발생건수의비율 확률변수(random variable) •확률적인사건들의결과에대한수치척도로써특정관심사건을숫자로변환시키는역할 •변환된숫자의특성에따라이산형(descrete)과연속형(continuous)확률변수로구분 확률분포(probability distribution) •확률변수가갖는모든가능한결과값과이에따른각각의확률들을기술한것 확률밀도[질량]함수(probability density[mass] function) •특정확률변수의값을입력받아확률로출력하는함수(이산형확률변수⇒ 확률질량함수, 연속형확률변수⇒ 확률밀도함수) •다양한확률밀도[질량]함수가있으며, 동일한확률밀도[질량]함수..
데이터의저장: 데이터행렬(data matrix) 데이터값의여러유형 •오류값(error) 변수가가질수없는값이나불가능한조합및일관성없는잘못된코드값등. •특이값(outlier) 정상이아닌값으로오류에의해발생할수도있고, 그렇지않을수도있음. •결측값(missing) 관찰되지않은값을의미하며, 그원인과기록방법을정밀하게조사하여자료를정정하고기록방법을변경해야하며, 필요하다면자료를보정해야함. 데이터형태에따른분류 데이터의형태를왜구분하는가? •데이터의형태에따라분석방법이다르기때문임 범주형데이터(categorical data) •수학적관계식을정의할수없는데이터⇒ 질적데이터(qualitative data) •관측결과가몇개의범주가운데하나로분류되는데이터 –명목형(nominal) : 한단위가특성에대해어떤계층에속하는가를나타내며, 분리적이고..