본문 바로가기
심리학/전문지식

확률과 통계의 기술 통계와 확률 통계 용어 정리 알아보기

by 티맘:-) 2023. 5. 19.

1. 기술 통계

statistics

기술통계학은 데이터를 요약하고 설명하는 기법입니다. 주로 평균, 표준편차, 분포, 빈도 등을 계산하여 데이터의 특성을 파악합니다.

1) 평균(Mean): 평균은 데이터의 총합을 데이터의 개수로 나눈 값으로, 데이터의 중심 경향성을 나타냅니다. 평균은 연속형 변수나 비율척도 변수의 측정값을 요약하는 데 사용됩니다. 2) 중앙값(Median): 중앙값은 데이터를 크기순으로 정렬했을 때 가운데 위치한 값입니다. 이는 이상치의 영향을 덜 받는 평균에 대한 대안적인 척도로 사용됩니다. 3) 최빈값(Mode): 최빈값은 데이터에서 가장 자주 나타나는 값을 의미합니다. 범주형 변수나 명목척도 변수의 특성을 파악하는 데 사용됩니다. 표준편차(Standard Deviation): 표준편차는 데이터의 변동성을 나타내는 지표로, 데이터 값들이 평균으로부터 얼마나 퍼져있는지를 나타냅니다. 표준편차가 크면 데이터가 평균에서 멀리 퍼져있음을 의미하며, 작으면 데이터가 평균 주변에 집중되어 있음을 의미합니다. 4) 범위(Range): 범위는 데이터의 최댓값과 최솟값의 차이를 나타냅니다. 데이터의 전반적인 변동성을 대략적으로 파악하는 데 사용됩니다. 5) 백분위수(Percentile): 백분위수는 데이터를 크기순으로 정렬했을 때 해당 백분율 위치에 있는 값을 나타냅니다. 6) 사분위수(Quartiles): 사분위수는 데이터를 크기순으로 정렬했을 때 25%, 50%, 75% 위치에 있는 값을 나타냅니다. 데이터의 분포와 중심 경향성을 파악하는 데 사용됩니다. 7) 범위밖 이상치(Outliers): 기술통계적 방법 중 하나로, 데이터에서 범위를 벗어난 극단적인 값들을 탐지하는 기법입니다. 이상치는 데이터 분석 결과에 영향을 미칠 수 있으므로, 이를 식별하고 처리하는 데 사용됩니다. 8) 빈도분석(Frequency Analysis): 범주형 변수의 각 범주가 데이터에서 얼마나 자주 나타나는지를 분석하는 방법입니다. 빈도분석은 범주형 변수의 분포와 상대적인 빈도를 파악하는 데 사용됩니다. 9) 상관분석(Correlation Analysis): 두 변수 사이의 관계의 강도와 방향성을 파악하기 위해 사용되는 분석 방법입니다. 상관분석은 변수 간의 선형적인 관계를 평가하고, 이를 통해 변수들 간의 상호작용을 이해하는 데 도움을 줍니다. 10) 회귀분석(Regression Analysis): 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 예측하는 데 사용되는 분석 방법입니다. 회귀분석은 독립 변수의 변화가 종속 변수에 어떤 영향을 미치는지를 이해하는 데 활용됩니다. 11) 표본분포(Sampling Distribution): 통계적 추론에서 중요한 개념으로, 표본 데이터로부터 모집단의 특성을 추론하는 데 사용됩니다. 표본분포를 통해 추론에 대한 신뢰도와 정확성을 평가할 수 있습니다.

 

2. 추론 통계

표본 데이터를 기반으로 모집단의 특성을 추론하는 통계적인 방법을 의미합니다. 심리학 분야에서 추론통계는 연구 결과의 일반화와 추론을 위해 널리 사용됩니다. 이를 통해 작은 규모의 표본 데이터로부터 모집단에 대한 결론을 도출하고, 심리적 현상에 대한 일반적인 성질을 파악할 수 있습니다.

1) 모집단(Population): 연구의 대상이 되는 전체 집단을 의미합니다. 모집단은 보통 매우 크기 때문에 모든 개체를 조사하기 어렵거나 비용이 많이 들기 때문에 표본 데이터를 사용하여 모집단에 대한 정보를 추론합니다. 2) 표본(Sample): 모집단으로부터 선택된 작은 부분 집단을 의미합니다. 표본은 모집단의 대표성을 유지하면서도 조사가 용이하도록 선택되어야 합니다. 표본은 추론의 기초가 되며, 모집단에 대한 정보를 얻기 위해 분석됩니다. 3) 표본분포(Sampling Distribution): 표본에서 얻은 통계량(예: 평균, 비율, 차이 등)의 분포를 의미합니다. 표본분포는 표본 크기와 관련하여 변동성을 나타내며, 이를 통해 통계량의 특성과 신뢰도를 추정할 수 있습니다. 4) 추정(Estimation): 표본을 사용하여 모집단의 특성(예: 평균, 비율, 상관관계 등)에 대한 값을 추정하는 과정입니다. 추정은 점추정(Point Estimation)과 구간추정(Interval Estimation)으로 나뉩니다. 점추정은 단일한 값을 제시하고, 구간추정은 예상값의 범위를 제시하여 추정합니다. 5) 가설검정(Hypothesis Testing): 통계적 가설을 설정하고, 표본 데이터를 분석하여 가설의 참/거짓을 판단하는 과정입니다. 일반적으로, 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)을 설정하고, 표본 데이터의 분석 결과를 통해 가설을 지지하는지 여부를 결정합니다. 6) 오차율(유의 수준) 설정: 가설검정에서는 오차율을 설정하여 가설을 판단합니다. 일반적으로, 유의 수준 (significance level)로 알려진 오차율을 사용합니다. 유의 수준은 가설을 기각하기 위해 우연에 의한 가능성을 얼마나 허용할 것인지를 결정합니다. 보통 0.05 또는 0.01의 유의 수준을 사용합니다. 7) 검정통계량과 유의확률: 가설검정에서는 검정통계량을 계산하고, 이를 사용하여 유의확률(p-value)을 구합니다. 검정통계량은 표본 데이터의 특성에 따라 다르게 정의되며, 가설을 판단하는 기준이 됩니다. 유의확률은 검정통계량을 통해 얻은 결과가 우연에 의한 것인지를 판단하는 데 사용됩니다. 유의확률이 유의 수준보다 작을 경우, 귀무가설을 기각하고 대립가설을 지지합니다. 8) 회귀분석(Regression Analysis): 회귀분석은 종속변수와 한 개 이상의 독립변수 간의 관계를 분석하는 통계적 기법입니다. 이를 통해 독립변수의 변화가 종속변수에 미치는 영향을 추정하고 예측할 수 있습니다. 회귀분석은 예측 모델링, 요인 분석, 변수의 중요도 등 다양한 분야에서 활용됩니다. 9) 요인분석(Factor Analysis): 요인분석은 다변량 데이터에서 잠재하는 구조를 파악하는 통계적 기법입니다. 관측 변수들 간의 상관관계를 분석하여 공통된 요인들을 도출하고, 변수들을 이 요인들로 설명하는 것을 목표로 합니다. 요인분석은 변수 축소, 변수의 상호관계 해석, 특성 인지 등에서 활용됩니다. 10) 분산분석(Analysis of Variance, ANOVA): 분산분석은 그룹 간의 평균 차이를 검증하는 통계적 기법입니다. 그룹 간의 평균 차이가 우연에 의한 것인지를 판단하기 위해 사용되며, 세 개 이상의 그룹 간 비교에 적용됩니다.