분석 통계 사용
기술통계
대표값
-- 데이터 계수 : count
-- 최대/최소/중간값 구하기 : MAX/MIN/MEDIAN 함수
-- 합/평균 : SUM/AVERAGE 함수
-- RANK 함수
주기적 통계
-- 일간, 주간, 월간 지표 확안
중심경향성
-- 데이터의 중심이 어디인지 나타냄
-- 어떻게 분포되어있느지 파악하는 중심경향
-- 대부분 데이터 값을 데이터 위치의 개수로 나눈 평균을 사용할 수 있음
-- 평균을 통해 각 지표가 전체 지표 중에서 어느 위치인지를 파악하기 좋음
대표값 파악
-- 산술평균 : 보통 평균(MEAN)은 관측치 총합을 관측치의 개수로 나누어 구함
-- 기하평균 : 관측치 수의 곱을 관측치 제곱근을 취해 산술한ㄴ 평균값
-- 중앙값(중위수, Median) : 데이터에서 가장 가운데 위치한 값
대표값 함수 사용
-- 수치 집계함수
내장함수 | 설명 |
SUM(속성이름) | 속성 값들을 합계로 낸다 |
AVG(속성이름) | 속성 값들의 평균을 낸다 |
-- 문자열 함수
문자열 함수 | 설명 |
FORMAT(X,D) | X형식 '#,###,###.##'를 D자리수로 맞춘다. |
데이터의 분포
분산 :variance
표준편차 : standard deviation
사분위수 : quartile
-- 분산은 개별 요소들이 평균과 얼마나 떨어져 있는지 알 수 있음
-- 편차는 개별 값과 평균의 차이임
-- STD, STDDEV, VARIANCE 함수
내장함수 | 설명 |
STD(expr) | expr의 표준편차를 반환 |
VARIANCE(expr) | expr의 분산을 반환 |
순위 지원함수
--> 특정 열의 값에 대해 순위를 매기는 함수
함수 | 설명 | 사례 |
RANK(속성) | 공동 순위만큼 건너뜀 | (ex:1,2,2,4,5) |
DENSE_RANK(속성) | 공동 순위를 뛰어넘지 않음 | (ex:1,2,2,3,4) |
ROW_NUMBER(속성) | 공동 순위를 무시함 | (ex:1,2,3,4,5) |
RANK() 함수
-> 특정 열의 값에 대해 순위를 매기는 함수
PARTION BY 사용
-> 그루핑해서 순위를 매기고자 할 때
SELECT와 GROUP BY
--> 그룹 함수로 집계된 데이터에서 소계, 합계는 ROLLUP를 사용하면 됨
GROUP BY WITH ROLL UP
-> NULL에 대해 HAVING 구문을 함께 사용
-> GROUP BY 구문에 제시된 컬럼에 따라 결과는 달라질 수 있다.