데이터 분석

mysql6

강청색 2023. 12. 20. 17:42

분석 통계 사용

기술통계

 

대표값

-- 데이터 계수 : count

-- 최대/최소/중간값 구하기 : MAX/MIN/MEDIAN 함수

-- 합/평균 : SUM/AVERAGE 함수

-- RANK 함수

 

주기적 통계

-- 일간, 주간, 월간 지표 확안

 

중심경향성

-- 데이터의 중심이 어디인지 나타냄

-- 어떻게 분포되어있느지 파악하는 중심경향

-- 대부분 데이터 값을 데이터 위치의 개수로 나눈 평균을 사용할 수 있음

-- 평균을 통해 각 지표가 전체 지표 중에서 어느 위치인지를 파악하기 좋음

 

대표값 파악

-- 산술평균 : 보통 평균(MEAN)은 관측치 총합을 관측치의 개수로 나누어 구함

-- 기하평균 : 관측치 수의 곱을 관측치 제곱근을 취해 산술한ㄴ 평균값

-- 중앙값(중위수, Median) : 데이터에서 가장 가운데 위치한 값

 

대표값 함수 사용

-- 수치 집계함수

내장함수 설명
SUM(속성이름) 속성 값들을 합계로 낸다
AVG(속성이름) 속성 값들의 평균을 낸다

 

-- 문자열 함수

문자열 함수 설명
FORMAT(X,D) X형식 '#,###,###.##'를 D자리수로 맞춘다.

 

데이터의 분포

분산 :variance

표준편차 : standard deviation

사분위수 : quartile

-- 분산은 개별 요소들이 평균과 얼마나 떨어져 있는지 알 수 있음

-- 편차는 개별 값과 평균의 차이임

 

-- STD, STDDEV, VARIANCE 함수

내장함수 설명
STD(expr) expr의 표준편차를 반환
VARIANCE(expr) expr의 분산을 반환

 

순위 지원함수

--> 특정 열의 값에 대해 순위를 매기는 함수

함수 설명 사례
RANK(속성) 공동 순위만큼 건너뜀 (ex:1,2,2,4,5)
DENSE_RANK(속성) 공동 순위를 뛰어넘지 않음 (ex:1,2,2,3,4)
ROW_NUMBER(속성) 공동 순위를 무시함 (ex:1,2,3,4,5)

 

RANK() 함수

-> 특정 열의 값에 대해 순위를 매기는 함수

PARTION BY 사용

-> 그루핑해서 순위를 매기고자 할 때

 

SELECT와 GROUP BY

--> 그룹 함수로 집계된 데이터에서 소계, 합계는 ROLLUP를 사용하면 됨

GROUP BY WITH ROLL UP

-> NULL에 대해 HAVING 구문을 함께 사용

-> GROUP BY 구문에 제시된 컬럼에 따라 결과는 달라질 수 있다.

'데이터 분석' 카테고리의 다른 글

파이썬에서 표만 크롤링 하는 법  (0) 2024.02.22
mysql5  (0) 2023.12.19
mysql4  (2) 2023.12.18
mysql-3  (0) 2023.12.14
mysql 개념2  (0) 2023.12.13