목록전체 글 (61)
Data Blog
1. 표본분산과 비례하는 통계량 W 통계량 $V$는 데이터에서 모평균 $\mu $를 뺀 값을 이용하지만, 표본분산 $s^{2} $은 데이터에서 표본평균 $\overline{x} $를 빼 편차를 계산한다. 그러면 $V$는 카이제곱분포를 하는 통계량이 되는데, 여기서 모평균 $\mu $ 대신 표본평균 $\overline{x}$를 사용하여 제곱한 값들을 더하면, 카이제곱 분포를 따르는 성질이 완전히 사라질까? 결론적으로, 약간의 변경만으로도 카이제곱 분포의 성질은 유지된다. 모평균 $\mu $를 표본평균 $\overline{x} $로 대체하여 $W= (\frac{ x_{1}- \overline{x} }{ \sigma } )^{2} +(\frac{ x_{2}- \overline{x} }{ \sigma } )^..
AARRR이란? 효율적으로 지표를 관리하려면 회사 조직도에 따라 지표를 개별적으로 관리하기보다는 사용자의 서비스 이용 흐름에 따라 단계별로 주요 지표를 전체 서비스 관점에서 정의해야 한다. 즉, 사용자가 서비스를 처음 이용하기 시작하는 순간부터 이탈하는 순간까지의 모든 과정을 포괄하는 일종의 퍼널(Funnel)을 구성하고, 각 단계에서 핵심적인 지표를 찾아내는 것이 중요하다. 이런 맥락에서, 사용자의 이용 흐름에 따른 핵심 지표를 정의하는 데 매우 효율적으로 활용할 수 있는 프레임워크가 있다. 바로 미국 스타트업 액셀러레이터 500 STARTUPS의 설립자인 데이브 맥클루어가 개발한 서비스 성장 분석 방법인 AARRR이다. AARRR은 사용자의 서비스 이용 과정을 기반으로 5가지 주요 카테고리를 정의하고..
이번 포스팅에서는 정규모집단이라는 것을 알고 있으며, 모평균도 알고 있을 때 모분산을 추정하는 방법에 대해 알아보고자 한다. 1. 카이제곱분포의 95% 예언적중구간 앞선 포스팅에서 카이제곱분포에 대해 설명했다. 이 분포를 활용하면 '95% 신뢰 구간'을 통해 예측할 수 있다는 점이 유용하며, 카이제곱 분포의 95% 예측 적중 구간은 자유도에 따라 달라진다. 예를 들어, 표준 정규 분포에서 3개의 데이터를 관측하고 이를 제곱한 후 모두 더한 통계량을 $V$라고 하면, $V$는 자유도 3인 카이제곱 분포를 따른다. 아래 도표에 따르면, $V \geq 0.22$일 때의 상대도수는 97.5%이고, $V \geq 9.35$일 때는 2.5%이다. 따라서 $0.22 \leq V 9.35의 값은 범위에 포함되지 않..
1. 표본분산 앞선 포스팅에서 '표본평균을 통해 정규 모집단의 모평균을 구간 추정할 수 있다'라는 점을 확인하며, 표본평균이 모평균을 반영한다고 할 수 있었다. 그렇다면, 정규 모집단에서 관측된 n개의 데이터로 계산한 표준편차는 모표준편차를 반영하는 것일까? 결론적으로, 표본분산 역시 모분산을 반영하는 분포를 따르지만, 이는 정규분포가 아니다. 그 이유는 표본분산이 편차의 제곱을 합한 값이기 때문에, 결코 음수가 될 수 없기 때문이다. (s^{2} = \frac{(편차1)^{2}+(편차2)^{2}+ \ldots +(편차n)^{2}}{n}) 따라서, 정규 모집단에서 계산된 표본분산은 정규분포를 따르지 않는다고 볼 수 있다. 2. 카이제곱분포란? 표본분산의 식에서 '제곱의 합'에 주목해 보자. 특히, ..
이번 포스팅에서는 정규모집단이라는 것을 알고 있으며, 모분산도 알고 있을 때 모평균을 추정하는 방법에 대해 알아보고자 한다. 1. 표본평균을 이용한 모평균의 구간추정 위 가정에 따라, 모집단이 정규분포를 따르고 있으며, 모표준편차 $\sigma$도 알고 있다고 가정한다. 이 모집단에서 n개의 데이터를 관측하여 표본평균 $\bar{x}$를 계산하는 과정을 반복하면, $\bar{x}$의 분포는 평균이 모평균 $\mu$와 같고, 표준편차는 $\frac{ \sigma }{ \sqrt{n}} $이 된다. 이때, 표본평균 $\bar{x}$의 범위를 예측하기 위해, 관측하기 전에 표본평균이 평균에서 표준편차의 1.96배 이하로 떨어져 있을 확률을 고려할 수 있다. 따라서 $-1.96 \leq \frac{ \over..
📢 본 포스팅에서 사용되는 자료와 출처는 HackerRank 임을 밝힙니다. https://www.hackerrank.com/challenges/weather-observation-station-20/problem?isFullScreen=true 해당 문제를 요약하면 다음과 같다.1. 중앙값이란 상위 50%와 하위 50%를 구분하는 통계량2. lat_n의 중앙값 조회3. 결과는 소수 넷째 자리까지 표시 놀라운 사실은 MySQL에서는 중앙값을 구해주는 함수가 없다는 점이다! 기본적인 세팅은 다음과 같다. 중앙값은 데이터를 크기 순서(ASC 또는 DESC에 상관없이)로 나열했을 때 가운데 순번에 있는 숫자이다. 따라서 이전에 배운 계층형 쿼리인 SET 문을 활용하여 데이터 행에 숫자를 부여하자. 데이터에 ..
1. 가장 최근에 주문한 날짜는?? 위 질문을 듣고 바로 떠오른 풀이법은 첫 번째 방법이다. 그러나 데이터 타입이 날짜형일 경우에는 MIN 함수와 MAX 함수를 사용하여 가장 오래된 날짜와 가장 최근 날짜를 구할 수 있다.-- 방법 1) LIMITSELECT date FROM tableORDER BY date DESCLIMIT 1;-- 방법 2) 집계 함수SELECT MAX(date) AS max_date , MIN(date) AS min_dateFROM records; 2. 날짜형 데이터 타입 필터링 날짜형 데이터 타입은 다음과 같다.DATETIME : 날짜와 시간을 저장하는 데이터 타입 (예: 2022-10-01 18:25:30)DATE : 날짜를 저장하는 데이터 타입 (예: 2022-10-0..
cf. 윈도 함수에 대한 보다 자세한 설명은 아래에 첨부한 포스팅을 참고해 주시기 바랍니다. (먼저 읽어보는 것을 추천합니다!) Window Function으로 집계와 순위 다루기1. 집약 전 + 집약 함수 동시에 다루기 (by Window Function) Window Function을 사용하면 원래 테이블의 값과 집계 함수의 결괏값을 쉽고 효율적으로 조합할 수 있다. 즉, 테이블 전체의 평균값과 user_id별xixinn.tistory.com ABC 분석이란 매출 중요도를 기준으로 상품을 나누는 분석 기법으로, 매출이 높은 카테고리 순서에 따라 분류한다. 이 방법은 매출이 높은 카테고리 순서로 정렬한 후, 매출 합계를 기반으로 카테고리별 매출 비율과 해당 시점까지의 누계를 계산한다. 이후, 사용자의 ..