분포도에 관하여. 0 6 2,663

by 김선호 [2007.12.10 11:01:17]


대용량데이터베이스 솔루션을 보다가 질문 하나 남깁니다.

 

인덱스 수립젼략이라는 단원에서 인덱스 수립에 관한 액세스형태를 조사하는 테이블 예시가 나오는데(375page),

 

여기서 '주요컬럼분포도'라고 나옵니다ㅏ.

 

칼럼명     종류    평균     최대     특기사항

salesno   20000   11        100    

salesdate 1500    130       800     월평균5000건,월말에집중

status      25        8000    56000   60,90인 경우가90% 나머지:평균300

 

분포도란 컴럼의 값들이 중복되어 있지 않은 정도를 이야기 하고

분포도가 좋다 -> 컬럼에 들어가는 값들이 다양하다. 중복된 값이 적다.

분포도가 나쁘다-> 컴럼에 들어가는 값들이 적다. 중복된 값이 많다.

 

아마도 종류가 분포도를 의미하는 것 같은데, 그렇다면, '평균'과 '최대'가 무엇을 의미하는지 잘 이해가 안갑니다.

답변 부탁드리겠습니다!

by 손님 [2007.12.10 00:00:00]
종류별 평균, 종류중 최대 가 아닐까요?

by 김선호 [2007.12.10 00:00:00]
status란 값을 예를 들면, 종류가 25가지란 얘기는 컬럼에 들어가는 값이 25가지라는 것을 의미하는 겁니까? 어떤 의민지 모르겠습니다....

by 손님 [2007.12.10 00:00:00]
status 종류 25종, 종류별 평균 row 수 8000row, 종류중 최대 row수 56000 row 로 이해 하면 될듯 한데요.

by 김선호 [2007.12.10 00:00:00]
손님 말로 생각하면, STATUS 는 가질수 있는 VALUE가 25가지 인데 평균 8000로우씩 있으므로 분포도는 아주 않좋다고 할수 있고, SALENO이 분포도가 제일 좋다고 할수 있는 겁니까?

by 손님 [2007.12.10 00:00:00]
status 의 분포도 또한 60 인 데이터와 90 인 데이터를 조건으로 걸지 않는다면, 분포도는 매우 좋다고 볼 수 있겠네요.

by 김선호 [2007.12.11 00:00:00]
답변 감사합니다 ^^.
댓글등록
SQL문을 포맷에 맞게(깔끔하게) 등록하려면 code() 버튼을 클릭하여 작성 하시면 됩니다.
로그인 사용자만 댓글을 작성 할 수 있습니다. 로그인, 회원가입