꿈꾸는 개발자, DBA 커뮤니티 구루비

히스토그램

데이터의 분포도를 결정하는데 히스토그램을 사용한다.
많은 숫자의 Distinct Value가 Skew된 값이 많을수록 전형적으로 많은 문제를 야기 시켜 왔고 개선 시키 고자 아래와 같은 사항이 포함되었다.

Popular, Unpopular, Almost Popular Value

기존의 높이균형 히스토그램에서 Unpopular Value 여러 개가 하나의 버킷에 저장되었다.
12c의 새로운 Hybrid 히스토그램상에서는 이런 한 버킷의 여러 Unpopular Value 중에서 가장 많은 개수를 가진 값을 Almost Popular Value라고 하고 Endpoint-Value로서 반복 횟수를 저장한다.
Popular Value는 데이터의 빈도수가 많아서 하나 이상의 버킷으로 할당되는 값. 옵티마이저는 해당 값이 popular Value라면 어떤 타입의 히스토그램으로 관리할지를 결정한다.
도수분포 히스토그램(Frequency Histogram)에서는 Unpopular와 Popular Value만이 존재한다. 반면 하이브리드 히스토그램에서는 Almost Popular Value라는 새로운 개념이 등장한다.

Top-Frequency 히스토그램

Distinct Value가 255개보다 적은 경우

도수분포 히스토그램으로 생성한다.
데이터베이스에서 각 Distinct Value나 해당 값마다 몇 개의 로우가 들어가 있는지 value에 관한 정보를 담는 버킷 하나씩을 할당한다.
도수 분포 히스토그램은 옵티마이저에게 컬럼 내의 Distinct Value에 대한 분포에 관한 정확한 정보를 제공해주는 가장 좋은 히스토그램 타입이다.

Distinct Value가 254보다 큰 경우

높이 균형 히스토그램(Height-Valance Histogram)으로 생성된다. 컬럼의 메타데이터가 요약되어 있다.
옵티마이저가 유니크한 값의 분포도와 카디널리티에 관련된 통계 정보를 가질 수 없기 때문에 문제가 될 가능성이 크가.
이런 여파로 옵티마이저는 해당 값의 분포도에 대해서 추정하는 방법을 사용한다.

데이터베이스는 Distinct 컬럼 값이 카디널리티보다 작은 값은 무시(unpopular Value)하고 좀 더 popular한 컬럼 값(높은 카디널리티를 가진)에 집중한다.
사용 가능한 버킷 개수(디폴트로는 254개까지만 특정 개수를 지정할 수도 있다)보다 Distinct Value가 많은 경우
사용 가능한 버킷( n )에 의해서 점유되는 로우의 비율은 (1 - (1/n)) * 100 보다 작거나 같다. 따라서 만약 500개 버킷을 가졌다면 99.8%의 데이터가 버킷에 맞춰서 사용할 수 있다.
따라서 1,000,000개의 로우를 가진다면 998,000 로우가 500개의 버킷 내에서 맞춰서 충분할 카디널리티를 표현하는 컬럼 값을 가질 수 있다. 실제로 낮은 카디널리티의 값에서는 꽤 많은 공간을 남긴다.
dbmsstats 패키지의 ESTIMATEPERCENT 파라미터를 AUTOSAMPLESIZE로 지정한 경우 이전 버전에서 데이터의 비율을 샘플링한 반면에 12C에서는 estimatepercent를 autosamepl_size 값을 설정되어 있는 경우 옵티마이저는 Full Table Scan을 기반으로 히스토그램을 구축 한다.
이는 이전 버전보다 낮은 빈도의 값에(Unique에 가까운 값)에 훨씬 더 신뢰성 있는 데이터를 구축하는 효과가 있다.

하이브리드 히스토그램

하이브리드 히스토그램은 한 버킷으로 여러 개의 값을 표시하는 경우 컬럼 값을 분배 한다.
또한, 해당 버킷에서 맨 마지막 값의 반복되는 횟수를 나타내는 값을 Endpoint Value로서 버킷에 저장한다.
데이터베이스에서 popular Value와 Almost Popular Value에 대한 정확도를 높여서 더 나은 실행 계획 생성을 유도 할 수 있다.

create table hybrid_histogram(id number, the_column number)
insert into hybrid_histogram values(1,1);
insert into hybrid_histogram values(1,2);
insert into hybrid_histogram values(1,2);
insert into hybrid_histogram values(1,2);
insert into hybrid_histogram values(1,51);
insert into hybrid_histogram values(1,51);
insert into hybrid_histogram values(1,71);
insert into hybrid_histogram values(1,81);
insert into hybrid_histogram values(1,81);
insert into hybrid_histogram values(1,82);
insert into hybrid_histogram values(1,83);
insert into hybrid_histogram values(1,83);
commit;
exec dbms_stats.gather_table_stats(null, 'HYBRID_HISTOGRAM', method_opt => 'for columns the_column size 3');



select table_name, column_name, num_distinct, histogram
from user_tab_col_statistics
where table_name = 'HYBRID_HISTOGRAM';



TABLE_NAME                     COLUMN_NAM NUM_DISTINCT HISTOGRAM
------------------------------ ---------- ------------ ---------------
HYBRID_HISTOGRAM               THE_COLUMN            7 HYBRID


select owner, table_name, column_name, endpoint_value, endpoint_repeat_count
from dba_histograms
where owner = 'GHLEE' and  table_name = 'HYBRID_HISTOGRAM'
order by 1, 2, 3, 4;


OWNER      TABLE_NAME                     COLUMN_NAM ENDPOINT_VALUE ENDPOINT_REPEAT_COUNT
---------- ------------------------------ ---------- -------------- ---------------------
GHLEE      HYBRID_HISTOGRAM               THE_COLUMN              1                     1
GHLEE      HYBRID_HISTOGRAM               THE_COLUMN             51                     2
GHLEE      HYBRID_HISTOGRAM               THE_COLUMN             83                     2

단 3개의 히스토그램 버킷을 만들었음.
THE_COLUMN 컬럼은 7개의 Distinct Value를 가지고 있지만 3개의 버킷에만 저장되었으면, 버킷에 나열된 Endpoint 값을 참고하고 Endpoint값이 반복되는 개수와 Endpoint Repeat Count값과 일치 도고 있다.
예를 들어 71, 81, 83값이 담겨 있는 마지막 버킷에는 Endpoint Value인 83의 repeat_count를 통해 2개 임을 정확히 알 수 있다.

히스토그램 버킷의 최대 개수 증가

히스토그램으로 할당되는 버킷의 최대 개수가 Default는 254rowlaks 2048개 까지 히스토그램을 위한 버킷을 생성할 수 있다.