데이터 베이스 정규화란?
정규화(Normalization)란?
정규화의 기본 목표는 테이블 간에 중복된 데이터를 허용하지 않는 것입니다.
중복된 데이터를 허용하지 않음으로써 무결성을 유지할 수 있으며 DB의 저장 용량 역시 줄일 수 있습니다.
무결성이란?
데이터의 정확성, 일관성이 유지되는 것을 의미합니다.
- 정확성 : 중복이나 누락이 없는 상태
- 일관성 : 원인과 결과의 의미가 연속적으로 보장되어 변하지 않는 상태
위의 내용은 정규화를 해야 하는 이유와 일치합니다.
정규화를 하기 위해서 테이블을 분해하는 과정이 존재하는데 여기서 테이블이 어떻게 분해되는지에 따라 정규화 단계가 달라지는데, 각각의 정규화 단계에 대해 자세히 알아보도록 하겠습니다.
여기서는 가장 많이 사용되는 4단계를 살펴볼텐데 정규화는 6단계까지도 존재합니다.
제1 정규화
제1 정규화란 테이블의 칼럼이 원자값(Atomic Value, 하나의 값)을 갖도록 테이블을 분해하는 것입니다.
예를 들어 아래와 같은 고객 취미 테이블이 존재한다고 가정해보겠습니다.
위의 테이블에서 추신수, 박세리는 여러 개의 취미를 가지고 있기 때문에 하나의 값을 가져야 하는 원자 값을 위배합니다.
즉, 제 1 정규형을 만족하지 못하고 있습니다.
그렇기 때문에 이를 제1 정규화로 분해하면 다음과 같이 변합니다.
제2 정규화
제2 정규화란 제1 정규화를 진행한 테이블에 대해 완전 함수 종속을 만족하도록 테이블을 분해하는 것입니다.
완전 함수 종속이란?
기본키의 부분집합이 결정자가 되어선 안된다는 것을 의미합니다.
이렇게만 들으면 이해가 안 될 수 있기 때문에 예시를 들어보겠습니다.
이 테이블에서 기본키는 (학생번호, 강좌 이름)으로 복합 키입니다.
그리고 기본키(학생 번호, 강좌 이름)는 성적을 결정하고 있습니다.
그런데 여기서 강의실이라는 칼럼은 기본키의 부분집합인 강좌 이름에 의해 결정될 수 있습니다.
- 강좌 이름이 데이터베이스라면 공학관 110입니다.
- 강좌이름이 자료구조라면 공학관 111입니다.
즉, 기본키의 부분집합인 강좌이름이 결정자가 되었기 때문에 이는 제2 정규형을 만족하지 않습니다.
다음과 같이 기존의 테이블에서 강의실을 분해하여 별도의 테이블로 관리하여 제2 정규형을 만족시킬 수 있습니다.
제3 정규화
제3 정규화란 제2 정규화를 진행한 테이블에 대해 이행적 종속을 없애도록 테이블을 분해하는 것입니다.
이행적 종속이란?
A -> B, B -> C가 성립할 때 A -> C가 성립되는 것을 의미합니다.
이행적 종속 또한 예시를 통해서 보겠습니다.
기존의 테이블에서 학생 번호는 강좌 이름을 결정하고 있으며 수강료는 강좌 이름에 의해 결정됩니다.
학생 번호(A) -> 강좌 이름(B) , 강좌이름(B) -> 수강료(C) 이므로 즉, 이행적 종속을 가지고 있습니다.
이행적 종속을 제거하는 이유는 간단합니다.
예를 들어 501번 학생이 수강하는 강좌가 스포츠경영학으로 바뀌는 경우를 가정해보겠습니다.
이행정 종속이 존재하기 때문에 501번 학생은 스포츠경영학이라는 수업을 20000원이라는 수강료로 듣게 됩니다.
물론 강좌 이름에 맞게 수강료를 다시 변경할 수 있지만, 이러한 번거로움을 없애기 위해서 제3 정규화를 하는 것입니다.
정규화 이후 테이블의 결과는 다음과 같습니다
BCNF 정규화
BCNF 정규화란 제3 정규화를 진행한 테이블에 대해 모든 결정자가 후보 키가 되도록 테이블을 분해하는 것입니다.
후보키란?
릴레이션을 구성하는 속성들 중에서 튜플을 유일하게 식별하기 위해 사용하는 속성들의 부분집합.
즉, 기본키로 사용할 수 있는 속성들을 말합니다.
예를 들어 다음과 같은 특강 수강 테이블이 존재한다고 가정하겠습니다.
특강수강 테이블에서 기본키는 (학생 번호, 특강 이름)입니다.
그리고 기본키는 교수를 결정하고 있습니다.
또한 여기서 교수는 특강 이름을 결정하고 있습니다.
여기서 문제는 교수가 특강이름을 결정하는 결정자이지만 후보 키가 아니라는 점입니다.
따라서 BCNF 정규화를 만들기 위해서는 위의 테이블을 다음과 같이 분해해야 합니다.
정규화의 단점
테이블이 많이 분리되기 때문에 join 연산이 많이 필요하게 됩니다.
정규화 실습해보기
정답을 보려면 더보기를 눌러주세요.
핸드폰 번호의 값이 2개 이상입니다.
이는 원자 값을 가지지 않기 때문에 제1 정규형을 위반하고 있으며 제1 정규화 과정을 거치면 다음과 같이 됩니다.
정답을 보려면 더보기를 눌러주세요.
(학번, 과목 코드)가 기본키입니다.
이때 학번이 학부와, 등록금을 결정하기 때문에 기본키의 부분집합이 결정자가 되므로 제2 정규형을 위반하며 제2정규화 과정을 거치면 다음과 같이 됩니다.
정답을 보려면 더보기를 눌러주세요.
학번(A) -> 학부(B) , 학부(B) -> 등록금(C) 현재는 이행적 종속이므로 제3 정규형을 위배하며 제3 정규화 과정을 거치면 다음과 같이 됩니다.
정답을 보려면 더보기를 눌러주세요.
위의 테이블에서 기본키는 (USER_ID, PRODUCT_CODE)입니다.
하지만 SHIPPER_NAME은 SHIPMENT_ID에 의해서 결정됩니다.
이때 SHIPMENT_ID는 후보키가 아니므로 BCNF를 만족하지 못합니다.
BCNF 정규화 과정을 거치면 다음과 같이 됩니다.
출처
https://mangkyu.tistory.com/110