공부-Data Engineer/데이터베이스

[쉽게 설명한] 정형, 비정형, 반정형 데이터

ChanKim0718 2020. 6. 3. 23:54
반응형

데이터베이스라는 말은 누구나 들어봤을 것이다.

데이터를 저장하는 장소?

맞다.

그럼 데이터베이스에는 어떤 데이터를 저장할 수 있을까?

숫자? 텍스트(글자)? 그림(이미지)? 음성(소리)? 영상? 파일? 

이렇게 데이터의 종류는 너무나도 많다.

 

행과 열로 이루어진 표에 저장한 데이터

위 그림에서 숫자, 글자와 같이

미리 만들어진 형식 또는 틀에

저장되는 데이터를 정형 데이터라고 한다.

그냥 행과 열로 이루어진 표에 저장할 수 있는 데이터를 정형 데이터라 보면 된다.

엑셀, 구글 스프레드시트, 워드에 저장하는 데이터라고 생각하자.

 

그리고 그림, 음성과 같이 데이터 하나하나가 데이터 뭉치(객체)로

 되어있는 데이터를 비정형 데이터라고 한다.

무슨 말이냐면 우리가 보기에는 그림, 음성 데이터도

표에 삽입할 수 있는 하나의 데이터처럼 보이지만

분석하기 위해서 따로 데이터 형태로 바꿔줘야 하는 파일(데이터 뭉치)로 되어있다.

텍스트 파일도 똑같다. 글자 수의 기준을 정할 수는 없지만

글의 뭉치로 이루어진 스크립트(파일)는 비정형 데이터이다.

 

데이터의 분류

 

 

반정형 데이터도 있다. 여기서 '반'은 반만(Semi) 정형이라는 말이다.

우리가 사용하는 웹페이지를 구성하고 있는 HTML이 대표적인 예이다

여기에 오픈 API로 제공되는 XML이나 JSON도 포함된다. 

보통 반정형 데이터는 파일 형태로 저장되고

파일을 살펴보면 아래 그림과 같은 코드형식으로 쓰여져 있다.

(TIP - 오픈API란? 프로그램을 만드는 개발자에게 필요한 기능을 이용하도록 프로그래밍적인 권한을 제공해 주는 것)

HTML 코드형식

 


이런 데이터의 분류를 왜 배울까?

별거 없다. 앞으로 어떤 데이터베이스를 사용할지 선택해야 하는데

그때 정형, 비정형 데이터에 따라 사용하는 데이터베이스가 다르기 때문이다.

 

반응형