기록방

[DB] 1장 : 데이터베이스 기본 개념 본문

CS/DataBase

[DB] 1장 : 데이터베이스 기본 개념

Soom_1n 2024. 2. 12. 20:49

01 데이터베이스 필요성

1. 데이터와 정보

  • 데이터(data) : 현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실(fact), 값(value). 자료.
  • 정보(information) : 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물
    • ex) 방금 짠 원유는 데이터, 고객을 위해 공장에서 가공해 팩에 담은 우유가 정보
  • 정보 처리(information processing) : 데이터에서 정보를 추출하는 과정 또는 방법. 데이터를 상황에 맞게 분석하거나 해석하여 데이터 간의 의미 관계를 파악하는 것

2. 정보 시스템과 데이터베이스

  • 정보 시스템(Information System) : 조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정이 필요할 때 처리하여 유용한 정보를 만들어주는 수단
    • 정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 핵심 역할은 데이터베이스가 담당
  • 정보 시스템은 사용 목적에 따라 저장되는 데이터의 내용도 다르고 부르는 이름도 다르다
    • 경영 정보 시스템(MIS; Management Information System) : 기업의 경영 관리에 필요한 의사 결정 용 정보 시스템
    • 의사 결정 지원 시스템(DSS; Decision Support Sysetm) : 복합적이고 광범위한 의사 결정을 위해 사용되는 정보 시스템
💡 흔히 데이터베이스, 데이터베이스 관리 시스템, 데이터베이스 시스템이라는 용어를 구분하지 않고 섞어 쓰는데 모두 다른 용어이다.

02 데이터베이스의 정의와 특징

1. 데이터베이스의 정의

  • 1963년 ‘컴퓨터 중심의 데이터베이스 개발과 관리(Development and Management of a Computer-centered Data Base’ 심포지엄에서 공식적으로 처음 소개됨
  • 데이터베이스(DB; Data Base)
    • 쉽게 말하면 관련 있는 데이터를 모아두는 창고
    • 특정 조직의 여러 사용자가 ‘공유’하여 사용할 수 있도록 ‘통합’해서 ‘저장’한 ‘운영’ 데이터의 집합
  • 데이터베이스는 공유 데이터(Shared Data)
    • 데이터베이스는 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있어야 하는 공용 데이터
    • 사용 목적이 다른 사용자들을 두루 고려하여 데이터베이스를 구성해야함
  • 데이터베이스는 통합 데이터(Integrated Data)
    • 데이터베이스는 데이터 중복성(data redundancy). 똑같은 데이터가 여러 개 존재하는 것을 허용하지 않음
    • 데이터가 중복되면 관리하기 어려운 문제가 발생할 수 있기 때문
    • 하지만, 효율성 때문에 중복을 의도적으로 허용하는 경우도 있으므로, 통합 데이터는 데이터의 중복을 최소화하고 통제가 가능한 중복만 허용하는 데이터라는 의미로 해석
  • 데이터베이스는 저장 데이터(Stored Data)
    • 데이터베이스의 데이터는 주로 컴퓨터가 처리하므로, 컴퓨터가 접근할 수 있는 매체에 데이터베이스를 저장해야 함
  • 데이터베이스는 운영 데이터(Operational Data)
    • 데이터베이스는 조직을 운영하고 조직의 주요 기능을 수행하기 위해 꼭 필요
    • 일시적으로 사용하고 마는 것이 아닌, 지속적으로 유지해야 하는 데이터

2. 데이터베이스의 특징

  • 데이터베이스는 실시간 접근(real-time accessibillity)이 가능하다
    • 데이터베이스는 사용자의 데이터 요구에 실시간으로 응답할 수 있어야 한다
    • 실시간 처리에서는 사용자의 개인 특성이나 제공되는 서비스 유형에 따라 허용되는 응답 시간이 다르지만 대개 몇 초를 넘지 않는 시간 내에 데이터를 제공할 수 있어야 한다
  • 데이터베이스는 계속 변화(continuous evolution)한다
    • 데이터베이스는 현실 세계의 상태를 정확히 반영해야 의미가 있다
    • 현실 세계는 끊임없이 변하므로 DB속 데이터도 계속 변해야 한다
    • 따라서 데이터베이스는 동적인 특징이 있어 데이터를 계속 삽입(insert), 삭제(delete), 수정(update)하여 현재의 정확한 데이터를 유지해야 한다.
  • 데이터베이스는 동시 공유(concurrent sharing)가 가능하다.
    • 데이터베이스는 여러 사용자가 동시에 이용할 수 있는 동시 공유의 특징을 제공해야 한다
      • 동시 공유는 단순히 여러 사용자가 함께 이용한다 거나 시간 차를 두고 같은 데이터 영역을 함께 사용하는 것 뿐만 아니라, 같은 데이터를 동시에 사용하는 것도 모두 지원하는 것을 의미
      • 같은 데이터를 동시에 사용할 수 있도록 하려면 더욱 까다로운 처리 필요
  • 데이터베이스는 내용으로 참조(content reference)가 가능하다
    • 데이터베이스는 저장된 주소나 위치가 아닌 데이터의 내용(content), 즉 값(value)으로 참조할 수 있다
      • 일반적으로 컴퓨터에 저장된 데이터는 저장 주소를 알아야 검색 가능
    • 데이터베이스는 찾고자 하는 데이터의 내용 조건만 제시하면 조건에 맞는 데이터가 서로 다른 위치에 저장되어 있어도 모두 검색할 수 있다.

03 데이터 과학 시대의 데이터

  • 데이터베이스의 가장 중요한 목적은 데이터를 모아두는 것
    • 데이터 과학, 빅데이터도 결국 데이터를 수집하는 것에서 그 기술이 시작
    • 나에게 맞는 데이터를 수집하기 위해서는 먼저 수집 대상이 되는 데이터의 유형을 파악
    • 유형 별로 저장 및 처리 기술을 적합하게 선택하는 것이 중요
    • 다양한 기준으로 데이터의 유형을 구분할 수 있는데 이번 장에서는 저장 및 처리 방식을 선택할 때 중요한 판단 기준이 되는 형태와 특성을 중심으로 데이터를 분류해보자

1. 형태에 따른 데이터 분류

  • 데이터는 구조화된 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터로 분류할 수 있다.
    • 정형 데이터(structured data)
      • 미리 정해진 구조에 따라 저장된 데이터
        • 엑셀의 스프레드시트, 관계 데이터베이스의 테이블 등
      • 데이터 구조에 대한 설명과 데이터 내용은 별도로 유지 됨
      • 미리 정해진 데이터 구조를 스키마(schema)라 한다.
    • 반정형 데이터(semi-structured data)
      • 구조에 따라 저장된 데이터이지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재
      • 데이터 내용에 대한 설명, 즉 구조를 파악하는 파싱(parsing) 과정이 필요하고, 보통 파일 형태로 저장 됨
      • 웹에서 데이터를 교환하기 위해 작성하는 HTML, XML, JSON 문서나 웹 로그, 센서 데이터 등
    • 비정형 데이터(unstructured data)
      • 정해진 구조가 없이 저장된 데이터
      • 소셜 데이터의 텍스트, 영상, 이미지 ,음성, 워드나 PDF 문서와 같은 멀티미디어 데이터
        • 최근 SNS이용자가 늘며 실시간으로 많은 양의 비정형 데이터가 생산되고 있음
  • XML 데이터베이스와 멀티미디어 데이터베이스XML 데이터베이스는 웹에서 시스템 간의 데이터 교환을 위해 작성된 XML 문서를 효율적으로 저장하고 검색할 수 있도록 개발 됨. 기존 데이터베이스에 XML 문서 자체를 하나의 단위로 저장하는 방법과 XML 문서의 계층적 구조를 그대로 유지하면서 효율적인 관리가 가능하도록 XML 전용 데이터베이스를 따로 구성하는 방법으로 나뉜다. XML 전용 데이터베이스를 구성하는 경우 데이터 처리를 위해 XQuery라는 언어를 사용한다.
  • 멀티미디어 데이터베이스는 문자나 숫자 뿐 아니라 이미지, 영상 등이 조합된 멀티미디어 데이터를 효율적으로 저장하고 검색할 수 있도록 개발되었다. 다양한 형태의 데이터를 저장하고 처리하기 위해 객체지향적 접근이 필요하다. 멀티미디어 데이터베이스는 일반 데이터보다 용량이 크다는 점을 고려해야 한다. 또한 실시간으로 저장된 멀티미디어를 읽어내고 전송할 수 있어야 하며 멀티미디어 데이터의 특징을 고려한 검색이 이루어지도록 하는 기능 등이 추가로 필요하다.
  • 앞서 살펴본 데이터 베이스는 정형 데이터를 위한 것이다. 반정형, 비정형 데이터를 위한 데이터베이스 구축에 다양한 시도가 있어왔다.

2. 특성에 따른 데이터 분류

  • 정형 데이터든 반정형 데이터든 그 내부를 좀 더 세밀하게 들여다보면 다양한 특성의 데이터가 모여있다
    • 다양한 특성의 데이터가 어느 정도 구조화된 형태로 모여 있느냐에 따라 분류하는 것
  • 일반적으로 데이터를 특성에 따라 범주형 데이터와 수치형 데이터로 분류한다. 이러한 분류는 통계적 관점에서 데이터 특성에 따라 보다 적합한 분석 방법을 선택하기 위해 데이터 분석 분야에서 주로 활용
    • 범주형 데이터(categorical data)
      • 범주(category)로 구분할 수 있는 값, 즉 종류를 나타내는 값을 가진 데이터를 의미
      • 남자, 여자로 구분되는 성별이나 1학년, 2학년으로 구분되는 학년 등이 해당
        • 명목형 데이터(nominal data)는 순서, 즉 서열이 없는 값을 가지는 데이터를 의미
          • 성별, MBTI, 혈액형, 학과 명, 거주 지역, 음식 메뉴 등
        • 순서형 데이터(ordinal data)는 순서, 즉 서열이 있는 값을 가지는 데이터
          • 학년, 학점, 회원 등급 등
      • 범주형 데이터는 대부분 문자 타입 값으로 양적 측면에서 크기 비교와 산술적인 연산이 가능하지 않기 때문에 질적 데이터(Qualitative Data)라고도 불린다.
    • 수치형 데이터(numerical data)
      • 양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터
      • 양적 데이터(Quantitative Data)라고도 한다.
        • 키, 몸무게, 고객 수, 판매량 등
        • 이산형 데이터(discrete data)는 개수를 셀 수 있는 단절된 숫자 값을 가지는 데이터
          • 보통 소수점이 없는 정수 타입의 값
          • 고객 수, 판매량, 합격자 수 등
        • 연속형 데이터(continuous data)는 측정을 통해 얻어지는 키, 몸무게, 온도, 점수와 같이 연속적으로 이어진 숫자 값을 가지는 데이터
          • 보통 소수점이 있는 실수 타입의 값으로 표현
💡 데이터 유형을 정성적 데이터(qualitative data)와 정량적 데이터(quantitative data)로 분류하기도 한다. 좁은 의미로는 범주형 데이터를 정성적 데이터, 수치형 데이터를 정량적 데이터로 볼 수 있지만, 넓은 의미로 제품이나 서비스에 대한 후기와 같이 사람의 주관적인 생각과 평가를 기술한 비정형 데이터를 정성적 데이터로, 객관적인 측정을 통해 수치나 도형, 기호 등으로 표현한 정형 데이터를 정량적 데이터로 정의하기도 한다. 정량적 데이터에 비해 정성적 데이터가 저장 및 처리 측면에서 더 큰 비용이 드는 경우가 많다.

 

728x90