CNKP Logo
CNKP Logo
DATA LAKE / DW

데이터 레이크

AI/ML 시대를 위한 무한한 확장성,차세대 데이터 아키텍처의 시작

데이터 레이크란?

데이터 레이크는 구조화된 데이터와 비구조화된 데이터를 원본 형태 그대로 저장하는중앙 집중식 저장소로, 필요에 따라 다양한 분석과 처리가 가능합니다.

원본 데이터 저장

모든 형식의 데이터를 변환 없이 원본 그대로 저장

유연한 분석

필요에 따라 다양한 도구와 방법으로 데이터 분석

확장성

데이터 증가에 따라 스토리지를 유연하게 확장

데이터 웨어하우스 vs 데이터 레이크

데이터 웨어하우스

  • 구조화된 데이터만 저장
  • 사전 정의된 스키마 필요
  • 비즈니스 인텔리전스 중심
  • 처리 후 저장 (Schema-on-Write)
  • 높은 성능, 높은 비용

데이터 레이크

  • 모든 형식의 데이터 저장
  • 스키마 없이 저장 가능
  • 다양한 분석 목적 지원
  • 읽을 때 처리 (Schema-on-Read)
  • 높은 확장성, 낮은 비용

데이터 레이크 아키텍처

Layer 1

데이터 수집

  • 배치 수집
  • 실시간 스트리밍
  • API 연동
  • 파일 업로드
Layer 2

데이터 저장

  • HDFS (분산 파일)
  • Object Storage (S3)
  • Raw/Curated Zone
  • 메타데이터
Layer 3

데이터 처리

  • Spark (In-memory)
  • Hive (SQL-on-Hadoop)
  • Presto/Trino
  • 실시간 처리
Layer 4

데이터 활용

  • BI/분석
  • 머신러닝
  • 리포팅
  • API 제공

CNKP 데이터 레이크의 핵심 기능

01

멀티 소스 통합

다양한 데이터 소스로부터 데이터를 자동으로 수집하고 통합

02

메타데이터 관리

데이터 카탈로그와 메타데이터 자동 관리로 데이터 검색 용이

03

보안 및 거버넌스

세밀한 접근 제어와 데이터 거버넌스 정책 적용

04

고성능 처리

대용량 데이터를 빠르게 처리하는 분산 처리 엔진

05

데이터 품질

자동화된 데이터 품질 검증 및 이상 탐지

06

확장성

클라우드 기반으로 필요에 따라 무제한 확장 가능

데이터 레이크 구축을 시작하세요

CNKP의 전문가가 귀사의 데이터 레이크 구축을 처음부터 끝까지 함께합니다

문의하기