map reduce

티스토리 뷰

Filesystem

CHOMAN 2018. 8. 21. 14:35

map reduce

기존 관계형 데이터베이스에서 대용량 수십 TB 를 Select 결과 추출 한계성 직면 (google)

단일 노드가 아닌 다수의 노드에서 병렬로 데이터를 저장하고 처리하는 시스템 필요

map reduce 알고리즘 발표

1. parallel, distributed system : 대용량 데이터는 분산된 시스템에서 병렬로 처리

2. Fault-tolerance (내고장성) : 병렬 시스템에서 오류 발생시 전체 시스템에 영향을 줘서는 안된다.

Map : 필요 데이터를 추출하여 Mapping 함수로 보내어 관련 있는 데이터 끼리 묶는 단계

Reduce : Mapping 함수에서 나온 결과 값을 가지고 의미있는 데이터를 추출하는 단계

기본적으로 입출력에 분산파일 시스템을 이용, fault-tolerance를 위해 시스템 적재시 복제되어

2대 이상의 복사본 (replica) 를 가짐

이 복사분 덕분에 몇몇 노드에서 에러가 발생하더라도 복사본 데이터를 다른 노드에서 불러와 작업을

하므로 전체 작업이 멈추는 일은 없이 계정 진행

분산파일 시스템으로 GFS (google file system), Hadoop 에서는 HDFS (HaDoop File System) 사용

MapReduce 2가지 의미

1. Map과 Reduce 과정을 거치는 프로그래밍 모델

2. 위의 모델을 구동하는 프레임 워크 (Apache Hadoop 의 핵심 부분)

원문출처

공유하기 링크

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함