최근 포토로그


Apache Tajo Project #1 by 우람궁딩

하둡 기반 하에서의 
데이터 핸들링은 HDFS에 대한 보편적인 기능적 특징을 이해하고 나면 뭔가 이질감이 들게 마련이다
하지만, 개발자들은 보다 손쉬운 혹은 보다 익숙한 환경으로 끌어들이고자 하는 노력을 하곤 한다
그 결과로 탄생한 프로젝트 중 하나가 바로 "아파치;타조" 프로젝트이다

현재 필드에서는 하둡 에코 환경 구성에 빠지지 않고 포함되는 것이 
저장된 데이터에 대한 핸들링을 수월하게 하는 HIVE, 임팔라와 같은 솔루션을 적용하곤 한다
하지만, 이런 솔루션이 지닌 한계는 아쉽게도 명확하다.
일반적인 DBMS 혹은 DW용 어플라이언스 제품들이 가지는 고성능은 차치하더라도 말이다.

The main goal of Apache Tajo project is to build an advanced open source data warehouse system in Hadoop for processing web-scale data sets. Basically, Tajo provides SQL standard as a query language. Tajo is designed for both interactive and batch queries on data sets stored on HDFS and other data sources. Without hurting query response times, Tajo provides fault-tolerance and dynamic load balancing which are necessary for long-running queries. Tajo employs a cost-based and progressive query optimization techniques for reoptimizing running queries in order to avoid the worst query plans. "

아파치 타조 프로젝트 사이트의 위 소개글을 요약하면 ..

Apache Tajo 프로젝트의 주요 목표
 - Web-Scale 규모의 데이타 셋을 처리하기 위해 Hadoop 상에서 advanced open source 데이터웨어하우스 시스템을 구축

제공하는 기능 및 특징
 - 표준 SQL 쿼리 지원 
 - HDFS 및 기타 데이터 소스에 저장된 데이터 세트에 대한 대화식 쿼리와 일괄 쿼리 지원 
 - 쿼리 응답 시간에 지장을 주지 않으면서 장시간 실행되는 쿼리에 필요한 내결함성과 동적 로드밸런싱 제공
 - 최악의 쿼리 계획을 피하고, 실행 쿼리를 다시 최적화하기 위해 비용 기반의 점진적 쿼리 최적화 기술 적용 

소개글에서와 같이
보통의 DBMS의 기술적, 환경적인 요소들을 고민하고
거기에 따른 대안을 찾아내어 개선하고 있는 것으로 보인다

(계속...)
 




포춘쿠키