CS105x Introduction to Apache Spark 1편


MOOC 사이트인 edx의 Spark 수업을 들으면서 정리하는 내용입니다. 부족한 내용 계속 업데이트해 나갈 예정입니다 :) 혹시 부족한 내용 혹은 틀린 부분이 있다면 언제든 알려주세요!

강의는 CS105x Introduction to Apache Spark 이며 언어는 Python 2.7 입니다.


Apache Spark란?

 Scalable, efficient analysis of Big Data

빅 데이터란?

주요 데이터 컨셉

The Structure Spectrum

ETL : Extract-Transform-Load

옛날 분석 툴의 문제점

스파크 컴포넌트 구성

이 강의에서는 SparkSQL을 사용하며 Python Spark (pySpark)를 사용함.

Spark Driver 와 Workers

SparkContext

그리고 sqlContext 객체를 생성. sqlContext를 이용하여 DataFrames를 생성.

DataFrames

ex )
>>> row = Row(name=“Cheese”, age=11)
>>> row
Row(age = 11, name=“Cheese”)
>>> row[‘name’], row[‘age’]
(‘Cheese’, 11)
>>> row.name, row.age
(‘Cheese’,11)

Transformation

Action

스파크 프로그램의 life cycle 정리