본문 바로가기

공부

[Learning Spark] Databricks 을 통해 notebook 및 cluster 생성 방법

반응형

 

챕터 4를 공부하는 도중에 실습을 하려고 했다.

당연히 github 내부에 소스코드와 자료가 다 있을 줄 알고, 호기롭게 들어갔지만,

databricks를 사용해야지 소스자료를 확인할 수 있어보였다.

 

챕터 2, 3은 존재하지만, 4부터 없는것을 확인했다.

Welcome to the GitHub repo for Learning Spark 2nd Edition.

Chapters 2, 3, 6, and 7 contain stand-alone Spark applications. You can build all the JAR files for each chapter by running the Python script: python build_jars.py. Or you can cd to the chapter directory and build jars as specified in each README. Also, include $SPARK_HOME/bin in $PATH so that you don't have to prefix SPARK_HOME/bin/spark-submit for these standalone applications.

For all the other chapters, we have provided notebooks(https://github.com/ooNa0/LearningSparkV2/tree/master/notebooks) in the notebooks folder. We have also included notebook equivalents for a few of the stand-alone Spark applications in the aforementioned chapters.

Have Fun, Cheers!

 

확인해보니, 다른 모든 챕터를 보기 위해서는 databricks를 사용해달라는 의미인 것 같았다.

 

 

Step 1, 무료로 databricks community 회원가입을 해준다.

 

그리고 "Continue" 버튼을 눌러주면, 아래와 같은 창이 뜬다.

Professional use를 해서 cloud를 사용해서 진행할 건지, 그리고 아래에는 Personal use로 그냥 Community Edition 을 사용해서 진행할 수 있다. 본인은 공부만 하기 때문에 아래꺼로 진행했다.

 

그리고 들어가주면 대시보드같은 빈 화면이 맞이해주는데,

여기서 "Create notebook"을 선택해서 notebook을 생성해줬다.

 

 

 

그러면 아래와 같이 주피터노트북 같은 페이지가 생성된다.

 

그러면 여기서 "File > Import > Import from : URL" 을 사용해서 아까 확인한 URL을 복사 붙여넣기를 해준다.

 

아래의 링크를 복사해서 붙여넣기를 해주면된다.

(복붙이 되겠죠..?)

https://github.com/databricks/LearningSparkV2/blob/master/notebooks/LearningSparkv2.dbc

 

LearningSparkV2/notebooks/LearningSparkv2.dbc at master · databricks/LearningSparkV2

This is the github repo for Learning Spark: Lightning-Fast Data Analytics [2nd Edition] - databricks/LearningSparkV2

github.com

 

아 그전에 Cluster를 생성해야하는데,

New > Cluster 를 들어가기 버튼을 누르면 된다.

 

그러면 아래와 같이 뜨는데,

교재에서 제시한 Runtime: 9.1 LTS (Scala 2.12, Spark 3.1.2) 로 선택해주었다.

그리고 "Create compute" 버튼을 클릭해서 생성을 완료하였다.

 

Spark config 도 확인해볼 수 있었고,

Instance는 무료 계정으로 15GB 는 무료로 사용이 가능했다. 그리고 시도하다가 자동으로 몇시간 뒤면 꺼진다는 의미인듯, 구글 코랩 무료 버전이랑 비슷했다.

 

그러고 파일을 확인해보면, clone 한 값들을 확인해볼 수 있는데

 

해당 파일에 들어가면 Python, Scala 이 두가지 폴더로 정보들을 확인해볼 수 있었다.

안에 들어가면 해당 언어에 맞게 , 책 속의 모든 챕터가 다 들어가 있었다.

정보들이 잘 들어가 있고, 공부하기가 수월했던 것 같다.

 

아주굿!

반응형