챕터 4를 공부하는 도중에 실습을 하려고 했다.
당연히 github 내부에 소스코드와 자료가 다 있을 줄 알고, 호기롭게 들어갔지만,
databricks를 사용해야지 소스자료를 확인할 수 있어보였다.
챕터 2, 3은 존재하지만, 4부터 없는것을 확인했다.
Welcome to the GitHub repo for Learning Spark 2nd Edition.
Chapters 2, 3, 6, and 7 contain stand-alone Spark applications. You can build all the JAR files for each chapter by running the Python script: python build_jars.py. Or you can cd to the chapter directory and build jars as specified in each README. Also, include $SPARK_HOME/bin in $PATH so that you don't have to prefix SPARK_HOME/bin/spark-submit for these standalone applications.
For all the other chapters, we have provided notebooks(https://github.com/ooNa0/LearningSparkV2/tree/master/notebooks) in the notebooks folder. We have also included notebook equivalents for a few of the stand-alone Spark applications in the aforementioned chapters.
Have Fun, Cheers!
확인해보니, 다른 모든 챕터를 보기 위해서는 databricks를 사용해달라는 의미인 것 같았다.
Step 1, 무료로 databricks community 회원가입을 해준다.
그리고 "Continue" 버튼을 눌러주면, 아래와 같은 창이 뜬다.
Professional use를 해서 cloud를 사용해서 진행할 건지, 그리고 아래에는 Personal use로 그냥 Community Edition 을 사용해서 진행할 수 있다. 본인은 공부만 하기 때문에 아래꺼로 진행했다.
그리고 들어가주면 대시보드같은 빈 화면이 맞이해주는데,
여기서 "Create notebook"을 선택해서 notebook을 생성해줬다.
그러면 아래와 같이 주피터노트북 같은 페이지가 생성된다.
그러면 여기서 "File > Import > Import from : URL" 을 사용해서 아까 확인한 URL을 복사 붙여넣기를 해준다.
아래의 링크를 복사해서 붙여넣기를 해주면된다.
(복붙이 되겠죠..?)
https://github.com/databricks/LearningSparkV2/blob/master/notebooks/LearningSparkv2.dbc
LearningSparkV2/notebooks/LearningSparkv2.dbc at master · databricks/LearningSparkV2
This is the github repo for Learning Spark: Lightning-Fast Data Analytics [2nd Edition] - databricks/LearningSparkV2
github.com
아 그전에 Cluster를 생성해야하는데,
New > Cluster 를 들어가기 버튼을 누르면 된다.
그러면 아래와 같이 뜨는데,
교재에서 제시한 Runtime: 9.1 LTS (Scala 2.12, Spark 3.1.2) 로 선택해주었다.
그리고 "Create compute" 버튼을 클릭해서 생성을 완료하였다.
Spark config 도 확인해볼 수 있었고,
Instance는 무료 계정으로 15GB 는 무료로 사용이 가능했다. 그리고 시도하다가 자동으로 몇시간 뒤면 꺼진다는 의미인듯, 구글 코랩 무료 버전이랑 비슷했다.
그러고 파일을 확인해보면, clone 한 값들을 확인해볼 수 있는데
해당 파일에 들어가면 Python, Scala 이 두가지 폴더로 정보들을 확인해볼 수 있었다.
안에 들어가면 해당 언어에 맞게 , 책 속의 모든 챕터가 다 들어가 있었다.
정보들이 잘 들어가 있고, 공부하기가 수월했던 것 같다.
아주굿!
'공부' 카테고리의 다른 글
[SQL} SELECT 문 정리 (FROM, WHERE, GROUP BY, ORDER BY, JOIN) (0) | 2024.09.11 |
---|---|
[Learning Spark] Chapter 4 : 스파크 SQL과 데이터 프레임 : 내장 데이터 소스 소개 (1) | 2024.09.01 |
SQL INSERT INTO 문 이해하기 (0) | 2024.08.30 |
vpn이란 (0) | 2024.08.30 |
[Learning Spark] Chapter 2 : 아파치 스파크 다운로드 및 시작 (0) | 2024.08.22 |