Apache Spark

Сегодня у нас в препараторской страшный зверь по имени Spark.

Установка локальной версии (для «поиграться самое оно, вообще ничего настраивать не обязательно, чтобы уже что-то делать) в макоси:

  1. нужна java-машина, так что если у нас нет джавы, то дуем на java.oracle.com, качаем и ставим. На данный момент (декабрь 17-го) имеет смысл брать версию 1.8 — на 1.9 спарк пока не перешёл.
  2. нужен сам спарк. Идём на spark.apache.org/downloads.html в раздел закачки и стягиваем себе тарбол пребилт для хадупа. Не бойтесь пометки про хадуп — его ставить не требуется.
  3. Распаковываем стянутый архив в удобную нам папку. У меня это ~/spark

Всё, у нас есть спарк. 🙂

В линуксах будет аналогично. Под виндой чуть муторнее, но суть та же.

Уже сейчас мы можем запустить консольный клиент и попинать спарк. Клиентов два — для python и для scala. Скалу я пока не знаю, да и начал сомневаться в полезности её изучения. Судя по всему, она умирает. Постепенно всё то же самое начинает уметь делать красиво и джава. То есть, эффективно она умела сразу, а вот красиво/лаконично уже почти совсем научилась. По понятным причинам клиента для джавы нет.

Давайте глянем на пример (взято из книжки «Изучаем Spark»):

Для скалы клиента запускается командой bin/spark-shell. Обе команды пускать из папки спарка, естественно.

К сожалению, спарк пока не умеет в питон-3. Ждём, надеемся и верим. Улыбаемся и машем.

На этом краткое знакомство со спарком можно завершить, но я чуток приколюсь и покажу пример подсчёта числа слов. В указанной книжке он есть для джавы и скалы, а питон авторы обделили. И зря. На мой взгляд, код питона можно сделать сильно похожим на код скала, да и лаконичностью он не обделён. В общем, смотрим:

То же самое на скале:

 

Leave a Reply

Ваш e-mail не будет опубликован. Обязательные поля помечены *