Научите вас, как установить искру на эту машину

Эта статья возникла из личного публичного аккаунта:TechFlow, оригинальность это не просто, прошу внимания

СегодняПервая статья из серии искрыстатья.

В последнее время, поскольку я работал из дома, я сэкономил много времени по дороге на работу и с работы, а сегодняшняя статья о LeetCode относительно небольшая, поэтому я выкроил немного времени.Добавлена статья, и поделитесь с вами материалами, связанными со искрами, которые вы недавно изучили. Ради моего упорного труда прошу всех сделать мне ретвит. . .

PS: Эта тема не гарантирует еженедельных обновлений, ведь не каждую неделю можно обновляться. . .

Ближе к дому искра знаменитаРаспределенные или большие данныеВсе должны были слышать его название. Это среда кластерных вычислений с открытым исходным кодом, разработанная компанией apache, то есть среда распределенных вычислений. По сравнению с MapReduce от Hadoop, он поддерживает больше функций иСкорость работы также выше, в настоящее время стала очень популярной платформой для обработки больших данных. Он есть почти в каждой крупной компании.

искра поддерживает такие вещи, какJava, Скала и PythonИ многие другие языки, но для спарка язык не очень важен, да и код спарка, написанный на разных языках, не сильно отличается. Как и в предыдущей статье, я сосредоточусь на Python, все-такиPython дружелюбен к новичкам(Хотя я сам использую scala на работе).

Сегодняшняя статья начинается с самого основногоискровая установкаВначале установка spark не требует огромного кластера, фактически можно использовать и одну машину. Это также является основой нашего обучения, так что мы можем проводить различные эксперименты на этой машине. В отличие от большинства сред, spark гораздо проще установить, что делает его более удобным.

Загрузить и установить

Войдите на официальный сайт искры, нажмите «Скачать».

Выберите «Предварительно созданный для Apache Hadoop», чтобы у нас былоНет необходимости предварительно устанавливать HadoopЧто ж, поверьте мне, установка Hadoop — это настоящая боль. . .

Продолжайте нажимать на перепрыгнувшую ссылку, чтобы начать загрузку.

Сжатый пакет занимает около 230 МБ, что не очень много, и его можно будет загрузить в ближайшее время. После загрузки вы получите сжатый пакет tgz. Если это Mac, его можно распаковать напрямую, если это Windows, его можно распаковать с помощью инструмента для распаковки, такого как 7z.

также можно использоватьКомандная строкаЧтобы распаковать:

sudo tar -zvxf spark-3.0.0-preview2-bin-hadoop2.7.tgz

После распаковки запомните куда положили, конечно рекомендуюположить в специальное место. Или можно поместить в /usr/local.

Используйте команду для перемещения:

sudo mv ~/Downloads/spark-3.0.0-preview2-bin-hadoop2.7 /usr/local/

базовая конфигурация

После его размещения мы открываем файл конфигурации, чтобы изменить конфигурацию среды. Поскольку я использую терминал zsh, если это собственный терминал, он должен быть .bash_profile, потому что я используюmac, Если вы являетесь пользователем Windows, установите переменную среды Baidu для Windows. . .

vim ~/.zshrc

Добавьте в конец три строчки:

export SPARK_HOME=/usr/local/spark-3.0.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_PYTHON=python3

После изменения не забудьте загрузить ~/.zshrc, чтобы активировать его.

После этого запускаем pyspark, и видим знакомый логотип, значит, наш spark установлен

На данный момент обычно используются два основных метода искр: один — через Python, а другой — через Scala. Оба они довольно распространены, поэтому мы можем кратко понять.

Расширенная конфигурация

Самый простой метод запуска описан ниже. Мы уже представили метод запуска Python. Вы можете напрямую использовать команду pyspark для пробуждения. То же самое для Scala, но команда изменена, она называется не pyspark или scspark, а spark-shell.

Интерфейс, который выходит, похож, но язык изменен на Scala:

И pyspark, и spark-shell предоставляются только sparkсамые основные инструменты, пользовательский опыт не очень хорош и не подходит для текущих нужд. К счастью, есть решение и для этой проблемы, лучшее решение — настроить Jupyter Notebook.

Блокнот Jupyter — очень распространенный интерактивный инструмент программирования, который широко используется. Мы можем настроить Scala и Pyspark в блокноте Jupyter.

Сначала вводится Scala.

Метод настройки Scala очень прост.Поскольку мы уже настроили переменные среды spark, нам нужно толькоУстановите ядро Scala Toree под jupyterВот и все. Метод установки также очень прост, требуется всего две строки команд:

pip install toree
jupyter toree install --spark_home=$SPARK_HOME

После завершения операции мы открываем и нажимаем «Добавить», и мы можем обнаружить, что есть еще одно ядро, которое мы можем выбрать:

Конфигурация pyspark также очень проста, нам нужно всего лишь добавить две переменные среды в .zshrc:

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook

После завершения настройки нам нужно только ввести pyspark в терминал, и он автоматически откроет для нас новую веб-страницу jupyter. Мы можем использовать pyspark для создания нового задания с ядром Python3. Давайте выполним sc, Если мы увидим следующие результаты, это означает, что наш pyspark уже может быть выполнен в jupyter.

На этом этапе вводятся установка и настройка искры. Поскольку я лично использую компьютер Mac, некоторые методы настройки могут быть не полностью применимы к компьютерам с другими системами. Однако процесс настройки аналогичен, и некоторые конкретные детали могут быть настроены целенаправленно.

Spark — очень популярный и широко используемый механизм обработки больших данных, поэтому понимание и освоение Spark также является очень важным навыком. По сравнению с Hadoop, он намного проще в установке и использовании, надеюсь, каждый сможет оценить его прелесть.

На сегодняшней статье все. Если вы чувствуете, что что-то приобрели, пожалуйста, нажмитеПодпишитесь или сделайте ретвитЧто ж, твое маленькое усилие много значит для меня.