CLOVER🍀

That was when it all began.

Spark

Apache Spark 3.1から、Amazon S3互換のオブジェクトストレージMinIOにアクセスする

これは、なにをしたくて書いたもの? 前にAmazon S3互換のオブジェクトストレージ、MinIOを試してみました。 Amazon S3互換のオブジェクトストレージ、MinIOを試す - CLOVER 今回は、こちらにApache Sparkからアクセスしてみたいと思います。 環境 今回の環…

Apache Spark(スタンドアロンモード)のマスターノード、ワーカーノードをフォアグラウンドで起動する

これは、なにをしたくて書いたもの? スタンドアロンモードのApache Sparkのマスターノード、ワーカーノードをふつうに起動するとバックグラウンドに 行ってしまうのですが。 これをフォアグラウンドで実行する方法はないのかな?と思いまして。 結果からい…

Apache Spark 3.1をスタンドアロンモード(ローカルのみ、クラスター構成)で動かす

これは、なにをしたくて書いたもの? Apache Sparkのスタンドアロンモードでクラスタを構成してみようかな、と。 それから、ローカルで動かす時のlocal[〜]の意味をよく忘れるので、これもメモしておこうかなと。 環境 今回の環境は、こちらです。 $ java --…

Apache Spark 3.1(PySpark)で、Pythonの実行パスを指定する

これは、なにをしたくて書いたもの? Apache SparkでPythonプログラムを扱う時(要はPySpark)に、どのPythonを使用するのかがちょっと気になりまして。 調べてみることにしました。 環境 今回の環境は、こちら。 $ lsb_release -a No LSB modules are avail…

Apache Bahirが提供する、Apache Spark向けのコネクター(DStream for Twitter)を試す

これは、なにをしたくて書いたもの? ちょっとした用事で、Apache SparkのTwitter Streamingを使おうかと思ったものの、なくなっていることに気づく どうやらApache Spark 2.0.0で、他のコネクターと一緒になくなったらしい Apache Bahirというプロジェクト…

Apache Groovy+Grapesで、Apache Sparkを動かす

Apache Sparkを、Apache Groovy+Grapesを使って、スクリプトで動かしてみようかなと。いや、ローカル動作でいいので、少しお手軽にApache Sparkを使う方法が欲しくてですね…。サンプルとしては、こちらのドキュメントを見ながらGroovyスクリプトにしていこ…

SDKMANで、Apache Sparkをインストールする

SDKMANの「sdk list」を見ていて、Apache Sparkが扱えるようになっていたことに気付きまして。SparkなぜにApache Spark?と思わないでもないものの、どのようなものか試しておきましょう。インストール。 $ sdk install spark $HOMEの.sdkmanディレクトリ配…

ElasticsearchとKibanaでタグクラウドを作って遊ぶ(Elasticsearch Spark利用)

Elasticsearch Advent Calendarで出ていた、こちらのエントリを見て、面白そうだなぁと思いまして。Elasticsearch、Logstash、Kibana、Kuromojiでタグクラウドを作る - Taste of Tech Topicsこれを見てパッと思ったのは、タグクラウドにする単語を「名詞」に…

Apache Spark(DataFrame API/Spark SQL)で、MySQLのデータを読み書きする

Apache SparkのDataFrame API、Spark SQLで、通常のJDBCアクセス可能なデータベースに対しても操作ができそうな感じだったので、ちょっと試してみました。詳解 Apache Spark作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メー…

ElasticsearchのApache Sparkサポート機能で遊ぶ

Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elasticこちらを使うことで、Apach…

Infinispan(Hot Rod) × Apache Spark

Infinispan 8.0.0.Finalから、Apache Sparkへのコネクタが登場しました。Infinispan: Infinispan Spark connector 0.1 released!Infinispan: Infinispan Spark connector 0.2 released!Spark Tutorial - InfinispanGitHubリポジトリは、こちら。GitHub - inf…

Spark StreamingでTwitterからツイートを読み出す

個人的に、Streamingで読み込む対象の用意?に四苦八苦しているSpark Streamingです(笑)。そのうちKafkaに手を出してみたいなぁと思いつつも、ここはいったん簡単なものだけ試してみることにしました。spark-streaming-twitterを使って、Twitterからツイー…

はじめてのSpark Streaming

今までは、SparkのStandalone ModeとYARN上で動かすといった動作環境的なものを少し試してきたので、もうちょっとSpark自体で遊んでみようと思いまして。まずは、Spark Streamingの初歩的なところからやってみたいと思います。Spark Streaming Programming G…

Apache SparkをScalaTestで動かしたい

このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。調べた感じ、やれないこともなさそうな雰囲気…。Testi…

Apache SparkをYARN上で動かしてみる

先ほど、こんなエントリを書きました。Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631ここで使ったプログラムを、YARN上で動かしてみたいと思います。SparkをYARN上で動かす時は、yarn-clientとyarn-c…

Apache Sparkで、HDFS上のファイルを読み書きする

Apache Sparkで、HDFS上のファイルに対して読み書きをしてみます。といっても、SparkContext#textFileやRDD#saveAsTextFileへ渡すパスを、「hdfs://」から始まるものにすればよさそうです。なお、HDFSとSparkですが、今回はCDH 5.4.4で構築してみました。な…

Apache SparkのSpark Standalone Modeを動かしてみる

前回SparkでHello World的なことをやりましたが、今回はSpark Standalone Modeを試してみることにします。Spark Standalone Mode https://spark.apache.org/docs/latest/spark-standalone.htmlが、そもそもこれってSparkでとりうるDeployment Modeの一種らし…

Apache Sparkことはじめ

だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。Apache Spark http://spark.apache.org/Apache Spark の紹介(前半:Sparkのキホン) http://www.slideshare.net/hadoopxnttdata/apache-spark-spark…