Spark
これは、なにをしたくて書いたもの? 前にAmazon S3互換のオブジェクトストレージ、MinIOを試してみました。 Amazon S3互換のオブジェクトストレージ、MinIOを試す - CLOVER 今回は、こちらにApache Sparkからアクセスしてみたいと思います。 環境 今回の環…
これは、なにをしたくて書いたもの? スタンドアロンモードのApache Sparkのマスターノード、ワーカーノードをふつうに起動するとバックグラウンドに 行ってしまうのですが。 これをフォアグラウンドで実行する方法はないのかな?と思いまして。 結果からい…
これは、なにをしたくて書いたもの? Apache Sparkのスタンドアロンモードでクラスタを構成してみようかな、と。 それから、ローカルで動かす時のlocal[〜]の意味をよく忘れるので、これもメモしておこうかなと。 環境 今回の環境は、こちらです。 $ java --…
これは、なにをしたくて書いたもの? Apache SparkでPythonプログラムを扱う時(要はPySpark)に、どのPythonを使用するのかがちょっと気になりまして。 調べてみることにしました。 環境 今回の環境は、こちら。 $ lsb_release -a No LSB modules are avail…
これは、なにをしたくて書いたもの? ちょっとした用事で、Apache SparkのTwitter Streamingを使おうかと思ったものの、なくなっていることに気づく どうやらApache Spark 2.0.0で、他のコネクターと一緒になくなったらしい Apache Bahirというプロジェクト…
Apache Sparkを、Apache Groovy+Grapesを使って、スクリプトで動かしてみようかなと。いや、ローカル動作でいいので、少しお手軽にApache Sparkを使う方法が欲しくてですね…。サンプルとしては、こちらのドキュメントを見ながらGroovyスクリプトにしていこ…
SDKMANの「sdk list」を見ていて、Apache Sparkが扱えるようになっていたことに気付きまして。SparkなぜにApache Spark?と思わないでもないものの、どのようなものか試しておきましょう。インストール。 $ sdk install spark $HOMEの.sdkmanディレクトリ配…
Elasticsearch Advent Calendarで出ていた、こちらのエントリを見て、面白そうだなぁと思いまして。Elasticsearch、Logstash、Kibana、Kuromojiでタグクラウドを作る - Taste of Tech Topicsこれを見てパッと思ったのは、タグクラウドにする単語を「名詞」に…
Apache SparkのDataFrame API、Spark SQLで、通常のJDBCアクセス可能なデータベースに対しても操作ができそうな感じだったので、ちょっと試してみました。詳解 Apache Spark作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メー…
Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elasticこちらを使うことで、Apach…
Infinispan 8.0.0.Finalから、Apache Sparkへのコネクタが登場しました。Infinispan: Infinispan Spark connector 0.1 released!Infinispan: Infinispan Spark connector 0.2 released!Spark Tutorial - InfinispanGitHubリポジトリは、こちら。GitHub - inf…
個人的に、Streamingで読み込む対象の用意?に四苦八苦しているSpark Streamingです(笑)。そのうちKafkaに手を出してみたいなぁと思いつつも、ここはいったん簡単なものだけ試してみることにしました。spark-streaming-twitterを使って、Twitterからツイー…
今までは、SparkのStandalone ModeとYARN上で動かすといった動作環境的なものを少し試してきたので、もうちょっとSpark自体で遊んでみようと思いまして。まずは、Spark Streamingの初歩的なところからやってみたいと思います。Spark Streaming Programming G…
このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。調べた感じ、やれないこともなさそうな雰囲気…。Testi…
先ほど、こんなエントリを書きました。Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631ここで使ったプログラムを、YARN上で動かしてみたいと思います。SparkをYARN上で動かす時は、yarn-clientとyarn-c…
Apache Sparkで、HDFS上のファイルに対して読み書きをしてみます。といっても、SparkContext#textFileやRDD#saveAsTextFileへ渡すパスを、「hdfs://」から始まるものにすればよさそうです。なお、HDFSとSparkですが、今回はCDH 5.4.4で構築してみました。な…
前回SparkでHello World的なことをやりましたが、今回はSpark Standalone Modeを試してみることにします。Spark Standalone Mode https://spark.apache.org/docs/latest/spark-standalone.htmlが、そもそもこれってSparkでとりうるDeployment Modeの一種らし…
だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。Apache Spark http://spark.apache.org/Apache Spark の紹介(前半:Sparkのキホン) http://www.slideshare.net/hadoopxnttdata/apache-spark-spark…