Elasticsearchをセットアップする

Elasticsearchは全文検索エンジン。
AWSやelastic社のクラウドサービスもありますが、インターネットへの接続に制約がある場合など、ローカルの環境に構築することもできます。

もくじ:

はじめに

よく使っていた環境ではElasticsearch 5.xで構築していたのですが、最近Elasticsearch 6.xを使うケースがあり、そのときの導入手順をメモしておきます。
といっても基本的には5.x系と手順はそう変わっていません。

CentOSでのざっくりとした構築手順と、Pythonでの簡単な接続テストについても記載しておきます。

今回の環境はサーバ側がCentOS7, Elasticsearch 6、クライアント側がWindows 10 Pro, Python 3.6です。

認証付きプロキシありの環境では先に環境変数http_proxyを設定しておくと便利です。

今回はrootで作業していますが、他のユーザで作業する場合には環境に合わせてsudoを使って下さい。

Elasticsearchのインストール

ここではyumを使ってインストールしていきます。インストールのみならず、のちのちアップデートする際もyumを使えるので便利です。

yum経由のインストール

前提となるJavaをインストールします。8以上が必須らしいです。

レポジトリに追加します。下記は6.x系の例ですが、5.xに置換すれば5.xが入るはず。

あとはいつものコマンドでインストールできるはず。

設定ファイルの編集

デフォルトではローカルアドレスのみアクセスが許可されていますので、他のマシンから参照できるように設定ファイルを編集します。
/etc/elasicsearch以下の設定ファイル(YAML)には設定項目がコメントアウトされているので、必要な項目のコメントを削除して有効化します。

上の例ではローカルホストと、同一ネットワークのアクセスを許可しています。"0.0.0.0"にすると任意のアドレスからアクセスできるようになりますが、セキュリティ上は慎重に使ったほうがいいですね。
変更を反映するにはサービスの再起動が必要なので、すでに起動している場合は注意して下さい。

ファイヤウォールの設定

ファイヤウォールを利用している場合はElasticsearch用にポートを許可しておきます。デフォルトでは9200, 9300ですが、上記の設定ファイルで変更している場合はそれに合わせて指定して下さい。

サービスの設定

systemctlでサービスの開始・停止の操作、自動起動の設定を制御できます。

うまく起動していれば、ブラウザやcurlなどで接続した場合に設定(JSON形式)を応答してきます。

プラグインのインストール

字句解析用のアナライザなど、付加的な機能はプラグインとして導入することができます。
構成管理用のCLI(binディレクトリにあるスクリプト)を使ってインストールします。

サービス設定から調べると、/usr/share/elasicsearchにインストールされているようなので、binディレクトリのスクリプトを指定して任意のプラグインをインストールします。
下記は日本語の字句解析を行うためのkuromojiプラグインをインストールする例です。

基本はネットワークインストールなのですが、プロキシの内側でインストールする場合には内部的に動作しているJavaの環境変数(オプション)にhttp/httpsプロキシを設定する必要があります。

が、認証付きプロキシではこの方法がうまくいかなかったので、curlでダウンロードしたのちファイルからオフラインインストールする、という二段構えにしました。下記は上記と同じくkuromojiをインストールする例です。
プラグインのオフラインインストール用ファイルのURLはたぶんググれば出てきますが、対象のElasticsearchと互換のバージョンを使って下さい。

構文は見たまんまなのですが、プラグイン名の代わりにダウンロードしたzipファイルの場所を指定しています。zipファイルの場所は環境に合わせて好きな場所に変更して下さい。
今回はrootアカウントを使っているので、esという名前のディレクトリをホームディレクトリ以下に作成してそこに置いています。もちろんインストールが終わればzipファイル自体は削除して大丈夫です。

Pythonでの接続テスト

PythonではElasticsearchのREST APIをラップしたモジュールが提供されているのでこれを使います。いつもの通りpipでインストール可能です。

バージョンはElasticsearchのメジャーバージョンと対応しており、基本的には後方互換性があります。現時点では6系が最新なので、Elasticsearch 5, 6系を使うぶんには特にバージョンを指定しなくてもいけるはず。

ちなみにElastic社は関連のソフトウェアスタックをスイート化し、バージョニングを統一した経緯があり、Elasticsearchのバージョンは2から5に飛んでいます。

設定の取得

単純な操作はElasticsearchクラスを呼べば充分です。
動作確認がてら、一般的な設定を取得してみましょう。下記のようにするとブラウザでトップ(ドキュメントルート)にアクセスした場合と同等の情報を取得することができます。

elasicsearch.Elasticsearch()クラスのシンプルな例では、サーバのアドレスを渡して初期化します。

結果はこんな感じのオブジェクト(整形してあります)になります。

インデックスの作成

実際にデータを投入してみるには下記のようにします。

指定したインデックスindexdoc_typeが存在しない場合には自動的に作成されます。また、ここではbodyにデータ(ドキュメント)となるJSON文字列を渡していますが、マッピング(いわゆるスキーマ)もこのデータに合わせて自動的に定義されます。もちろんマッピングをちゃんと設定するAPIもあります。

Kibanaのインストール

Kibanaは専らElasticsearch用のGUIです。必須ではありませんが、検索や設定変更などちょっとした操作から、ダッシュボードの作成まで、だいたいのことができてしまうのでインストールしておくと楽です。
今回はElasticsearchと同じサーバにセットアップします。

yum経由のインストール

レポジトリの設定はElasticsearchと共通。同じホストにインストールする場合はそのままyumでインストールできます。
逆にElasticsearchと別のホストにインストールする場合は、Javaやレポジトリ設定など前提条件の設定を別途行う必要があります。

設定ファイルの編集

Elasticsearchの場合と同様にアクセス元のアドレスを指定しておきます。

先と同じく、変更を反映するにはサービスの再起動が必要です。

ファイヤウォールの設定

Kibanaの場合はデフォルトが5601番ポートになっていますので必要に応じて許可しておきます。

サービスの設定

これもElasticsearchの場合と同様です。

テスト

うまく設定できていれば、Web UIが立ち上がっているはずです。すでにElasticsearch側にデータが投入されている場合には、検索をかけたりすることもできます。

ブラウザでサーバの5601番ポート(デフォルトの場合)にアクセスします。
手始めにインデックスパターンを作成しておきます。

投入しておいたインデックスを指定。

例えば時刻データのフィールドがある場合はTime filterを指定できます。

サーバ側で自動的に型を解釈してくれていますね。

Discoverタブから検索できます。

おわり。