Elasticsearch/スキーマ設計

Indexやらanalyzerやらmappingやらのお話

kibana上での扱い
analyzer
- tokenizer一覧
- analyzerの挙動確認
kuromoji徹底調査
参考サイト

kibana上での扱い†

kibanaでは数値型じゃない項目に対して集計をかけることができない。なのでmappingはきちんと定義しておく必要がある。またindex指定時にフィールドメタデータを読み込むので、更新した場合はkibana側でリフレッシュをかける必要がある。

↑

analyzer†

analyzerとはtokenizer,filterなどをひとまとまりに定義したもの。tokenizerはluceneのものもある

↑

tokenizer一覧†

standard	一文字だけ
edgeNGram
nGram
simple	スペース区切り

↑

NGram Tokenizer†

nGram

elasticsearch.ymlでbigram設定

# test
# default analayzer(2-gram)
index.analysis.analyzer.default.tokenizer: custom_bigram_tokenizer
index.analysis.tokenizer.custom_bigram_tokenizer.type: nGram
index.analysis.tokenizer.custom_bigram_tokenizer.min_gram: 2
index.analysis.tokenizer.custom_bigram_tokenizer.max_gram: 2
index.analysis.tokenizer.custom_bigram_tokenizer.token_chars.0: letter
index.analysis.tokenizer.custom_bigram_tokenizer.token_chars.1: digit
index.analysis.tokenizer.custom_bigram_tokenizer.token_chars.2: symbol

↑

Whitespace Tokenizer†

空白区切り

↑

Pattern Tokenizer†

↑

Lowercase Tokenizer†

Letter Tokenizerの後にLower case Token Filterをかけたものと全く一緒だが、パフォーマンス場はこちらが有利。

↑

Letter Tokenizer†

テキストじゃない部分(空白やらピリオドやら)で分割する。ほとんどのヨーロッパ言語ではうまくいくがアジア系の言語だとひどいことになる。

↑

Keyword Tokenizer†

keywordが全入力を一つの単位として扱う。

kuromoji

日本語の形態素解析

↑

analyzerの挙動確認†

インデックスtestのデフォルトアナライザー

 curl 'localhost:9200/test/_analyze?pretty' -d 'こんにちは世界'

アナライザーの指定も可能

curl 'localhost:9200/test/_analyze?pretty=1&analyzer=my_ngram_analyzer' -d 'Database + fulltext=search'

↑

kuromoji徹底調査†

日本語アナライザーであるkuromojiの調査結果。実際に試してみるのが一番早い。コアのプラグインには指定されているが、利用にはインストールが必要。

https://github.com/elastic/elasticsearch-analysis-kuromoji/tree/v2.7.0/#version-270-for-elasticsearch-17

↑

構成要素†

kuromoji_tokenizer以外はフィルター。ほぼ全てを組み合わせて使うらしい。

kuromoji_tokenizer	通常の形態素解析
kuromoji_baseform	動詞形容詞の基本形を解析する
kuromoji_part_of_speech	part_of_speechで指定した品詞を除去する
kuromoji_readingform token filter	漢字→ひらがなorローマ字

↑

参考サイト†

↑

mapping†

↑

mappingの基礎†

UserAgentなどの用に空白で区切られた文字列をデフォルトで取り込むと解析されてしまい、ブラウザごとのシェアなどが正しく判定できない。全文一致のみ利用するのであればnot_analyzedを指定する。ただしそれだけだと今後は部分一致ができなくなるので部分一致用の設定も入れてあげる必要がある。Multi-Fieldと呼ばれていたが2.0以降ではやり方が違う。

フィールドごとに型定義をし、analyzerの設定も行う

"mappings": {
   "company": {
     "_source": {
       "enabled": true
     },
     "_all": {
       "enabled": true,
       "analyzer": "kuromoji_analyzer"
     },
     "properties": {
       "id": {
         "type": "integer",
         "index": "not_analyzed"
       },
       "name": {
         "type": "string",
         "index": "analyzed",
         "analyzer": "ngram_analyzer"
       },
       "location": {
         "type": "string",
         "index": "analyzed",
         "analyzer": "kuromoji_analyzer"
       }
     }
   },
   "project": {
     "_source": {
       "enabled": true
     },
     "_all": {
       "enabled": true,
       "analyzer": "kuromoji_analyzer"
     },
     "_parent": {
       "type": "company"
     },
     "properties": {
       "id": {
         "type": "integer",
         "index": "not_analyzed"
       },
       "title": {
         "type": "string",
         "index": "analyzed",
         "analyzer": "kuromoji_analyzer"
       }
     }
   }
 }

↑

参考サイト†

Counter: 3049, today: 2, yesterday: 0

*メニュー編集

コンピュータ関係

その他趣味系(別wiki)

外部リンク

今日の訪問 2

オンライン人数 4

Elasticsearch/スキーマ設計

kibana上での扱い†

analyzer†

tokenizer一覧†

NGram Tokenizer†

Whitespace Tokenizer†

Pattern Tokenizer†

Lowercase Tokenizer†

Letter Tokenizer†

Keyword Tokenizer†

analyzerの挙動確認†

kuromoji徹底調査†

構成要素†

参考サイト†

mapping†

mappingの基礎†

参考サイト†

最新の20件

人気の20件

今日の20件