ラベル 全文検索 の投稿を表示しています。 すべての投稿を表示
ラベル 全文検索 の投稿を表示しています。 すべての投稿を表示

Apache Solrを使おうとして迷ったこと

Solrに送信した検索クエリは、対象のフィールド型に基いて分解した上で実行される

例えば、フィールド型 text_cjk (2-gram) への検索クエリを発行した場合、以下のようなリクエストになると思いますが、

localhost:8983/solr/core/select?q=さくら

(なお、クエリはURLエンコード処理すること)

Solrは受け取ったクエリ「さくら」を、対象のフィールド型に基いて 「さく」「くら」に分解し、それぞれの検索結果を返します。

Apache SolrのDigest認証とポート変更、アクセスログを記録する

全文検索エンジンのApache Solr (Lucene)を運用する際に、Solrの管理ページやAPI(select, update等)をDigest認証で守る方法です。

SolrはWebサーバとして動作するので、どんな言語環境からでもHTTP通信するだけで利用できるのが良いところ。
反面、ローカル環境にでも置かない限り、どこからでも接続ができてしまいます。
通信内容まで暗号化するSSL+Basic認証にするのが一番堅牢だと思いますが、ひとまずログインだけでも安全にしたいという場合に。

試した環境

  • Solrのバージョンは4.7.1
  • CentOS 6.5

前提条件

  • Solrの起動までは出来ていること
  • Linuxサーバ構築等の基本的な知識はあることが望ましい

全文検索エンジンSennaの2indバグを回避する方法

Senna (Tritonn) とは、未来検索ブラジルが開発した全文検索エンジンで、2indという機能があります。

(http://d.hatena.ne.jp/keyword/Senna)

2ind(2インデックス同時使用)というのは

MySQLなどでクエリを実行する際、1つのテーブルに対して、全文検索用のFULLTEXTインデックスと、他のインデックスを組み合わせて利用(インデックスマージ)できる機能です。

http://qwik.jp/tritonn/userguide.html#0cb0baa8b27d86e9233f601a9cc9cc4f

この機能を使わず全文検索を実行した場合、関連度合いでソートされた結果が返されます。ですが、大体の用途において、更新日時などでソートしたいことが多いと思います。

PAGE TOP