Solrに送信した検索クエリは、対象のフィールド型に基いて分解した上で実行される
例えば、フィールド型 text_cjk (2-gram) への検索クエリを発行した場合、以下のようなリクエストになると思いますが、
localhost:8983/solr/core/select?q=さくら
(なお、クエリはURLエンコード処理すること)
Solrは受け取ったクエリ「さくら」を、対象のフィールド型に基いて 「さく」「くら」に分解し、それぞれの検索結果を返します。
Posted at 4月 23, 2014
例えば、フィールド型 text_cjk (2-gram) への検索クエリを発行した場合、以下のようなリクエストになると思いますが、
localhost:8983/solr/core/select?q=さくら
(なお、クエリはURLエンコード処理すること)
Solrは受け取ったクエリ「さくら」を、対象のフィールド型に基いて 「さく」「くら」に分解し、それぞれの検索結果を返します。
Posted at 4月 23, 2014
全文検索エンジンのApache Solr (Lucene)を運用する際に、Solrの管理ページやAPI(select, update等)をDigest認証で守る方法です。
SolrはWebサーバとして動作するので、どんな言語環境からでもHTTP通信するだけで利用できるのが良いところ。
反面、ローカル環境にでも置かない限り、どこからでも接続ができてしまいます。
通信内容まで暗号化するSSL+Basic認証にするのが一番堅牢だと思いますが、ひとまずログインだけでも安全にしたいという場合に。
Posted at 4月 18, 2014
しばらく前に作った2chのスレッド検索サービスですが、検索のオプション設定を用意しました。
今まではスレッド作成日時順で表示していましたが、勢い順でも見れるようにしました。また、pink板(いわゆる大人向けの板)を除外できるようにしました。and検索も出来るようになりました。(恥ずかしながら、即興で作ったので前はできてなかった)
Posted at 11月 26, 2013
Twitter分析サービスのSeartwiにて「世界のTwitterユーザー (People on Twitter)」を公開しました。
世界の地域別(アジアやヨーロッパ等)・国別にTwitterのアカウントを分類して一覧しています。
いまのところ全部で20カ国くらいですが、ある程度のボリュームが揃い次第、順次ほかの国も追加していこうかと思ってます。 とりあえず人気順に並べていますが、今後フィルタを導入して、表示するユーザーを絞ったりできればなと考えてます。
都市別も出来ればやってみたいですね。
Posted at 10月 09, 2013
Webサービスやアプリのローカライズで翻訳作業が必要になったので、 ウェブで人に依頼できる翻訳サービスを調べてみました。
(2013年の記事なので、情報が古いことがあります)
料金は、ほぼ文字数ベースで、1文字5〜20円くらい(元文で換算)と色々。例えば元文で1000文字の日本語を英語に翻訳したいとき、単価10円の人に頼むと、費用は10000円。交渉できる場合もある。 文字数の上限を設けて1クレジット買い切りみたいなのもある。(Conyacとか)
Posted at 10月 01, 2013
しばらく前からですが、Twitter検索に分析・集計機能を加えたクライアント的なサービス「Seartwi」を開始しています。
2013中頃くらいから水面下で作りはじめ、ひっそりと公開し、Googleさんからの流入を頼りにしつつ試験運用、改善の繰り返しで、割りと体裁は整ってきました。
発端は、あるキーワードでTwitterから調べた時の、
「この話題はどんな言語で話す人々が興味を持って発言しているんだろう。」
「古いユーザーばかりなのか、新規ユーザーはどれくらいいるのか。」
…という疑問からでした。
Posted at 7月 02, 2013
ここのところ、JavaScriptを使って結構な量のコードを書くことが増えて、デバッグ用に使っている console.log や console.time などをリリース前に簡単に消去できないかと思っていました。
(最初から消すことを念頭において書いていけばいいのだが)
リリース前に .js は Optimize(最適化)を行いますが、requirejsなどの最適化ツール(r.js)を通せばやってくれるものだと思っていました。が、どうもツールによっては、やってくれないことがあって困った。
そこでまぁ、ちょっと考えたのですが、JavaScriptってネイティブなメソッドの上書き(あまり好ましくないが)が出来てしまうんですよね。
console.log そのものを、何も返さない関数のオブジェクトで上書きしてやればいいじゃないかと。
window.console = {}; window.console.log = function(i){return;}; window.console.time = function(i){return;}; window.console.timeEnd = function(i){return;};
このコードが実行されると、console.log や console.time は何も出力しない関数になります。
リリース時は、スクリプトの先頭に上記のコードを記述しておいてやれば、
コードからわざわざ console.log 等を消す作業は必要なくなります。
そんなわけで。
Posted at 6月 02, 2013
Posted at 1月 30, 2013
最近、自分が実践している「ホームタイムラインを使わない」Twitterの使い方。
いままでの僕のリストの使い方は、「今は見ないけど残しておきたい人」「ある特定の話題(Webに強いとか、ニュース発信元)」など備忘録としてのまとめであり、作ってもほとんど見ることがないものでしたが、リストをメインに据えた使い方を始めました。
Posted at 6月 08, 2012
Senna (Tritonn) とは、未来検索ブラジルが開発した全文検索エンジンで、2indという機能があります。
(http://d.hatena.ne.jp/keyword/Senna)
MySQLなどでクエリを実行する際、1つのテーブルに対して、全文検索用のFULLTEXTインデックスと、他のインデックスを組み合わせて利用(インデックスマージ)できる機能です。
http://qwik.jp/tritonn/userguide.html#0cb0baa8b27d86e9233f601a9cc9cc4f
この機能を使わず全文検索を実行した場合、関連度合いでソートされた結果が返されます。ですが、大体の用途において、更新日時などでソートしたいことが多いと思います。