これはPGroonga 2.0.0以降用のドキュメントです。PGroonga 1.Xを使っているならPGroonga 1.Xのドキュメントを見てください。
&@*演算子1.2.1で追加。
&~?演算子は1.2.2から非推奨です。代わりに&@*演算子を使ってください。
&@*演算子は類似文書検索を実行します。
column &@* document
columnは検索対象のカラムです。型はtext型、text[]型、varchar型のどれかです。
documentは類似文書検索で使う文書です。columnがtext型またはtext[]型の場合は型はtext型です。columnがvarchar型の場合は型はvarchar型です。
類似文書検索はdocumentのコンテンツに似たレコードを探します。もし、documentのコンテンツが短かった場合、類似文書検索はそれほど似ていないレコードも返してしまうかもしれません。
この演算子を使うには次のどれかの演算子クラスを指定する必要があります。
pgroonga_text_full_text_search_ops_v2:text型のデフォルト
pgroonga_text_array_full_text_search_ops_v2:text[]型のデフォルト
pgroonga_varchar_full_text_search_ops_v2:varchar用
例に使うサンプルスキーマとデータは次の通りです。
CREATE TABLE memos (
id integer,
content text
);
CREATE INDEX pgroonga_content_index ON memos
USING pgroonga (content);
INSERT INTO memos VALUES (1, 'PostgreSQLはリレーショナル・データベース管理システムです。');
INSERT INTO memos VALUES (2, 'Groongaは日本語対応の高速な全文検索エンジンです。');
INSERT INTO memos VALUES (3, 'PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。');
INSERT INTO memos VALUES (4, 'groongaコマンドがあります。');
&@*演算子を使うと指定した文書と似たレコードを検索できます。
SELECT * FROM memos WHERE content &@* 'MroongaはGroongaを使うMySQLの拡張機能です。';
-- id | content
-- ----+---------------------------------------------------------------------------
-- 3 | PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。
-- (1 row)
シーケンシャルスキャンでは類似文書検索を使うことはできません。シーケンシャルスキャンで類似文書検索を使うと次のエラーが返ります。
SELECT * FROM memos WHERE content &@* 'MroongaはGroongaを使うMySQLの拡張機能です。';
-- ERROR: pgroonga: operator &@* is available only in index scan
日本語の文書を類似文書検索する場合はデフォルトのTokenBigramではなくTokenMecabを使う方がよいです。
CREATE INDEX pgroonga_content_index ON memos
USING pgroonga (content)
WITH (tokenizer='TokenMecab');
TokenMecabは対象の文書を(ほぼ)単語にトークナイズします。これにより類似文書検索の精度が上がります。
TokenMecabトークナイザーの指定方法についてはCREATE INDEX USING pgroongaも参照してください。