概念検索
概念検索(Concept Search、コンセプトサーチ、コンセプト検索、自然文検索、自然言語文検索、類似文書検索、連想検索[1])は、自動化された情報検索の手法で、蓄積された非構造化データ(電子アーカイブ、電子メール、科学文献など)から、検索クエリに対して、概念が類似する情報を検索するのに用いられる。特定の文字列やキーワードで検索を想定した全文検索をさらに拡張したもので、自然言語検索や言語横断検索もパターン認識技術などとの組み合わせで実現される。
文書の概念
編集文書を表現するのによく用いられる方法としてベクトル空間モデルなどがあり、これは、文書をひとつのアイテムと考えた場合、アイテムのメタデータ表現の一つである。 文書は単語の連なりから構成されており、文書中に現れる単語とその相対的な重みづけ(tf-idf)で表現することで、文書をベクトル空間の中で特定することが可能となる。つまり、文書を多次元のベクトル空間でひとつの矢印で表現でき、これは文書の特徴、つまり概念を意味するものと考えられる。 概念の解析については潜在意味解析も参照のこと。応用例が紹介されている。
概念の類似度
編集概念の類似度は、文書を表現するベクトル間の距離を計算することで可能となる。つまり、2つの概念の類似度は、多次元ベクトル空間の2つの矢印の先の距離となる。 文書から概念を抽出し、検索に用いられる文字列や文章もひとつの文書と考えて、検索対象の文書との類似度を算出して、類似度の順に結果を表示することで概念検索が可能となる。
概念検索の応用
編集文書(社内文書、技術文書、機密文書、法令、財務文書、プロフィール文書、商品文書など)を概念検索することで、様々なソリューションに応用が可能となる。マルチメディアから文書を抽出したものを検索対象にすることで、さらにソリューションを広げることが可能。