今日はImmichのAI検索機能「スマートサーチ」を使ってみた感想を書いていこうと思います。
ImmichのスマートサーチのAIモデル(CLIPモデル)はデフォルトでは「ViT-B-32__openai」になっていて、そちらの検索結果が少し微妙でした。
デフォルトのモデルで「料理」と「お菓子」と検索した結果について書くと、
料理は思ったよりはちゃんと結果が表示されてくれるのですが、ところどころで関係ない写真も結果として表示されました。
次にお菓子と検索するとマンホールが出て、最初何故マンホール?と思いましたが、「静岡市」と書かれているので「しずおかし」だから表示されているのだと後から気づきました。
それ以外にも椎茸などお菓子に関係ないものが表示され、最初の部分はそれなりにちゃんとした結果が表示されるのですが、スクロールしていくにつれて関係ない写真がたくさん表示されました。
そこで、TS-216Gで動かすのは少し厳しいかと思ったのですが、別のモデル「ViT-B-16-SigLIP__webli」を入れてみることにしました。
入れ方はChatGPTによると設定画面だけでは変更できないらしく、Stackの内容を書き換えたり、設定で色々触っていたら変えることができました。
少し時間はかかったものの、無事に読み込みが完了したので、最初日本語で検索してみて、全く関係のない写真が表示されました。
「桜」と検索したのですが、桜のさの字も見当たらない写真ばかりが表示されます。
一瞬何故だろうと思いましたが、普通に考えたら日本語検索に対応していないのだと気づき、検索ワードを英単語で入力してみました。
「Cherry Blossom」と検索したところ、ちゃんと表示してくれました。
次にお菓子の写真を表示させるために、「Sweets」と検索してみました。
一部お菓子があるかが微妙な写真もありますが、最初のデフォルトよりもずっと精度が良くなりました。
他にも「Mt.Fuji」で検索すると、ちゃんと富士山の写真も表示されてくれました。
デフォルトのモデルだとスクロールすると関係ない写真が増えて行きましたが、こちらのモデルだとスクロールしてもちゃんと検索したワードの内容にあった写真が表示されました。
アプリ版でもちゃんと英単語で検索すると表示されるのですが、下にスクロールしていくと一旦短いロードを挟んで続きの写真が表示されるのを何回も繰り返す必要があるため、そこだけは少し微妙でしたが、十分使い物になると思いました。
とりあえず、今回はこの辺で終わりにし、また何か書きたいことが見つかったら書いていこうと思います。
追記(2月3日)
スワップメモリが3GBを超えてしまうので、モデルを標準モデルの「ViT-B-32__openai」に一度戻すことにしました。
スワップメモリが3GB超えたからといって動作がそこまで重くなるわけはなく、多少重くなり、表示が少し遅くなる程度で、QuMagieを使うよりは全然快適ではありますが、気になるので戻そうと思います。
現在標準モデルに戻して再度スキャンしてもらっているのですが、CPUの使用率が60〜70%程度しか使用されていないので、TS-216Gで使う場合マシンへの負荷を考えると、やっぱりこっちの方が良いのかもしれないと感じました。
追記(2/9)
機械学習の負荷をMacBook ProやMacBook Airに肩代わりにしてもらうように設定を編集し、日本語にも対応しているCLIPモデルである「nllb-clip-base-siglip__v1」に変更してみました。
数万枚の写真を再度スキャンし直す作業の際は、Macのファンも回りっぱなしでしたが、半日ほどでスキャンが終わったので、性能の違いを強く感じました。
「nllb-clip-base-siglip__v1」のモデルを使ってみて、一部の日本語には対応しているのですが、「空」や「ラーメン」など一部の言葉だと検索結果がおかしいので、一部は英単語で入力する必要がありますが、デフォルトよりはだいぶ良くなりました。
Macをスリープ状態にすると検索できなくなる点は少しだけ残念ですが、機械学習のコンテナをなくしたことで、Immichの動作も最初の頃のサクサク感が戻ったので、このまま使い続けようと思います。








