効率的に削除する

重複/類似画像を効率的に削除する

ポイント

1) 1回毎の検索時間を短くすること

2) 1回毎の検索結果が膨大な量にならないようにすること

最初はフォルダ単位で小分けに処理

検索対象のファイルが多いと、検索自体が遅くなるだけでなく、結果も膨大な量になるため、削除するファイルを見極めるのにも時間が掛かってしまいます。


最初に一番下の階層のフォルダ毎に重複を解消した後、対象フォルダを徐々に上位階層へ変更し、フォルダを跨いだ検索を行うようにすると、効率よく重複ファイルを削除できます。


  順番 階層

  ----+-----------------

   5 フォルダ

   3  ├フォルダ

   2  │├フォルダ

   2  │└フォルダ

   1  │ └フォルダ

   4  └フォルダ

   3   └フォルダ

   2    └フォルダ

   1     └フォルダ

重複解消後は、定期的に全体の重複チェック

一度重複を解消した状態にしてしまえば、あとは画像フォルダ全体を対象にして定期的に重複チェックをすれば、重複がない状態を保つ事が容易になります。


DupFileEliminator は、検索対象のファイル数が多くても、実際に重複しているファイルが少ない場合、特に高速に動作するので、日々こまめに重複チェックをする用途に向きます。

類似画像検索は重複を解消した状態で

類似画像検索は、重複ファイル検索よりも重く時間が掛かる処理です。

類似画像検索を行う前に、重複ファイル検索を行って重複を解消しておくことで、効率よく処理を行うことが出来ます。

全く同じ画像のはずなのに、重複ファイルとして検出されない場合

このようなファイルを検出するには、メタデータ無視機能を使用して、データ本体のみを比較するか、類似画像検索を使用します。


多くの場合、メタデータが異なっているだけなので、メタデータ無視機能を使用するだけで、重複ファイルとして検出できるようになります。


稀にファイル内のデータ構造が異なっている事が原因で、重複ファイルとして検出されない場合があります。

この場合は、メタデータを無視しても検出できないので、類似画像検索を使用します。


類似画像検索の全てのパラメータを100%に設定する事で、類似度100%のファイルのみを検出することが出来ます。しかし、類似度が100%であっても、全てのピクセルが完全に一致しているとは限らないので、差分の表示を行って、一致率が100%であることを確認します。


メモ
類似度100% = ほぼ同じ画像と判定した状態
一致率100% = 全てのピクセルが完全に一致している状態