banner

ニュース

Oct 11, 2023

ISUの使用

Scientific Reports volume 12、記事番号: 11604 (2022) この記事を引用

1991年のアクセス数

2 引用

メトリクスの詳細

表面欠陥の検出は工業生産において重要なプロセスであり、コンピューター ビジョンにおける重要な研究の方向性です。 コンピュータビジョンに基づいた今日の深層学習欠陥検出方法は高い検出精度を達成できますが、それらは主に教師あり学習に基づいています。 モデルをトレーニングするには多くの欠陥サンプルが必要ですが、これは工業用欠陥サンプルの入手が難しく、ラベル付けにコストがかかるという現在の状況には適合しません。 そこで、CycleGAN アーキテクチャに基づいた新しい教師なし少量サンプル欠陥検出モデル ISU-GAN を提案します。 Generator にスキップ接続、SE モジュール、Involution モジュールが追加され、モデルの特徴抽出能力が大幅に向上します。 さらに、GAN ベースの欠陥検出に適用し、冗長なノイズ低減後処理を必要とせずに欠陥輪郭を正確に抽出できる SSIM ベースの欠陥セグメンテーション手法を提案します。 DAGM2007 データセットの実験では、教師なし ISU-GAN が、完全なトレーニング セットを使用した教師ありモデルよりも 1/3 未満のラベルなしトレーニング データで、より高い検出精度とより微細な欠陥プロファイルを達成できることが示されています。 より多くのトレーニング サンプルを使用した教師ありセグメンテーション モデル UNet および ResUNet++ と比較して、このモデルでは検出精度がそれぞれ 2.84% および 0.41% 向上し、F1 スコアがそれぞれ 0.025 および 0.0012 向上しました。 さらに、私たちの方法を使用して得られた予測プロファイルは、比較に使用された他のモデルよりも実際のプロファイルに近いです。

実際の工業生産過程では、機械のミスや作業者のミス、生産工程上の問題などにより、製品の表面に欠陥が生じる場合があります。 表面欠陥は製品の美観や性能に影響を及ぼし、ユーザーの満足度を低下させるだけでなく、ユーザーの生命や財産を脅かす安全上の問題となる可能性もあります。 したがって、表面欠陥の検出は工業生産において不可欠な部分です。

長い間、工業用表面欠陥のプロセスは手作業に依存していましたが、これは時間と労力がかかるだけでなく、非常に主観的なものでもあり、高効率かつ高精度で工業生産のニーズを満たすことができませんでした。 したがって、コンピュータビジョンに基づく自動欠陥検出技術が、より人気のある研究方向となっています。 現在、マシンビジョンに基づく自動欠陥検出方法には、主に従来の方法とディープラーニング方法が含まれます。

従来の方法では、画像の構造情報に基づいて欠陥を検出していました。 通常、欠陥の特性と実際のアプリケーション シナリオに基づいて、対応する検出アルゴリズムを設計するには人間の努力が必要です。 マシン ビジョンに基づく現在の従来の欠陥検出方法には、主にガボール フィルタリング 1、改良されたローカル バイナリ パターン アルゴリズム (MB-LBP)2、改良されたソーベル アルゴリズム 3 などが含まれます。従来のビジョン手法のほとんどは、特定の欠陥の特徴に大きく依存しており、エンドツーエンドで達成するのが困難です。 - 終了検出。 さまざまな欠陥に対してさまざまな検査アルゴリズムを手作業で設計する時間と経済的コストは非常に高く、強力な専門知識を備えた多数の人材が必要となるため、工業生産の効率とコストの要件を満たすことが困難になります。 さらに、人間の目で見た欠陥の特徴に基づいた検出アルゴリズムは、実際には外部環境の変化による干渉を受けやすく、十分なロバスト性を実現することが困難です。

深層学習の出現により、畳み込みニューラル ネットワーク (CNN) に基づくさまざまなアルゴリズムが、マシン ビジョンの多くのサブフィールドで驚くべき結果を達成しました。 従来の欠陥検出方法と比較して、ディープラーニング方法では、欠陥の特徴を手動でモデル化する必要がほとんどなくなり、エンドツーエンドの検出が可能になります。 また、高い検出精度、高速な収束、堅牢性という利点もあります。

具体的には、欠陥検出のための標準的な深層学習方法には、ターゲット検出方法、セマンティック セグメンテーション方法、および新しい敵対的生成ネットワーク ベースの検出方法が含まれます。

物体検出は、マシン ビジョンの分野における基本的なタスクです。 その目的は、特定の画像内の特定のオブジェクトの位置またはカテゴリを検出することです。 特に欠陥検出の用途では、欠陥が存在する領域が検出対象として使用されます。 欠陥検出の分野における標準的な検出ネットワークは、SSD4、YOLO5、Faster R-CNN6 などです。欠陥検出分野では、物体検出モデルは通常、速度と精度の点で優れた性能を発揮します。 ただし、欠陥プロファイルを抽出できないことは依然として大きな欠点です。なぜなら、微細なプロファイルは産業における欠陥の原因の調査に役立つからです。

オブジェクト検出のオブジェクト レベルの分類とは異なり、セマンティック セグメンテーションはピクセル レベルの分類を追求します。 オブジェクトレベルの予測フレームを与えるだけでよいオブジェクト検出とは対照的に、セマンティック セグメンテーションでは画像の各ピクセルの分類予測が必要です。 したがって、欠陥検出にセマンティック セグメンテーション ネットワークを使用すると、欠陥の位置が特定され、欠陥の実際の輪郭がセグメント化されます。 欠陥検出における現在の主流のセグメンテーション ネットワークは、Mask R-CNN7、UNet8、SegNet9 などです。セマンティック セグメンテーション モデルは欠陥の輪郭を抽出できますが、ピクセル単位で分類するため、大量のトレーニング サンプルとピクセル単位の注釈。

多くのマシンビジョンベースの欠陥検出技術には、実際の産業用途にとって依然として 2 つの重大な課題があります。 まず、欠陥を含むトレーニング サンプルを取得するのは困難です。 第 2 に、トレーニング サンプルの手動ラベル付けにはコストがかかります。 この場合、敵対的生成ネットワーク (GAN)10 は、強力なデータ生成機能を備えた欠陥検出における新しい考え方を提供します。 機能的に異なる 2 つのネットワーク (Generator G と Discriminator D) を創造的に互いに対抗させます。 これらは、それぞれのパフォーマンスを向上させるために相互にトレーニングされ、その結果、偽から真へのデータを生成できるジェネレーターが生成されます。 この論文で使用されている欠陥検出ネットワークは、GAN-CycleGAN11 のバリアントの 1 つに基づいています。 CycleGAN は本質的に 2 つの鏡像対称 GAN であり、マッピング関係間でサンプルの 2 つの異なる分布を学習でき、画像変換やスタイル移行などのコンピューター ビジョン分野で広く使用されています。

GAN ネットワークのトレーニングは通常教師なしで行われるため、データセットのアノテーションに関連するコストが大幅に節約され、これは実用化において大きな利点となります。

近年、欠陥検出のための深層学習手法が急増しており、多くの新しいモデルが特定のデータセットで優れた検出結果を達成しています。 例えば、Lee et al.12 は、CNN とクラス活性化マップに基づいた鋼表面欠陥検出のためのリアルタイム意思決定方法を提案しました。 Mei et al.13 は、ガウス ピラミッドを備えたノイズ除去オートエンコーダー ネットワークを使用して欠陥を再構築し、マルチスケール フュージョンと組み合わせて生地の表面欠陥を検出し、良好な結果をもたらしました。 Zhong et al.14 は、Faster R-CNN に基づく PVANET++ を提案しました。これは、低レベルの特徴マップを高レベルの特徴マップに関連付けて、提案抽出のための新しい超式マップを形成し、鉄道コッタピンの欠陥の検出に適用されます。 Tabernik et al.15 は、セグメンテーション ネットワークと識別ネットワークに基づいた 2 段階の検出モデルを設計しました。 KolektorSDD データセット上の微細な欠陥プロファイルを抽出しました。 Huang et al.16 は、磁気タイルの表面欠陥を検出するための顕著性画像を生成する、UNet を備えた改良された MCue モジュールを提案しました。 Li ら 17 は、コンクリート表面の亀裂を検出するために、Dense Block モジュールと加算スキップ接続を備えた改良型 UNet を提案し、この方法はコンクリート欠陥データセットで平均ピクセル精度 91.59% と平均 IoU 84.53% を達成しました。 UNET と DenseNet に触発され、Roberts らによって提案された DefectSegNet 18 は、ブロック内およびブロック間のスキップ接続を採用しており、高品質の鉄鋼欠陥データセットで高いピクセル精度を示します。

一般的な深層学習に基づく現在の表面欠陥検出モデルは、高い検出精度とリアルタイム要件を達成できますが、ほとんどの場合、トレーニングのために大量のネガティブ サンプルとラベルが必要であり、コストが高くつき、産業用途での実装が困難です。

表面欠陥検出に GAN を使用することは比較的新しいアプローチであり、Schlegl らによって提案された AnoGAN19 で初めて見られました。 AnoGAN は、トレーニング フェーズ中にポテンシャル空間内の陽性サンプルのストリーミング分布を学習します。一方、テスト フェーズでは、この空間内で最も近いベクトルを繰り返し見つけ、ジェネレーターの出力を元のマップと比較して異常領域を見つけます。 学習フェーズでの反復最適化には時間がかかりすぎるため、著者らは 2019 年にエンコーダ構造を備えた f-AnoGAN の改良版を提案しました20。 f-AnoGAN は、膨大な時間消費の問題をある程度緩和します。 他の同様に改良されたバージョンには、Zenati et al.21 および Akcay et al.22 が含まれます。 Niu ら 23 は、オリジナルの CycleGAN を使用して欠陥を修正し、検出しました。 ネットワークのトレーニングにははるかに多くのサンプルが使用されており、複雑な欠陥の背景の場合に安定した検出パフォーマンスを得るのは困難です。

産業用途における欠陥サンプルの取得の難しさに応えて、Di et al.24 は、畳み込み自己エンコーダ (CAE) と半教師あり敵対的生成ネットワーク (SGAN) を組み合わせて、より良い検出結果を得るために半教師あり CAE-SGAN を提案しました。熱間圧延シート画像のトレーニングが少なくなります。 He et al.25 は、ラベルのないサンプルの疑似ラベルを生成するための cDCGAN と ResNet に基づく融合アルゴリズムを提案し、それを使用して欠陥検出モデルをトレーニングし、NEU-CLS データセットで良好な結果を達成しました。 Zhao et al.26 は、欠陥生成モジュールを使用して陽性サンプルの欠陥を作成し、その後 DCGAN をトレーニングして欠陥を修復する陽性サンプルベースの検出方法を提案しました。 しかし、真の分布に近い欠陥をどのように生成するかは、より困難な問題です。

現在の GAN ベースの欠陥検出方法は、半教師ありまたは教師なしのいずれかにすることができますが、依然として単純な均一なテクスチャ表面でのみ良好に機能します。 複雑な産業検査環境に適用できる GAN ネットワークにはさらなる研究が必要です。

アノテーションのコストが高く、深層学習による欠陥検出のためのトレーニング データの取得が難しいという一般的な問題に対処するために、教師なし ISU-GAN モデルと SSIM ベースの欠陥抽出方法を設計しました。 ISUはInvolution-SE-Uの略で、InvolutionオペレータとSEオペレータを用いたU字型構造のネットワークを意味します。 ISU-GAN は本質的に CycleGAN の改良版です。 元の CycleGAN ネットワーク構造との違いは次のとおりです。 1. ジェネレーターは UNet のような構造を採用し、入力画像のエンコードとデコードのプロセス中に欠陥のある特徴が失われる可能性を減らします。 2. SE オペレーターは、重要度の低いチャネルを抑制するためにクリティカル レイヤーの特徴マップに使用されます。 3. Involution オペレーターは、欠陥領域と非欠陥領域の異なる視覚能力に対する要求を満たすために、ダウンサンプリングによって取得された特徴マップに使用されます。

トレーニング フェーズでは、ポジティブ サンプル (欠陥のないサンプル) とネガティブ サンプル (欠陥のあるサンプル) を相互にマッピングするジェネレーターを取得する方法を学習したいと思います。 欠陥修復ネットワークは陰性サンプルを陽性サンプルにマッピングし、欠陥製造ネットワークは陽性サンプルを陰性サンプルにマッピングします。 テスト段階中。 テスト段階では、テスト画像を欠陥修復ネットワークに入力します。 次に、構造類似性アルゴリズム (SSIM)27 を使用して元の画像と修復画像を比較し、元の画像と同じ解像度の SSIM スコア マップを取得します。 最後に、OTSU アルゴリズム 28 を使用して欠陥の輪郭を適応的に抽出します。

私たちの手法は、少数のトレーニング サンプルのみを使用して、DAGM2007 データセットで 98.43% の平均精度と 0.9792 の F1 スコアを達成しました。 非常に正確な欠陥プロファイルをセグメント化できます。 また、比較実験やアブレーション実験を通じて、他の一般的に使用されている欠陥検出モデルに対する ISU-GAN ネットワーク構造の優位性と、その主要モジュールの有効性を検証します。

一般に、私たちの仕事の革新には主に次の 2 つの側面が含まれます。

我々は、迅速に収束し、小さなトレーニングデータセットで優れた検出精度を達成する、新しい GAN 欠陥検出ネットワーク ISU-GAN を提案します。

GAN ベースの欠陥検出に適用する SSIM ベースの欠陥セグメンテーション手法を提案します。 ラベルを必要とせず、私たちの方法では、冗長なノイズ低減の後処理を行わずに、欠陥の輪郭を正確に抽出できます。

弊社の検出方法の原理です。 (a) トレーニング段階。 (b) テスト段階。 \(G_{n2p}\) と \(G_{p2n}\) はそれぞれ正と負のサンプル生成器、\(D_p\) と \(D_n\) はそれぞれ正と負のサンプル識別器です。 SSIM は構造類似性アルゴリズム、OTSU は OTSU 適応しきい値セグメンテーション アルゴリズムです。

ここでは本論文で提案する欠陥検出手法の原理とISU-GANのモデル構造について述べる。 トレーニング フェーズでは、ISU-GAN をトレーニングして、ネガティブ サンプルとポジティブ サンプル間のマッピング関係を学習します。 ISU-GAN は CycleGAN アーキテクチャに基づいており、図 1 に示すように、連携する 2 つの GAN で構成されています。オレンジ色の実線は \(GAN_P\) を示し、青色の実線は \(GAN_N\) を示します。それぞれ、欠陥の修復と欠陥の生成です。

最初の敵対的ネットワーク \(GAN_P\) は、ジェネレーター \(G_{n2p}\) とディスクリミネーター \(D_p\) で構成されます。 \(G_{n2p}\) への入力は、トレーニング データセット内の負のサンプル セット N です。これにより、N 内の欠陥画像領域が修復され、欠陥を含まない疑似正のサンプル \(\widetilde{P}\) が生成されます。 。 識別器 \(D_p\) への入力は真のサンプル P と擬似陽性サンプル \(\widetilde{P}\) であり、その役割は P を \(\widetilde{P}\) から区別することです。 同様に、別の敵対的ネットワーク \(GAN_N\) は、ジェネレーター \(G_{p2n}\) とディスクリミネーター \(D_n\) で構成されます。 \(G_{p2n}\) への入力はトレーニング データセット内のポジティブ サンプル セット P であり、P 内の画像に欠陥を追加し、欠陥を含む擬似ネガティブ サンプル \(\widetilde{N}\) を生成するのに役立ちます。 。 識別器 \(D_n\) への入力は、真の陰性サンプル N と擬陰性サンプル \(\widetilde{N}\) であり、その役割は N を \(\widetilde{N}\) から区別することです。

CycleGAN のサイクル整合性基準に基づいて、二次擬似陰性サンプル \(\overline{N}\) を生成するには、\(\widetilde{P}\) を \(G_{p2n}\) に入力する必要があります。 \(\overline{N}\) と N が可能な限り類似していることを期待します。つまり、\(n\estimate G_{p2n}(G_{n2p}(n)), n\in N\) です。 同様に、\(\widetilde{N}\) は \(G_{n2p}\) に入力され、二次擬似正のサンプル \(\overline{P}\)、\(p\estimate G_{n2p}( G_{p2n}(p))、p\in P\)。

テストフェーズでは、テストデータセット X (ポジティブサンプルとネガティブサンプルを含む) が、トレーニングから取得された欠陥修復ジェネレーター \(G_{n2p}\) に入力されます。 任意のサンプル \(x\in X\) について、SSIM アルゴリズムを使用して x と \(G_{n2p}(x)\) を比較し、x と同じ解像度の SSIM スコア マップを取得します (スコアが高いほど意味します)領域の類似性が高くなります)。 次に、OTSU 適応しきい値セグメンテーション アルゴリズムを使用して SSIM スコア マップをセグメント化し、x に欠陥があるかどうかを判断し、欠陥の可能性のある輪郭を抽出します。

ジェネレーターはエンコーダー/デコーダーの設計ガイドラインに基づいており、図 2 に示すように、UNet と同様の一般的な構造を持っています。画像がジェネレーターに入力されると、まず 3 \(3 \times 3\) でダウンサンプリングされます。畳み込み層を使用して 256 チャネルの特徴マップを取得します。その後、このマップが SE モジュールを通過して、重要度に応じて特徴マップのチャネルがフィルタリングされます。 その目的は、次の Involution モジュールのチャネルに依存しない特性を最大限に活用して、より重要なチャネルに焦点を当てることです。 モデルの収束を向上させるために、9 つの連続した残差ブロックが Involution レイヤーの後に続きます。 さらに、対称的に設計された Involution モジュールと SE モジュール、および 3 つの \(4 \times 4\) 転置畳み込みによって実装されたアップサンプリング層があります。 特に、ダウンサンプリングとアップサンプリングの操作による特徴の損失を減らすために、スキップ接続を使用して浅い特徴マップと深い特徴マップからの情報を集約します。 そこで、SE モジュールによるダウンサンプリング操作からの 64 チャネルと 256 チャネルの特徴マップをフィルターし、それらをアップサンプリング操作からの同じ数のチャネルに対応する特徴マップと連結し、 \(3 \times 3 \) 畳み込み層を使用してチャネル数を元の状態に戻します。

Generator 構造では、\(\bigstar \) を除くすべての畳み込み層がインスタンス ノルムと ReLU を保持します。

UNet に似たアーキテクチャを備えた Generator ネットワーク構造には、3 つの畳み込みダウンサンプリング層と 3 つの転置畳み込みアップサンプリング層が含まれています。 このネットワークは、スキップ接続を介して下位の特徴マップからの情報を集約し、特徴抽出を強化するためのスクイーズ励起 (SE) モジュールとインボリューション モジュールを含む中間層を備えています。 *StyleGANv229 に触発され、生成された画像に現れる可能性のあるアーティファクトを排除するために、IN レイヤー \(\bigstar \) を削除します。

Discriminator は、4 つの表面 \(4 \times 4\) の畳み込み層のみを含む PatchGAN 構造 30 を使用します。 入力画像は、まずフィルタの乗算数を備えた 3 つの畳み込み層を通過することによって 512 チャネルの特徴マップに変換され、次にフィルタ番号 1 の畳み込み層の作用によって単一チャネルの特徴マップ X にダウンスケールされます。 X 上の各ピクセルは、入力画像の対応する位置領域の識別子のスコアを表します。 従来の識別器と比較して、PatchGAN 構造の識別器は入力画像の各パッチを異なる方法で識別できるため、局所的な画像の特徴を抽出でき、生成される画像の詳細品質の向上に役立ちます。

Discriminator 構造では、すべての畳み込み層に Instance Norm と傾き 0.2 の LeakyReLU が付属しています。 LeakyReLU は、トレーニング中の勾配消失の問題を軽減するために、ReLU の代わりに使用されます。

ダウンサンプリングとアップサンプリングのプロセスによる画像詳細特徴の損失を軽減するために、64 チャネルと 128 チャネルの中間特徴マップの間でスキップ接続を実行しました (図 2 を参照)。ISU-GAN のスキップ接続は、浅い特徴マップをチャネル次元の深い特徴マップに変換します (2 つの特徴マップの解像度が異なる場合は、反射パッドを使用して正確な解像度に調整します)。 次に、 3 \(\times \) 3 の畳み込みを使用して、チャネル数が 2 倍の特徴マップを元のチャネル数に復元します。 従来のスキップ接続とは対照的に、浅い特徴マップは、SE ブロックを使用してチャネル接続前にチャネルの重要度に合わせて再スケーリングされます。 SE モジュールをスキップ接続に追加する利点は、浅い特徴マップの重要な特徴がより適切に集約され、モデルが強化された能力で欠陥プロファイルを抽出できるようになることです。

Squeeze-and-excitation ブロックは文献 [31] で提案されているモジュールであり、個々の特徴チャネル間の関係を学習して各チャネルの重みを取得し、すべてのチャネルの重要性を再スケーリングします。 これにより、モデルは重要な情報を含むチャネルにさらに焦点を当て、重要でないチャネルを抑制することができます。 SEブロックのフローチャートを図3に示します。

スクイーズ操作は、特徴マップの各チャネルで特徴スクイーズを実行し、2 次元マップをチャネル上のすべての特徴を集約する実数に変換します。 この場合、式 1 のように、グローバル平均プーリングを使用してスクイーズ操作が実装されます。 (1)。

SEモジュールの構造。 \(\alpha \) はチャネルのダウンサンプリング率で、\(\otimes \) はテンソル乗算演算を表します。

励起操作は、特徴マップのさまざまなチャネル間の相互関係を学習し、各チャネルの重要性を評価することを目的としています。 フィルター番号 \(\frac{c}{\alpha }\) および c を使用した 2 つの連続する \(1 \times 1\) 畳み込み。ここで、 \(\alpha \) はネットワーク パラメーターを削減するためのチャネル ダウンスケーリング係数です。 2 つの畳み込みと ReLU のアクティブ化の後、各チャネルの重要性を表す \(c \times 1 \times 1\) ベクトルがシグモイド関数を使用して 0 と 1 の間でマッピングされます。 プロセスは式のとおりです。 (2)。

最後に、学習から得られたチャネル重要度ベクトル z に元の特徴マップ x を乗算して、再スケーリングされた特徴マップ \(\widetilde{x}\)、つまり \(\widetilde{x} = z\cdot x\) を取得します。 SE ブロックには、ジェネレーター ネットワーク (図 1 の赤い部分に示す) 内に 4 つのアプリケーションがあり、2 つはスキップ接続の前に、2 つは 256 チャネルの中間層にあります。

従来の畳み込み演算子には、空間独立性とチャネル固有性という 2 つの主な特性があります。 空間に依存しないため、畳み込み効率は保証されますが、畳み込みカーネルが異なる領域の異なるパターンに適応する能力を奪います。 畳み込み内のチャネル冗長性の問題は、多くのよく知られた CNN ネットワークでも解決されていません。

最近の CVPR2021 では、この問題に対処するために Involution モジュール 32 が提案されました。 インボリューション演算子は、畳み込みとは対照的に空間特異性とチャネル独立性を持ち、カーネル生成関数 \(\phi \) を使用して、画像の異なる位置領域に対して異なる畳み込みカーネルを生成します。 Involution オペレーターは、さまざまな空間的位置に基づいてネットワークにさまざまな視覚パターンを与えます。

インボリューション カーネル H の形状は入力特徴マップ x のサイズに依存し、カーネル生成関数は特定のピクセルに基づいて H を生成します。

ここで、\(W_1\) と \(W_2\) は線形変換を表し、\(\sigma \) は BN と ReLU を表します。 \(W_1\) は、\(c \times 1 \times 1\) の位置固有のピクセル表現を \(\frac{c}{r} \times 1 \times 1\) に縮小します (r は縮小率を表します) )、\(W_2\) は \(G \times k \times k\) に変わります。 G は各グループのチャネル数で、グループ内のすべてのチャネルはカーネル H のパラメータを共有します。これは通常 16 に設定されます。最後に、生成されたカーネル H は特定のピクセル領域に対してシングルステップの畳み込み演算を実行します。

表面欠陥検出の場合、Involution モジュールを使用すると、画像のさまざまな領域 (欠陥領域と非欠陥領域) でさまざまな視覚機能のニーズが満たされ、モデルがより現実的な欠陥輪郭を抽出できるようになります。

構造類似性 (SSIM) は、画像の明るさ、コントラスト、構造的特徴を考慮して、2 つの画像の類似性を測定するアルゴリズムです。 SSIM は、これらの違いを、輝度比較関数 l(x, y)、コントラスト比較関数 c(x, y)、構造比較関数 s(x, y) を通じてそれぞれ測定します。

ここで、 \(\mu _x\)、\(\sigma _x\)、\(\sigma _{xy}\) は、それぞれ x の平均、x の分散、x と y の共分散を表します。 形式を単純化するために、\(C_3=C_2/2\) とします。 SSIM の指数関数は式 (1) で表されます。 7。

画質評価では、グローバルに SSIM インデックスを見つけるよりもローカルに SSIM インデックスを見つける方が適切です。 したがって、上記の方程式の平均、分散、および共分散は、スライディング ウィンドウ内のローカル領域で計算されます。 最終的なグローバル SSIM スコアは、スライディング ウィンドウ内のすべてのローカル領域のスコアの平均です。 SSIM ウィンドウのサイズはハイパーパラメータです。 実験的な比較により、これを 9 に設定しました。SSIM アルゴリズムは、2 つの画像の類似性を測定するためだけでなく、SSIM 損失と呼ばれるモデルのトレーニング中の損失測定としても使用できます。 SSIM 損失には、トレーニングの収束が速いという利点があるため、この論文では、事前トレーニング段階で SSIM 損失を使用して、必要なトレーニング時間を短縮します。

ISU-GAN では、敵対的損失 \(L_{GAN}\)、サイクル一貫性損失 \(L_{cycle}\)、およびアイデンティティ損失 \(L_{identity}\) の 3 つの損失関数タイプを使用します。

\(L_{GAN}\) は具体的な実装の観点から \(L_{GAN\_G}\) と \(L_{GAN\_D}\) に分けられ、生成器 G と識別器の最適化対象を表します。それぞれD。 敵対的損失は、式 1、2、3 に示すように、L2 損失を使用して測定されます。 (1) と (2)。ここで、0 と 1 はそれぞれ完全な 0 テンソルと完全な 1 テンソルを表します。 G は、生成された偽のサンプルが D を欺くことを望んでいます。つまり、偽の入力サンプルは、弁別器の出力をできるだけ 1 に近づけます。 逆に、D は本物と偽物のサンプルをできる限り区別したいと考えています。 したがって、入力が実際のサンプルである場合、D はその出力ができるだけ 1 に近づくことを望みます。 一方、偽のサンプルの場合、出力は可能な限り 0 に近づきます。

生成されたモデルの安定性を向上させるために、順方向マッピングと逆方向マッピングを順に実行した後に実際のサンプルから取得されたサンプルが元のサンプルと可能な限り一致するようにしたいと考えています。つまり、\(G_{n2p}(G_{p2n) }(p)) \おおよそ p\) と \(G_{p2n}(G_{n2p}(n)) \おおよそ n\)。 この類似性を測定するには、サイクル整合性損失 \(L_{cycle}\) を使用します。 特に、SSIM 損失の高速収束と L1 損失の高い詳細忠実度の利点を組み合わせるために、\(L_{cycle}\) の損失関数置換戦略を使用します。 式 1 に示すように、最初に SSIM 損失を使用して k エポックをトレーニングして収束を加速し、次にそれを L1 損失に置き換えて、生成された画像の詳細を最適化します。 (10)、ここで経験的に k を 10 に設定します。

陽性サンプルを陰性サンプルとして予測する確率を減らすために、欠陥修復ジェネレーター \(G_{n2p}\) が陽性サンプルをあまり変更しないようにする必要があります。 不要な干渉ノイズを避けるために、p が \(G_{n2p}(p)\) にできるだけ似ていることが期待されます。 この相違度を測定するには、アイデンティティ損失 \(L_{identity}\) を使用します。\(L_{identity}\) は、式 1 に示すように、\(L_{cycle}\) と同じ損失関数置換戦略を使用します。 (7)。

DAGM200733 は、工業用の弱教師欠陥検出用のよく知られたデータセットであり、人工的に生成された 10 個のテクスチャ欠陥が含まれています。 このデータセットは https://hci.iwr.uni-heidelberg.de/node/3616 からダウンロードされます。 各クラスはトレーニング セットとテスト セットに分かれています。 DAGM 内のすべての画像は 512 \(\times \) 512 のグレースケール画像であり、欠陥画像には弱い監視が付けられています。 これらの代表的なクラス (表 1 参照) から 3 つを実験用に選択しました。 クラス 1 は、より多様な表面テクスチャを持ちます。 クラス 6 の表面テクスチャはより乱雑です。 クラス 7 には銀欠陥があります。 これら 3 つのクラスを選択して、それぞれ多様なテクスチャ、乱雑なテクスチャ、およびスライバー欠陥に対する ISU-GAN の堅牢性をテストしました。 使用した 3 つのクラスの欠陥画像を図 4 に示します。

欠陥サンプルの選択された 3 つのカテゴリとそのラベル。 (a ~ c​​) はそれぞれクラス 1、クラス 6、およびクラス 7 であり、(d ~ f) はそれらに対応するラベルです。

この論文の比較実験では、精度 (Acc) と F1 スコアを使用して、さまざまなモデルの欠陥検出の有効性を比較します。 アブレーション研究では、F1 スコアと MSE を使用して、ネットワーク パフォーマンスに対するさまざまなモジュールの影響を調べます。

ここで TN を定義します。つまり、予測された欠陥サンプルと実際に欠陥のあるサンプルです。 FN: 欠陥があると予測されたが、実際には欠陥のないサンプル。 TP: 予測された良品サンプルと実際の良品サンプル。 FP: 良品と予測されたが、実際には不良品であったサンプル。

精度は、式 1 のように、正しく予測されたすべてのサンプルの割合として定義されます。 (2)。

F1 スコアは、二分モデルの精度の統計的に有意な尺度であり、精度と再現率の合計平均として定義されます。

当社のアブレーション研究では、平均二乗誤差 (MSE) を使用して、欠陥修復ジェネレーターによって復元された擬似陽性サンプルと元の陽性サンプルの間の類似性を測定します。 値が低いほど、再構成された画像が元の画像に詳細に近いことを示します。 欠陥領域の修復が良好であればあるほど、MSE が高くなるため、MSE を計算するときに負のサンプルは使用しません。 この論文では、MSE はすべての陽性サンプルの平均として計算されます。

本稿で使用した実験環境は次のとおりです: CPU: Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz、GPU: GeForce GTX 1080Ti、メモリ: 128G、Python: 3.6.13、Pytorch: 1.7。 1.

モデルの収束を改善するために、入力画像のサイズを 512 \(\times \) 512 から 256 \(\times \) 256 に変更し、使用される内挿方法は bicubic34 です。 モデルの堅牢性を向上させるために、バッチ サイズは 1 に設定され、すべての入力イメージが次の 3 つの操作のいずれかで等しい確率で実行されます: (1) 一定の維持、(2) 水平方向の反転、および (3) 反転垂直に。 私たちのネットワークは、オプティマイザー Adam35 を使用し、初期学習率 0.0002、トレーニング エポック 100 で、すべての実験のために最初からトレーニングされました。比較実験セクションでは、ISU-GAN のパフォーマンスを一般的に使用される欠陥検出と比較します。欠陥検出とセグメンテーションのためのセグメンテーション モデル (UNet、ResUNet++) と古典的な GAN ネットワーク (オリジナルの CycleGAN、DCGAN)。 アブレーションの研究セクションでは、ネットワーク パフォーマンスに対する各 ISU-GAN モジュールの影響を比較します。

このセクションでは、ISU-GAN の欠陥検出およびセグメンテーションのパフォーマンスをいくつかのモデルと比較します。 比較に使用されるモデルには、古典的な GAN ネットワーク CycleGAN および DCGAN、一般的に使用されるセマンティック セグメンテーション モデル UNet およびその改良版 ResUNet++ が含まれます。 UNet はセマンティック セグメンテーションの古典的なモデルの 1 つであり、さまざまなセグメンテーション タスクのベンチマーク モデルとしてよく使用され、欠陥検出の分野でも広く使用されています 17、18。 ResUNet++ は UNet ファミリの比較的新しいメンバーであり、ResNet と UNet の利点を組み合わせ、より強力な画像セグメンテーション機能を示す SE ブロックを導入しています。 関連するセクションのセクションで、CycleGAN23 と DCGAN26 が DAGM データセットに実装され、良好な結果が得られたことを述べたので、比較のためにこれらの GAN を選択しました。 テスト段階での実験結果を図5および表2に示します。

実験結果から、他のモデルのトレーニング データの 3 分の 1 未満をラベルなしで使用したにもかかわらず、ISU-GAN は UNet と比較して平均 2 つのメトリクスで 2.5% 以上の改善を示していることがわかります。 UNet の改良版である ResUNet++ は、すべてのカテゴリで UNet よりも著しく優れたパフォーマンスを示しますが、Acc と F1 は ISU-GAN より約 0.4% および 0.1% 低くなります。 対照的に、CycleGAN と DCGAN の検出結果を比較すると、ISU-GAN はすべてのカテゴリのデータで大幅に向上しており、平均で 1.5% 以上と 3.0% 以上向上しています。 各機種のテストデータを比較することで、本手法の有効性が確認できます。

ISU-GAN は、クラス 1 では ResUNet++ よりもパフォーマンスが大幅に低く、すべてのクラスの中で下位レベルにあることは言及する価値があります。 考えられる理由は、クラス 1 の背景テクスチャが多種多様であるため、モデルが期待する正および負のサンプル マッピング関係を見つけることが難しくなっているためです。

欠陥抽出結果の比較。 (a) 元の画像、(b) ラベル、(c) UNet、(d) ResUNet++、(e) DCGAN、(f) ISU-GAN。

図 5 からわかるように、トレーニング中にラベルを使用しなくても、私たちのモデルは教師あり学習ベースの UNet や ResUNet++ よりも細かく、正確に欠陥をセグメント化しているため、製造業の作業者が欠陥の種類を判断するのに役立ちます。 同じ教師なしトレーニングでは、DCGAN メソッドでは画像の欠陥を手動で作成する必要がありますが、これはより面倒です。 私たちの方法ではこの手順が省略されているため、大幅に優れた結果が得られます。 また、ISU-GAN と CycleGAN の欠陥修復結果も比較します。図 6 を参照してください。ISU-GAN によって生成された修復マップは詳細に元の画像に近く、特にエッジのテクスチャがより滑らかで、より滑らかであることがわかります。より現実的です。

欠陥修復結果の比較。 (a) 元の画像、(b) ラベル、(c) CycleGAN、(d) ISU-GAN。

アブレーション研究は、ISU-GAN のジェネレーター構造における 3 つの重要なモジュール (スキップ接続、インボリューション、SE) が欠陥検出の有効性に及ぼす影響を調査するために設定されました。 アブレーション実験で比較された Generator モデルは次のとおりです。 1. オリジナルの CycleGAN (デフォルト)。 2. 3 つのモジュールのうち 1 つだけを使用する。 3. 3 つのモジュールすべてを使用します (ISU-GAN)。

アブレーション実験に使用されるデータセットとハイパーパラメーターはセクション比較実験と同じであり、すべてのサブモデルはセクション方法論で提案された方法を使用して欠陥を検出します。 実験結果を表 3 に示します。

平均して、モデルのスキップ接続の改善は主に MSE の大幅な減少によるものですが、F1 スコアの改善は明らかではありません。 対照的に、インボリューション ブロックは F1 スコアを大幅に改善しますが、MSE も顕著に増加させますが、SE ブロックは両方の値をより低い程度に最適化します。 3 つのモジュールすべてを備えた ISU-GAN では、両方の平均値で最高の結果が得られ、元の CycleGAN と比較して大幅な改善が見られることがわかります。 これは、ISU-GAN モデル構造が合理的かつ実用的であることを示しています。

この論文の結果から、私たちが提案した欠陥検出モデル ISU-GAN と関連する欠陥抽出方法は、少数のトレーニング サンプルを使用した教師なし条件下でも良好に機能することができます。 ISU-GAN は、ジェネレータ内でスキップ接続、SE ブロック、およびインボリューション ブロックを革新的に使用して、より優れた欠陥特徴特性評価を取得します。 さらに、SSIM ベースの欠陥抽出方法により、より正確な欠陥プロファイルを抽出できます。

比較実験を通じて、トレーニング条件が UNet や ResUNet++ よりもはるかに弱い場合でも、ISU-GAN がより優れた欠陥検出効果を達成できることを示しました。 アブレーション研究を通じて、ISU-GAN の 3 つの主要モジュールがネットワーク パフォーマンスに与える影響を示し、ISU-GAN 構造の有効性を検証します。

セクションの比較実験では、テクスチャ タイプが豊富なデータ セットで正と負のサンプルをマッピングするのが難しいため、ISU-GAN のパフォーマンスが他のクラスよりも大幅に悪いと述べました。 この問題に従って、後続の作業でより堅牢なパフォーマンスを得るためにネットワーク構造をさらに最適化します。

この研究で使用されたデータセットは、次からダウンロードできます。 この研究で使用されたデータセットは、https://hci.iwr.uni-heidelberg.de/node/3616 からダウンロードできます。

Liu、YB、Xiao、ZT、Zhang、F. & Wu、J. ガボール フィルターに基づくファブリック欠陥検出方法。 上級メーター。 解像度 301、229–234 (2011)。

記事 ADS Google Scholar

Liu, Y.、Xu, K. & Xu, J. 鋼板の表面に対する改良された mb-lbp 欠陥認識アプローチ。 応用科学。 9、4222 (2019)。

記事 Google Scholar

Shi, T.、Kong, J.-Y.、Wang, X.-D.、Liu, Z. & Zheng, G. レール表面の欠陥検出のためのソーベル アルゴリズムが改良され、効率と精度が向上しました。 J. 中南大学 23、2867–2875 (2016)。

記事 Google Scholar

リュー、W.ら。 ssd: シングルショットマルチボックス検出器。 コンピューター ビジョンに関する欧州会議、21 ~ 37 (Springer、2016)。

Redmon, J.、Divvala, S.、Girshick, R.、Farhadi, A. 確認するのは 1 回だけです: 統合されたリアルタイムの物体検出。 Proc. コンピューター ビジョンとパターン認識に関する IEEE 会議、779–788 (2016)。

Ren, S.、He, K.、Girshick, R. & Sun, J. r-cnn の高速化: 領域提案ネットワークによるリアルタイムの物体検出に向けて。 上級ニューラル。 情報プロセス。 システム。 28、91–99 (2015)。

Google スカラー

彼、K.、Gkioxari、G.、Dollár、P.、Girshick、R. マスクr-cnn。 Proc. コンピューター ビジョンに関する IEEE 国際会議、2961 ~ 2969 年 (2017)。

Ronneberger, O.、Fischer, P. & Brox, T. U-net: 生物医学画像セグメンテーションのための畳み込みネットワーク。 医用画像コンピューティングとコンピュータ支援介入に関する国際会議、234–241 (Springer、2015)。

Badrinarayanan, V.、Kendall, A. & Cipolla, R. Segnet: 画像セグメンテーションのための深い畳み込みエンコーダ/デコーダ アーキテクチャ。 IEEEトランス。 パターンアナル。 マッハ。 知性。 39、2481–2495 (2017)。

記事 Google Scholar

グッドフェロー、I.ら。 生成的な敵対的ネット。 上級神経情報プロセス。 システム。 27 (2014)。

Zhu, J.-Y.、Park, T.、Isola, P. & Efros, AA サイクル一貫性のある敵対的ネットワークを使用した、対になっていない画像間の変換。 Proc. コンピューター ビジョンに関する IEEE 国際会議、2223 ~ 2232 (2017)。

Lee, SY、Tama, BA、Moon, SJ & Lee, S. ディープ畳み込みニューラル ネットワークとクラス アクティベーション マップを使用した鋼表面欠陥診断。 応用科学。 9, 5449 (2019)。

記事 Google Scholar

Mei, S.、Wang, Y. & Wen, G. マルチスケール畳み込みノイズ除去オートエンコーダー ネットワーク モデルを使用した自動ファブリック欠陥検出。 センサー 18、1064 (2018)。

記事 ADS Google Scholar

Zhong, J.、Liu, Z.、Han, Z.、Han, Y.、Zhang, W. 高速鉄道の架線割ピンの CNN ベースの欠陥検査方法。 IEEEトランス。 インストラム。 測定。 68、2849–2860 (2018)。

記事 Google Scholar

Tabernik, D.、Šela, S.、Skvarč, J.、Skočaj, D. 表面欠陥検出のためのセグメンテーションベースの深層学習アプローチ。 J.インテル. メーカー 31、759–776 (2020)。

記事 Google Scholar

Huang, Y.、Qiu, C. & Yuan, K. 磁性タイルの表面欠陥顕著性。 ヴィス。 計算します。 36、85–96 (2020)。

記事 CAS Google Scholar

Li, S.、Zhao, X.、Zhou, G. 完全畳み込みネットワークを使用したコンクリート構造物のピクセルレベルの自動複数損傷検出。 コンピュータ支援の民間インフラ。 工学 34、616–634 (2019)。

記事 Google Scholar

ロバーツ、G.ら。 鋼の高度なステム画像における欠陥のセマンティック セグメンテーションのための深層学習。 科学。 議員9、1-12(2019)。

記事 Google Scholar

Schlegl, T.、Seeböck, P.、Waldstein, SM、Schmidt-Erfurth, U.、Langs, G. マーカー発見をガイドする敵対生成ネットワークによる教師なし異常検出。 医用画像処理における情報処理に関する国際会議、146–157 (Springer、2017)。

Schlegl, T.、Seeböck, P.、Waldstein, SM、Langs, G. & Schmidt-Erfurth, U. f-anogan: 敵対的生成ネットワークによる高速な教師なし異常検出。 医学。 アナル画像。 54、30–44 (2019)。

記事 Google Scholar

Zenati, H.、Foo, CS、Lecouat, B.、Manek, G.、Chandrasekhar, VR 効率的な gan ベースの異常検出。 プレプリントは http://arxiv.org/abs/1802.06222 (2018) にあります。

Akcay, S.、Atapour-Abarghouei, A. & Breckon, TP Ganomaly: 敵対的トレーニングによる半監視型異常検出。 コンピュータービジョンに関するアジア会議、622–637 (Springer、2018)。

Niu, S.、Lin, H.、Niu, T.、Li, B. & Wang, X. Defectgan: 敵対的生成ネットワークを使用した弱教師欠陥検出。 2019 年の IEEE 15th International Conference on Automation Science and Engineering (CASE)、127–132 (IEEE、2019)。

Di, H.、Ke, X.、Peng, Z.、Dongdong, Z. 新しい半教師あり学習法による鋼の表面欠陥分類。 オプション。 レーザー工学 117、40–48 (2019)。

記事 Google Scholar

He, Y.、Song, K.、Dong, H. & Yan, Y. マルチトレーニングおよび敵対的生成ネットワークに基づく鋼表面の半教師あり欠陥分類。 オプション。 レーザー工学 122、294–302 (2019)。

記事 Google Scholar

Zhao, Z.、Li, B.、Dong, R.、Zhao, P. 陽性サンプルに基づく表面欠陥検出方法。 環太平洋人工知能国際会議、473–481 (Springer、2018)。

Wang, Z.、Bovik, AC、Sheikh, HR & Simoncelli, EP 画質評価: エラーの可視性から構造の類似性まで。 IEEEトランス。 画像処理。 13、600–612 (2004)。

記事 ADS Google Scholar

Otsu, N. グレーレベルのヒストグラムからの閾値選択方法。 IEEEトランス。 システム。 サイバーン男。 9、62–66 (1979)。

記事 Google Scholar

カラス、T. et al. stylegan の画質を解析して改善します。 Proc. コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議、8110–8119 (2020)。

Isola, P.、Zhu, J.-Y.、Zhou, T. & Efros, AA 条件付き敵対的ネットワークによる画像間の変換。 Proc. コンピューター ビジョンとパターン認識に関する IEEE 会議、1125 ~ 1134 (2017)。

Hu, J.、Shen, L.、Sun, G. 圧迫と励起のネットワーク。 Proc. コンピューター ビジョンとパターン認識に関する IEEE 会議、7132–7141 (2018)。

リー、D.ら。 インボリューション: 視覚認識のためのコンボリューションの本質を逆転させます。 Proc. コンピューター ビジョンとパターン認識に関する IEEE/CVF カンファレンス、12321–12330 (2021)。

Wieler, M. & Hahn, T. DAGM シンポジウム、工業用光学検査のための弱教師あり学習 (2007)。

Keys、R. デジタル画像処理のための 3 次畳み込み補間。 IEEEトランス。 アコースティック。 音声信号処理。 29、1153–1160 (1981)。

記事 ADS MathSciNet Google Scholar

Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 学習表現に関する国際会議にて(2015年)。

Jha、D. et al. Resunet++: 医療画像セグメンテーションのための高度なアーキテクチャ。 マルチメディアに関する国際シンポジウムにて(2019年)。

リファレンスをダウンロードする

この研究は、中国国立科学財団プロジェクト、助成金番号 61703355、漳州自然科学財団プロジェクト 2019、助成金番号 ZZ2019J34、および福建省大学若手優秀人材プログラム、助成金番号 201847 の資金提供を受けました。

Yijing Guo と Linwei Zhong の著者も同様に貢献しました。

厦門大学情報科学技術学部、漳州市、363105、中国

Yijing Guo、Yi Qiu、Huawei Wang、Choujun Zhan

厦門大学情報学部、厦門、361005、中国

リンウェイ・ゾン & ゾンヘン・ウェン

厦門大学航空宇宙工学部、厦門、361005、中国

高鳳強

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

概念化、YG および LZ。 方法論、YG。 ソフトウェア、LZ; 検証、LZ、FG、WZ。 正式な分析、YQ および HW。 調査、YGとCZ。 リソース、YG。 データキュレーション、YGおよびLZ。 執筆・原案作成、YG、LZ。 執筆、レビューおよび編集、YGおよびHW。 ビジュアライゼーション、YQ、FG、WZ。 監修、YG。 プロジェクト管理、YG。 資金調達、YG、FG、CZ すべての著者が原稿の出版版を読み、同意しました。

郭宜晶氏への対応。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Guo, Y.、Zhong, L.、Qiu, Y. 他 ISU-GAN を使用した教師なしの小さなサンプルの欠陥検出。 Sci Rep 12、11604 (2022)。 https://doi.org/10.1038/s41598-022-15855-7

引用をダウンロード

受信日: 2022 年 4 月 7 日

受理日: 2022 年 6 月 30 日

公開日: 2022 年 7 月 8 日

DOI: https://doi.org/10.1038/s41598-022-15855-7

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有