Klassifizierung von Wafer-Map-Fehlermustern mithilfe geometrischer Transformation

Wissenschaftliche Berichte Band 13, Artikelnummer: 8127 (2023) Diesen Artikel zitieren

349 Zugriffe

1 Altmetrisch

Details zu den Metriken

Die Klassifizierung von Wafer-Map-Defektmustern ist in Halbleiterfertigungsprozessen von wesentlicher Bedeutung, um die Produktionsausbeute und -qualität zu steigern, indem wichtige Informationen zur Grundursache bereitgestellt werden. Allerdings ist die manuelle Diagnose durch Feldexperten in Produktionssituationen im großen Maßstab schwierig, und bestehende Deep-Learning-Frameworks erfordern zum Lernen eine große Datenmenge. Um dieses Problem anzugehen, schlagen wir eine neuartige rotations- und flipinvariante Methode vor, die auf der Etikettierungsregel basiert, dass das Wafer-Map-Defektmuster keinen Einfluss auf die Rotation und das Flip von Etiketten hat und so in Situationen mit knappen Daten eine klassendiskriminierende Leistung erzielt. Die Methode nutzt ein Convolutional Neural Network (CNN)-Backbone mit einer Radon-Transformation und einem Kernel-Flip, um geometrische Invarianz zu erreichen. Die Radon-Funktion dient als rotationsäquivariante Brücke für translatorinvariante CNNs, während das Kernel-Flip-Modul die Flip-Invariante des Modells ermöglicht. Wir haben unsere Methode durch umfangreiche qualitative und quantitative Experimente validiert. Für die qualitative Analyse schlagen wir eine schichtweise Relevanzausbreitung mit mehreren Zweigen vor, um die Modellentscheidung richtig zu erklären. Zur quantitativen Analyse wurde die Überlegenheit der vorgeschlagenen Methode mit einer Ablationsstudie validiert. Darüber hinaus haben wir die Verallgemeinerungsleistung der vorgeschlagenen Methode auf Rotations- und Flip-Invarianten für Daten außerhalb der Verteilung mithilfe von Rotations- und Flip-erweiterten Testsätzen überprüft.

Die Klassifizierung von Wafer-Bin-Map-Mustern gewinnt zunehmend an Bedeutung als entscheidender Ansatz zur Steigerung der Ausbeute und Qualität in Halbleiterfertigungsprozessen, indem sie eine Ursachenanalyse (RCA)1,2 ermöglicht. Da Chips mit integrierten Schaltkreisen (IC), die aus elektronischen Schaltkreisen bestehen, die gewünschte Funktionen in verschiedenen elektrischen Produkten ermöglichen, kontinuierlich kleiner werden, wird ihr Herstellungsprozess immer ausgefeilter, wodurch die Ursache von Fehlern im Prozess schwieriger zu analysieren ist3. In einer späteren Phase des Halbleiterproduktionsprozesses, vor dem Verpacken, werden verschiedene elektrische und thermische Tests durchgeführt, um zu bewerten, ob jeder Chip binär auf Wafer-Die-Ebene normal ist. Anschließend werden die Defekte Chip für Chip auf dem Wafer angezeigt und es entsteht ein Defektmuster. Da dieses Fehlermuster das Endergebnis des gesamten Verfahrens ist, ist es möglich, die Korrelation zwischen dem Fehlermuster und dem Prozessverlauf und den Prozessdetails zu analysieren und dabei RCA zu ermöglichen. Daher ist die Klassifizierung von Wafer-Map-Defektmustern in diesem Bereich besonders wichtig, da sie stark mit der Verbesserung der von der Halbleiterindustrie angestrebten Qualität und gleichzeitig der Steigerung der Produktionsausbeute verbunden ist.

Neben der musterbasierten Fehlerklassifizierung besteht zunehmend Bedarf an einer Automatisierung des Klassifizierungsprozesses. Der Prozess der Beschriftung der Wafer-Map-Muster wird direkt von Experten auf diesem Gebiet durchgeführt, was arbeits- und kostenintensiv ist und die Diagnoseleistung je nach Ingenieur unterschiedlich ist. Aufgrund der überlegenen Automatisierungsfähigkeiten des datenbasierten Klassifizierungsmodells in einer Vielzahl von Sektoren wurden kürzlich Untersuchungen zur automatisierten Etikettierung mithilfe des Wafer-Map-Klassifizierungsmodells durchgeführt. Bestehende Ansätze können je nach datengesteuertem Inferenzmechanismus in zwei Kategorien eingeteilt werden: (1) auf maschinellem Lernen basierend und (2) auf Deep Learning basierend.

Auf maschinellem Lernen basierende Ansätze zur Klassifizierung von Wafer-Defektmustern nutzen eine Vielzahl von Vorhersagemodellen, um klassenunterscheidende Merkmale auf der Grundlage mehrerer handgefertigter Merkmale zu extrahieren, die aus der Waferkarte abgeleitet werden. Yuan et al.4 schlugen die Klassifizierung räumlicher Defektmuster mithilfe von Support Vector Clustering und der Bayes'schen Methode vor. Wu et al.5 schlugen eine auf Support Vector Machine (SVM) basierende Methode vor, die einen Satz von Radon- und skaleninvarianten Merkmalen verwendet. Er zeigte, dass Radon-basierte Merkmale verwendet werden können, um eine rotationsäquivariante Reaktion zu erhalten. Yu und Lu6 schlugen die Verwendung gemeinsamer lokaler und nicht-lokaler linearer Diskriminanzanalysen zur Erkennung und Erkennung von Wafer-Map-Defekten auf der Grundlage mehrerer Merkmale, einschließlich geometrischer und Radon-Merkmale, vor. Saqlain et al.7 schlugen einen Voting-Ensemble-Klassifikator vor, der verschiedene Merkmale nutzt, darunter auch Radon-Merkmale. Für diese Methoden wurden auf der Grundlage von Domänenkenntnissen verschiedene Modelle aktiv untersucht, die nützliche Funktionen nutzen. Aufgrund der Oberflächlichkeit der auf maschinellem Lernen basierenden Modelle besteht jedoch eine Einschränkung hinsichtlich der Inferenzleistung.

Da die Tiefe des Inferenzmodells aufgrund der Entwicklung von Rechenressourcen zunimmt, wurden Deep-Learning-basierte Methoden aktiv für die Klassifizierung von Wafer-Defektmustern untersucht, da sie ohne Experteneingriff automatisch aussagekräftige Merkmale aus Rohdaten lernen können, was eine verbesserte Musterklassifizierungsleistung ermöglicht. Diese Deep-Learning-basierte Methode folgt zwei Schritten: Erstens wird das Deep-Learning-Framework einfach auf das Wafer-Map-Defektmusterproblem angewendet; Zweitens werden praktische Bedenken wie Datenknappheit und Speichereffizienz angesprochen. Was Ersteres betrifft, so wurden in der frühen Forschung CNN-Modelle (Convolution Neural Network) für die Wafer-Map-Klassifizierung verwendet, die unter Deep-Learning-Modellen eine außergewöhnliche Leistung bei der Bildklassifizierung zeigen8,9. Kyeong et al.10 schlugen mithilfe mehrerer CNN-Modelle gemischte Defektmuster in Wafer-Bin-Karten vor. Yu et al.11 schlugen zwei Stufen zur Erkennung und Klassifizierung von Wafer-Map-Mustern vor. Allerdings stellt die Beschaffung ausreichender, sauber gekennzeichneter Wafer-Map-Daten von hoher Qualität während des gesamten Herstellungsprozesses oft eine Einschränkung dar; Daher ist ein Modell erforderlich, das zusätzliche Ansätze zum traditionellen CNN-Modell enthält. Zu Letzterem haben mehrere Studien Modelle vorgeschlagen, die darauf basieren, dass die Beschriftung gemäß der vordefinierten Beschriftungsregel der Wafer-Karte von der Drehung und dem Umdrehen unberührt bleibt. Kang et al.12 schlugen eine Datenerweiterungsmethode vor, um rotations- und flipinvariante Darstellung durch Erweiterung entlang einer diskreten Winkelrichtung zu lernen. Kahng et al.13 schlugen selbstüberwachtes Lernen für die vortextinvariante Darstellung vor, das Rotationsinvarianz im Datenerweiterungskontext einschließt. Dadurch war es möglich, in begrenzten Datensituationen eine hohe Klassifizierungsleistung zu erzielen. Diese zuvor vorgeschlagenen Methoden weisen jedoch eine Einschränkung auf, da sie Rotations- und Flip-Invarianz nicht direkt in die Modellarchitektur integrieren, was bedeutet, dass die Fähigkeit des Modells, diese Invarianzen zu erkennen, nicht speziell in sein Design integriert ist. Stattdessen basieren diese Methoden auf der Datenerweiterung und zusätzlichen Parametern, die ineffizient und unzureichend sein können, um Bedenken hinsichtlich der Speichereffizienz auszuräumen. Dies wurde bereits für rotationsvariable CNNs im Bereich Computer Vision festgestellt, wie in „Verwandte Arbeiten“ besprochen.

In diesem Artikel schlagen wir eine neuartige Methode zur Klassifizierung von Wafer-Defektmustern vor, die gegenüber Rotation und Flip invariant ist. Angesichts der Orientierungsschwankungen in Wafer-Defektmustern aufgrund von Herstellungsprozessen und Geräten ist die Erzielung von Rotations- und Flip-Invarianz für eine genaue und robuste Klassifizierung von entscheidender Bedeutung. Darüber hinaus kann unser Ansatz durch die Einbeziehung dieser Invarianzen in die Klassifizierungsmethode relevante Merkmale effizient aus begrenzten Daten extrahieren und so dazu beitragen, Probleme mit der Datenknappheit zu entschärfen. Um Rotations- und Flip-Invarianz zu erreichen, nutzen wir die äquivarianten Merkmale von Radon-Merkmalen, einem handgefertigten Feature, das zuvor im maschinellen Lernen verwendet wurde, innerhalb des CNN-Frameworks. Darüber hinaus erreichen wir Flip-Invarianz, indem wir Kernel innerhalb des Netzwerks entwerfen und so die Abhängigkeit von der Datenerweiterung minimieren. Zur Validierung unseres Modells führen wir sowohl qualitative als auch quantitative Analysen durch. Für die qualitative Analyse führen wir die Multi-Branch-Layer-Wise-Relevance-Propagation-Methode (Multi-Branch-LRP) zur Interpretation der Modellentscheidungen ein, die speziell für Modelle mit Multi-Branch-Strukturen wie unserem Kernel-Flip-Modul entwickelt wurde. Wir demonstrieren den individuellen Einfluss der Radon-Transformation und des Kernel-Flips durch qualitative und quantitative Auswertungen anhand einer Ablationsstudie. Wir bewerten auch die bisher unbekannte Generalisierungsleistung unseres Modells unter Rotation und Flip-Augmented Dataset.

CNNs verfügen von Natur aus über eine starke Fähigkeit, translationinvariante Merkmale durch translatorische Gewichtungsteilungs- und Pooling-Operationen zu lernen. Allerdings bleibt das Erreichen anderer Formen der räumlichen Invarianz, wie etwa Rotation und Flip, eine Einschränkung des CNN-Frameworks. Zahlreiche Studien wurden durchgeführt, um diesen Herausforderungen zu begegnen, indem (1) die Merkmale eines Eingabebilds durch mehrere transformierte Kopien erweitert wurden und (2) die gewünschte Transformationsinvarianz für das CNN mithilfe spezifischer trainierbarer Module innerhalb des Netzwerks kodiert wurde.

Ersteres kann in die Erweiterung der Eingabedaten und die Erweiterung der Funktionen durch die inneren Filter des Netzwerks unterteilt werden. In vielen frühen Studien wurden die Eingabedaten für verschiedene Anwendungen direkt angereichert. Laptev et al.14 schlugen eine Transformationsinvarianten-Pooling-Schicht (TI-Pooling) vor, die hochaktivierte transformationsinvariante Merkmale durch Max-Pooling in die vollständig verbundene Schicht überführt und über ein gewichtungsgeteiltes CNN für jede Eingabe basierend auf dem rotationserweiterten Trainingsdatensatz extrahiert . Cheng et al.15 schlugen eine ähnliche Methode vor, rotationsinvariantes CNN (RICNN), das vorhandene CNNs trainiert, indem es Trainingsmuster für die Objekterkennungsaufgabe rotierend erweitert. Cheng et al.16 schlugen ein rotationsinvariantes und Fisher-diskriminierendes CNN (RIFD-CNN) vor, das ebenfalls die Datenerweiterungsstrategie wie RICNNs nutzte, aber eine Fisher-Diskriminierungsschicht hinzufügte. Die direkte Erweiterung von Eingabedaten weist jedoch eine kritische Einschränkung auf, die grundsätzlich eine höhere Speichergröße und Netzwerkkapazität erfordert, um eine besser verallgemeinerbare Rotation zu erreichen. Aus diesem Grund hat die Funktionserweiterung durch interne Filter des Netzwerks in letzter Zeit bei verschiedenen Methoden große Aufmerksamkeit erlangt. Dieleman et al.17 schlugen die Struktur mit mehreren Zweigen eines CNN vor, um verschiedene Blickwinkel für jedes erweiterte Bild zu extrahieren. Anschließend erweiterte Dieleman18 dieses Konzept, indem er verschiedene Operationen an zyklischen Symmetrien durchführte. Cohen et al.19 schlugen ein gruppenäquivariantes CNN vor, das auf der Gruppentheorie basiert und eine Symmetriegruppe und eine Pooling-Operation für die Gruppe verwendet. Marcos et al.20 schlugen vor, die Rotationsinvarianzmethode explizit in das Modell zu integrieren, indem die Gewichte von Filtergruppen mit verschiedenen gedrehten Kopien des kanonischen Filters der Gruppe verknüpft werden. Gao et al.21 schlugen eine Reihe von Kernel-Rotations- und Flip-Methoden vor, um Rotations- und Flip-Invarianz in einem CNN zu erreichen. Zusammenfassend lässt sich sagen, dass die Methode zur Merkmalserweiterung der Struktur folgt, bei der mehrere Zweige zur Datenvariation innerhalb des Netzwerks abgetastet werden. Die Hauptbeschränkung hierbei ist die Kompromissbeziehung zwischen der Verallgemeinerung der Datenvariation und der Anzahl der Zweige.

Die zweite Arbeit ist die Nutzung bestimmter trainierbarer Module innerhalb eines CNN, um die erforderliche Transformationsinvarianz für das CNN zu kodieren. Worrall et al.22 schlugen ein harmonisches Netzwerk vor, das Rotationsinvarianz erreicht, indem es reguläre CNN-Filter durch kreisförmige Harmonische ersetzt und so eine maximale Reaktion und Ausrichtung zurückgibt. Jaderberg et al.23 schlugen das Spatial Transformer Network (STN) vor, das lernbare Module verwendet und explizit die räumliche Manipulation von Eingabedaten ermöglicht, um Posenvariationen in nachfolgenden Schichten innerhalb des Netzwerks zu reduzieren. Esteves et al.24 schlugen ein Polar Transformer Network (PTN) vor, eine erweiterte Version von STN, die kanonische Koordinatendarstellungen kombiniert. Dai et al.25 schlugen ein verformbares CNN mit verformbarer Faltung und RoI-Pooling vor, basierend auf der Idee, die räumlichen Abtastorte in den Modulen zu erweitern. Diese Arbeiten weisen Einschränkungen auf, da sie nicht nur zusätzliche trainierbare Parameter für zusätzliche Module erfordern, sondern auch eine komplexe Struktur zur Anpassung an ein CNN erfordern.

In dieser Studie schlagen wir einen neuartigen rotations- und flipinvarianten CNN-Ansatz zur Klassifizierung von Wafer-Map-Defektmustern unter Berücksichtigung der Herausforderung der Datenknappheit vor. Um dies zu erreichen, schlagen wir vor, handgefertigte Funktionen in ein Deep-Learning-Framework zu integrieren. Insbesondere nutzen wir die rotationsäquivariante Eigenschaft des Radon-Features, ein häufig verwendetes handgefertigtes Feature im früheren maschinellen Lernkontext für Wafer-Klassifizierungsaufgaben, um Rotationsinvarianz im CNN-Framework zu erhalten. Darüber hinaus erreichen wir Flip-Invarianz, indem wir ein Kernel-Flip-Modul mit nur einer zweizweigigen Struktur einführen, das die Datenvariation der von jedem Zweig erzeugten gespiegelten Kopien lernt. Es ist erwähnenswert, dass unsere Methode eine Flip-Invarianz in alle Richtungen erreicht, indem sie sie in Kombination mit Rotationsinvarianz sichert und dabei die Rotationsäquivariantenfunktion und minimale Zweige des umgedrehten Kernels nutzt. Dieser Ansatz ermöglicht kompaktere und effizientere Darstellungen, was möglicherweise zu einer besseren Leistung und kürzeren Trainingszeiten im Vergleich zu auf Datenerweiterung basierenden Methoden führt.

Um das Verständnis der Problemstellung zu erleichtern, ist es wichtig, zunächst die Konzepte der Äquivarianz und Invarianz zu verstehen. Gegeben eine Abbildungsfunktion \(\Phi\), eine Eingabe \(X\) aus einer Menge von Eingaben {\({X}_{i}\)} und eine Gruppe \(G\), nennen wir \( \Phi\) äquivariant unter \({T}_{1}\in G\), wenn die Transformation der Eingabe mit einer Transformation \({T}_{2}\in G\) der Ausgabe zusammenhängt, als angegeben in Gl. (1). Umgekehrt ist \(\Phi\) unter \(T\) invariant, wenn es unabhängig von der Transformationsbeziehung im Ausgabebereich ist, wie in Gleichung ausgedrückt. (2).

Um den vorgeschlagenen Mechanismus zum Erhalten der Rotations- und Flip-Invarianz klar zu erklären, haben wir das Prinzip des vorgeschlagenen Ansatzes formuliert, einschließlich Radon-Transformation, Kernel-Flip und CNN-Backbone-Modul. Die Wafer-Defektmuster-Bilddaten und ihr Beschriftungssatz existieren als \(\left({X}_{i}, {y}_{i}\right)\), geometrische Transformationen werden als Übersetzung bezeichnet: \({T} _{T}\) Rotation: \({T}_{R}\) , Flip: \({T}_{F}\), und jede Gruppe jeder Transformation wird als \({G}_{ T}, {G}_{R},\) und \({G}_{F}\). Die Beschriftungsregelfunktion \(({\Phi }_{label}\)) ist gemäß Gl. (3) wenn \(T={T}_{R}\cdot {T}_{F}={T}_{F}{\cdot T}_{R}\) in \({G}_ {R}\cup {G}_{F}\), wobei \({T}_{R}\cdot {T}_{F}\) die Funktionszusammensetzung von \({T}_{R}\ darstellt ) und \({T}_{F}\), und unser Ziel ist es, ein Modell zu erstellen, das diese Funktion annähert:

Das CNN-Modell (\({\Phi }_{CNN})\), das wir für die Etiketteninferenz verwenden, verfügt über die inhärente Fähigkeit, übersetzungsinvariante Merkmale zu lernen, und weist die folgenden Merkmale auf:

Das CNN-Modell ist jedoch nicht rotationsinvariant:

Um etwas Kontext für Gleichung bereitzustellen. (5) sei \({T}_{R}\cdot {X}_{i}\) die Anwendung der Rotationstransformation \({T}_{R}\) auf den Eingang \({X }_{ich}\). Mit diesem Verständnis können wir nun erklären, dass unser Modell die rotationsäquivariante Abbildungsfunktion Radon-Transformation \(({\Phi }_{Radon})\) als Zwischenschritt verwendet, um die fehlende Rotationsinvarianz im CNN-Modell zu beheben.

Als Ergebnis haben wir:

Für unser vorgeschlagenes Modell streben wir danach, sowohl Rotations- als auch Flip-Invarianz zu erreichen. Um den Mangel an Flip-Invarianz zu beheben, integrieren wir das Kernel-Flip-Modul (KF) in die CNN-Architektur:

Die Flip-Symmetrie der Wafer-Karte bleibt hier erhalten, indem die Flip-Achse um \(\uppi\)/2 geändert wird, um den Radon-Feature-Effekt zu berücksichtigen:

Durch die Kombination der Rotations- und Flip-Transformationen kann unser Modell grundsätzlich alle möglichen Flip-Ausrichtungen berücksichtigen. Nach der Gruppentheorie26 bleibt die Vereinigung der Rotations- und Flip-Gruppen unabhängig von der Ausrichtung der Flip-Achse gleich:

Dadurch kann unser Modell Rotations- und Flip-Invarianz effektiv extrahieren und dabei alle möglichen Rotations- und Flip-Transformationen berücksichtigen, während gleichzeitig die minimale Anzahl umgedrehter Kernelzweige verwendet wird. Unsere vorgeschlagene Methode wird im folgenden Abschnitt ausführlich beschrieben.

Die vorgeschlagene rotations- und flipinvariante Darstellungslernmethode umfasst zwei Hauptmodule und ein CNN-Grundgerüst, wie in Abb. 1 dargestellt. Zunächst wandelt das rotationsinvariante Radon-Modul Waferkarten in Tomographiebilder um und wandelt Rotation in Translation um. Anschließend wird ein umgedrehter Funktionssatz durch zwei Zweige von Kernel-Flip-Operationen erhalten. Durch die Anwendung der Max-Out-Operation auf die hochaktivierten Merkmale im Paar umgedrehter Merkmalssätze lernt das Backbone-CNN, das aufgrund seiner Fähigkeit, übersetzungsinvariante Merkmale zu erfassen, oft als translatorisch invariante bezeichnet wird, eine diskriminierende Darstellung, die das erfasst Wafer-Etiketteneigenschaften durch Rotationsäquivarianten- und Flip-Äquivariantenmerkmale.

Überblick über unsere Methode. Oben: Die vorgeschlagene Modellarchitektur umfasst ein Radon-Transformations- und Kernel-Flipping-Modul zur Erfassung äquivarianter Rotations- und Flip-Merkmale, gefolgt von einem CNN-basierten Klassifikator für das translatorische Invarianten-Backbone. Unten: die Multi-Branch-LRP-Methode für die durch Kernel-Flipping induzierte Multi-Branch-Struktur, die zur Interpretation von Modellvorhersagen verwendet wird. Wafer-Map- und Heatmap-Bilder wurden mit Python 3.8.4 und dem veröffentlichten WM-811K-Wafer-Datensatz visualisiert, verfügbar unter http://mirlab.org/dataSet/public/. Radon- und inverse Radon-Transformationen wurden mit der Scikit-Image-Bibliothek Version 0.20.0 durchgeführt, während die LRP-Heatmap mit unserer vorgeschlagenen Mehrzweig-LRP-Methode erhalten wurde.

Unsere vorgeschlagene Methode übernimmt das Radon-Merkmal als Eingabedarstellung aufgrund seiner rotationsäquivarianten Charakteristik in Bezug auf die Waferkarte. Die Radontransformation ist eine Methode zur Erfassung einer Sinustomographie \({P}_{\theta }\left(r\right)\) durch Projektion eines Bildes für die Rotation \(\theta\). Die Radon-Transformation ist eine Vorwärtsprojektion, um die Tomographie \({P}_{\theta }\left(r\right)\) zu erhalten. Wenn f(x,y) ein Originalbild ist, wird die Radon-Transformationsfunktion wie folgt angegeben:

Die obige Projektion wandelt den Rotationseffekt des Originalbilds in eine Translation des Radon-Features um. Durch den Vergleich der ersten Zeilen von Abb. 2a, b können wir erkennen, dass die Drehung der ursprünglichen Waferkarte der Verschiebung des Radon-Merkmals entspricht. Infolgedessen fungiert die Radon-Transformation als rotationsäquivalente Brücke und ermöglicht die Verwendung eines translatorisch invarianten CNN-Backbone-Modells, um eine rotationsinvariante Darstellung zu erhalten. Wenn wir außerdem die zweiten Zeilen von Abb. 2a und b vergleichen, können wir sehen, dass die vertikale Umkehrung der Waferkarte einer horizontalen Umkehrung des Radon-Merkmals entspricht. Dies impliziert, dass die Flip-Äquivarianz des Radon-Merkmals unter Berücksichtigung der \(\uppi/2\)-Änderung in der Flip-Achse von Natur aus garantiert eine Flip-Äquivarianz für die Wafer-Karte ist.

(a) Darstellung von Rotations- und Flip-Beispielen für die Waferkarten der Edge-loc-Klasse aus WM-811k und (b) die entsprechenden Radon-Transformationen für jede Waferkarte. Alle Bilder in dieser Abbildung wurden mit Python 3.8.4 visualisiert. Die Radon-Transformationen wurden mit der Scikit-Image-Bibliothek Version 0.20.0 durchgeführt.

Kernel-Flip-Module zielen darauf ab, die Flip-Äquivarianz durch generierte Flip-Kopien von Eingabemerkmalen mit mehreren Flip-Versionen von Kerneln zu lernen. Für unsere vorgeschlagene Methode verwenden wir nur zwei Zweige umgedrehter Kerne: den ursprünglichen und den einachsig umgedrehten Kernel. Wenn das verarbeitete Radon-Merkmal nach dem Durchlaufen mehrerer Schichten in dieses Modul eingegeben wird, geben umgedrehte Kernel mit Gewichtsteilung einen umgedrehten Funktionssatz aus, ohne die Anzahl der trainierbaren Parameter zu erhöhen, wodurch die Modelleffizienz gewährleistet wird. Durch das Erlernen dieser Flip-Variation auf Radon-basierten Merkmalen ist unser Modell in der Lage, zusätzlich zur Rotationsäquivarianz auch Flip-Äquivarianteneigenschaften zu erfassen. Als Hauptüberlegung für unsere enge Zweigstruktur, wie in „Verwandte Arbeiten“ beschrieben, besteht ein Kompromiss zwischen der Generalisierungsleistung und der Anzahl der Zweige; Daher kann der einzige zusätzliche Einzelzweig zu einer schwachen Flip-Äquivarianten-Leistung führen. Wie jedoch in „Problemformulierung“ beschrieben, entspricht die Erlangung der Flip-Äquivarianz bei einer rotationsäquivarianten Darstellung allen Richtungen der Flip-Äquivarianz. Nach der Generierung eines umgedrehten Feature-Sets übernimmt das Max-Out-Modul dann Element für Element die aktivsten Features, um sie an das CNN-Klassifizierungsmodul zu übergeben, wobei es auf einen effizienten Speicherfluss innerhalb des Netzwerks und den Drop-out-Effekt abzielt. Schließlich ermöglichen die erhaltenen Rotations- und Flip-Äquivariantenmerkmale aus den Radon- und Kernel-Flip-Modulen das Erlernen der Rotations- und Flip-Invarianz mit dem CNN-Klassifikator.

In dieser Studie haben wir das LRP übernommen, um unsere Methode qualitativ zu bewerten, nicht nur um die Auswirkung auf die auf dem Radon-Merkmal basierende Inferenz in Übereinstimmung mit der ursprünglichen Waferkarten-basierten Vorhersage zu erkennen, sondern auch um zu überprüfen, ob unser vorgeschlagenes Modell wie beabsichtigt funktioniert . Das LRP wird hauptsächlich verwendet, um die Modellinferenz mithilfe eines auf Interpretierbarkeit basierenden Ansatzes für Deep-Learning-basierte Modelle zu verstehen. Basierend auf der tiefen Taylor-Zerlegungsmethode, beschrieben durch Gl. (13) kann der Relevanzwert durch Ausgabevorhersage erhalten werden, wobei a ein Wurzelpunkt der Taylor-Reihe und \(\epsilon\) ein Ersatzterm für die Polynomterme höherer Ordnung der Taylor-Reihe ist. Durch sequentielles Wiederholen der Relevanzweitergabe an vorherige Schichten können schließlich die Relevanzwerte der Eingabeschicht ermittelt werden.

Um diese Technik auf unser Modell anzuwenden, gibt es eine strukturelle Überlegung, dass es schwierig ist, den Relevanzwert unverändert weiterzugeben, da es sich bei unserem Modell um ein Modell mit mehreren Zweigen handelt. Nach unserem besten Wissen wurde die LRP-Methode noch nie in einer komplizierten Struktur wie einem CNN mit mehreren Zweigen verwendet. Hier schlagen wir eine neuartige LRP-Methode für die Mehrzweigstruktur vor, wie in Abb. 1 dargestellt. Wenn der Relevanzwert bei den Kernel-Flipping-Modulen angekommen ist, werden nach dem Durchlaufen jedes Kernels zwei Relevanzwerte generiert. Die Weitergabe der getrennten Relevanzbewertung liefert mehrere Relevanzbewertungen, die nichts mit den Modellbeurteilungsgründen auf der Eingabeebene zu tun haben. Um dieses strukturelle Problem zu lösen, verketten wir beide Relevanzwerte und beide Kernel nach Kanalachse. Anschließend verbreiten wir die Relevanz durch die verkettete Relevanzfunktion und den Kernel, um einen kombinierten Relevanzwert zu generieren.

Im Allgemeinen werden Wafer-Map-Muster auf der Grundlage ihrer Clusterposition und -form, die bestimmte Prozessbedingungen und -effekte mit sich bringt, in sieben Klassen eingeteilt:27: Zentrum, Donut, Kantenort, Ring, Ort, Kratzer und Zufall. Beispielsweise führt der Center-Typ zu Problemen im Plasmabereich28 oder der Dünnschichtabscheidung, und der Edge-Loc-Typ hat den gleichen Effekt wie eine ungleichmäßige Erwärmung während des Diffusionsprozesses. Daher wurde es als wichtige Aufgabe angesehen, sie zu klassifizieren und den Zustand des Prozesses zu bestimmen, damit die Ursache der Prozessverschlechterung abgeschätzt werden kann. Bestehende, auf maschinellem Lernen basierende Wafer-Sortieraufgaben wurden hauptsächlich in zwei Szenarien untersucht: individuelle Fab-Daten und offene Daten27, jeweils mit Vor- und Nachteilen. Die Verwendung privater Daten ist für die Optimierung des vorliegenden Problems von Vorteil, methodische Verallgemeinerungen sind jedoch schwierig. Öffentlich verfügbare Daten lassen sich jedoch leichter mit anderen Methoden vergleichen, was bedeutet, dass die Verallgemeinerung der Methode in Anspruch genommen werden könnte; Daher ist es vorzuziehen, es zur Überprüfung zu verwenden.

Die realen Fab-Daten WM-811K wurden häufig bei Wafer-Klassifizierungsaufgaben mittels maschinellem und tiefem Lernen verwendet29. Zur Datendarstellung wird jede Waferkarte als 2D-Bild unterschiedlicher Größe erstellt. Wie in Abb. 3 dargestellt, enthält WM-811K insgesamt neun Klassen, einschließlich der sieben oben genannten Klassen und zusätzlicher nahezu vollständiger und keiner Klassen, mit einer Gesamtzahl von 172.950. Darunter sind 25.519 gekennzeichnete Daten, was nur etwa 14,8 % der Daten ausmacht. Darüber hinaus weist es, wie in Tabelle 1 gezeigt, eine äußerst unausgewogene Datenverteilung auf, dh die nahezu vollständige Klasse macht nur 0,1 % aus. Auf die entsprechende Datenverarbeitung für die Auswertung wird im Abschnitt „Versuchsaufbau“ eingegangen.

Für diese Studie wurden Wafermuster von WM-811K verwendet. Nahezu-voll- und Nicht-Muster sind ausgeschlossen, wie unter „Experimenteller Aufbau“ beschrieben.

Um die Wirksamkeit unserer vorgeschlagenen Methode zu bewerten, verwendeten wir die sieben typischen Klassen von WM-811K, wie in Abb. 3 dargestellt, und legten für jede Klasse ausgewogene Datenverteilungen fest. Frühere Untersuchungen zur Klassifizierung von Wafer-Map-Mustern mit WM-811K können in zwei Kategorien eingeteilt werden. Im ersten Fall werden neun Klassen verwendet, während im zweiten Fall nur sieben oder acht Klassen verwendet werden, je nachdem, ob er keine oder nahezu vollständige Klassen enthält. Mohamed et al.30 hoben die negativen Auswirkungen der Verwendung der None-Klasse hervor, da sie sich aus mehreren Gründen sowohl auf das Modelltraining als auch auf die Leistungsanalyse auswirken kann. Daher folgten wir dem letztgenannten Ansatz, indem wir sieben Klassen mit Ausnahme der Klassen „Fast voll“ und „Keine“ wählten, um uns neben dem Problem des Datenungleichgewichts auf die Behebung der Datenknappheit zu konzentrieren. Anschließend haben wir eine Teilstichprobe der Trainings- und Testdatensätze für die sieben Klassen mit einem kleinen Datensatz im Bereich von 100 bis 6.400 und einer ausgewogenen Datengröße für jede Klasse erstellt. Um die Daten vorzuverarbeiten, haben wir zunächst die Größe der Wafer-Map auf (64, 64) geändert und den Hintergrund der Wafer-Map entfernt, wobei nur die Defektpunkte aufgrund unterschiedlicher Wafer-Map-Größen erhalten blieben, was nach der Größenänderung zu leicht unterschiedlichen Formen an den Seiten führen kann. Dies wirkt sich negativ auf das Modelltraining aus.

Um das vorgeschlagene Modell anhand einer Ablationsstudie vergleichend zu bewerten, haben wir vier Vergleichsmodelle erstellt. Das erste, ein Basismodell, verwendete die Waferkarte als Eingabe in das Basisnetzwerk, wie in Tabelle 2 detailliert beschrieben. Das zweite Modell, das Radon-Modell, verwendete die Radon-Transformation, bevor die Waferkarte in dasselbe Basisnetzwerk eingegeben wurde. Das dritte Modell, das Kernel-Flip-Modell, verfügte über ein zweizweigiges Kernel-Flip-Modul innerhalb des Basisnetzwerks und verwendete die Wafer-Map als Eingabe. Schließlich integrierte das vorgeschlagene Modell sowohl die Radon-Transformation als auch das Kernel-Flip-Modul in das Basismodell, das ebenfalls in Tabelle 2 detailliert beschrieben wird.

In den Experimenten wurde die anfängliche Lernrate auf 0,0003 eingestellt und der Adam-Optimierer wurde zum Aktualisieren der Modellgewichte verwendet. Der Lernratenabfall wurde für jede Epoche mit einer Abfallrate von 0,99 verwendet. Die Trainingsschritte wurden vorzeitig gestoppt, als der Validierungsverlust 30 Epochen lang nicht abnahm, um eine Überanpassung zu verhindern. Als Verlustfunktion wurde der Cross Entropy Loss verwendet, der für Klassifizierungsaufgaben geeignet ist. Jedes Experiment wurde 20 Mal mit verschiedenen Zufallssamen wiederholt. Die Ergebnisse werden als Durchschnitt und Standardabweichung aller wiederholten Messungen angegeben.

Um die Leistung unserer vorgeschlagenen Methode zu bewerten, haben wir sowohl quantitative als auch qualitative Analysen durchgeführt. Zunächst führten wir eine qualitative Analyse mit der LRP-Methode durch, um die Angemessenheit unserer vorgeschlagenen Methode zu überprüfen. Insbesondere haben wir die LRP-Wärmekarten visuell untersucht, um zu analysieren, wie sich das Modell auf verschiedene Teile der Waferkarte konzentriert, um Entscheidungen zu treffen. Darüber hinaus haben wir die Auswirkung des Drehens und Spiegelns der ursprünglichen Waferkarte auf die vorgeschlagene Modellinferenz überprüft, indem wir bewertet haben, wie sich diese Transformationen auf die Aufmerksamkeit des Modells für die Waferkarte auswirken. Während dieser Experimente haben wir die qualitative Leistung der Basismethode und der vorgeschlagenen Methoden verglichen. Da die LRP-Heatmap für die vorgeschlagene Methode auf Radon-Merkmalen basiert, war ein direkter Vergleich mit der Basislinie schwierig. Daher haben wir eine inverse Radon-Transformation auf die Relevanzbewertungen angewendet, die aus der merkmalsbasierten Radon-Inferenz erhalten wurden, und dabei das Projektionsscheibentheorem verwendet, um die Konsistenz zwischen der ursprünglichen Waferkarte und der merkmalsbasierten Radon-Inferenz zu überprüfen. Dadurch konnten wir die vorgeschlagene Methode mit der Basislinie vergleichen.

Zweitens führten wir eine quantitative Analyse durch, um die Leistung des vorgeschlagenen Modells zu bewerten. Zunächst führten wir eine Ablationsstudie durch, um die Gültigkeit der vorgeschlagenen Methode zu überprüfen, indem wir die Auswirkung jedes Moduls auf die Gesamtleistung sowohl der gesamten Klasse als auch der Unterklassen analysierten. Darüber hinaus haben wir mithilfe der Verwirrungsmatrix die Auswirkungen von Rotation und Flip auf die vorgeschlagene Modellleistung für jede Klasse bewertet. Der Grad der Variation für Rotation und Flip variiert je nach Wafer-Map-Muster, wobei einige Klassen unbedeutende Variationen aufweisen, während andere große Variationen aufweisen. Beispielsweise enthalten die Klassen „Center“ und „Donut“ gleichmäßig fehlerhafte Punkte in alle Richtungen, was zu unbedeutenden Abweichungen bei Rotation und Drehung führt, während die Klasse „Scratch“ eine große Abweichung bei Drehung und Drehung aufweist, da sie unabhängig von der Richtung und in gekrümmten oder geraden Linienformen vorliegt Standort.

Um die Generalisierungsleistung unseres Modells zu validieren, führten wir schließlich einen gründlichen Vergleich der Leistung des vorgeschlagenen Modells und der Vergleichsmodelle mit dem ursprünglichen Testsatz und einem unsichtbaren (außerhalb der Verteilung) erweiterten Testsatz durch. Insbesondere haben wir die Fähigkeit der Modelle bewertet, auf unbekannte Verteilungen für Rotations- und Flip-Transformationen zu verallgemeinern. Während der ursprüngliche Testsatz als ungesehen betrachtet werden kann, da er nicht im Training verwendet wurde, war er dennoch auf die Verteilung innerhalb des ursprünglichen Datensatzes beschränkt. Um die Robustheit des vorgeschlagenen Modells gegenüber der Generalisierung zu bewerten, haben wir einen Datensatz generiert, indem wir den Testsatz direkt gedreht und umgedreht haben, um über die Verteilung des ursprünglichen Datensatzes hinauszugehen. Der rotationsergänzte Testsatz umfasste um 90°, 180° und 270° rotationserweiterte Testsätze, während der umdrehungserweiterte Testsatz horizontal und vertikal gespiegelte Testsätze umfasste. Anschließend haben wir die beiden Augmentationsmethoden Rotation und Flip integriert. Es ist wichtig zu beachten, dass der erweiterte Testsatz nicht den ursprünglichen Testsatz enthielt. Dieser Vergleich ermöglichte es uns, die Gültigkeit der vorgeschlagenen Modellarchitektur zu bestätigen und ihre Robustheit gegenüber unbekannten Situationen zu überprüfen.

Zunächst bestätigen wir anhand der erhaltenen LRP-Heatmaps, wie die Modellentscheidung für die Etikettenklassifizierung getroffen wird. Abbildung 4 vergleicht das Basismodell für jede Klasse mit der Relevanzbewertung des vorgeschlagenen Modells. Wenn man die zweite Spalte untersucht, wird deutlich, dass es beim Basismodell hauptsächlich um das auf der Waferkarte dargestellte visuelle Muster geht. Aufgrund der Schwierigkeit, die Radon-Modellentscheidung direkt zu interpretieren, wurde sie unter Verwendung der transformierten Relevanz durch die inverse Radon-Transformation verglichen, wie in der fünften Spalte dargestellt. Als Ergebnis wurde festgestellt, dass das vorgeschlagene Modell auch dem Defektmuster auf der Waferkarte entspricht. Dies ist ein bedeutender Befund, da er zeigt, dass die in der Waferkarte enthaltenen Forminformationen auch dann erhalten bleiben, wenn das Modell ausschließlich auf der Grundlage der Radon-Funktion bewertet wird. Darüber hinaus wird durch den Vergleich der Vorhersageergebnisse deutlich, dass sich das vorgeschlagene Modell ausschließlich auf den primären Fehlerort konzentriert, was die höhere Klassifizierungsleistung erklärt. Insbesondere zeigen die Ergebnisse, dass das vorgeschlagene Modell für Klassen wie C3 und C7 im Vergleich zur Basislinie mehr Aufmerksamkeit auf die Lage klarer Muster legt. Diese Beobachtung steht im Einklang mit der Tatsache, dass C3, C5 und C7 ein breites Spektrum an Variationen bei Rotations- und Flip-Transformationen aufweisen, was es für das Basismodell schwierig macht, klassenunterscheidende Merkmale zu lernen. Im Gegensatz dazu zeigt das vorgeschlagene Modell robustes Lernen in Bezug auf Rotations- und Flip-Transformationen, was der Grund für die beobachtete Leistungsverbesserung sein könnte. Dieser Befund liefert Beweise dafür, dass die vorgeschlagene Methode beim Erlernen robusterer und diskriminierenderer Merkmale bei Vorhandensein verschiedener Bildtransformationen wirksam ist, was besonders für anspruchsvolle Szenarien in der realen Welt nützlich sein kann.

Layerweise Relevanz-Heatmap-Analyse der Basislinie und der vorgeschlagenen Methoden für alle Klassen, mit Modellen, die auf einem Zugsatz mit Stichproben der Größe 6400 trainiert wurden. Die erste und dritte Spalte entsprechen der Eingabe für das Basismodell bzw. das vorgeschlagene Modell. Die zweite und vierte Spalte zeigen die LRP-Interpretationsergebnisse für die Modellentscheidungen. In der fünften Spalte werden die inversen Radon-Transformationsergebnisse der LRP-Ergebnisse der vorgeschlagenen Methode angezeigt, die so dargestellt werden, dass sie der Form der ursprünglichen Waferkarte entsprechen. Alle Bilder in dieser Abbildung wurden mit Python 3.8.4 visualisiert. Radon- und inverse Radon-Transformationen wurden mit der Scikit-Image-Bibliothek Version 0.20.0 durchgeführt, während die LRP-Heatmap mit unserer vorgeschlagenen Mehrzweig-LRP-Methode erhalten wurde.

Abbildung 5 vergleicht die Relevanzwerte des Basismodells und des vorgeschlagenen Modells, während der Testsatz durch die LRP-Methode mit mehreren Zweigen gedreht und umgedreht wird. Die Wafer-Karte und die Radon-Merkmalszeilen 1–4 zeigen, dass die Drehung der Wafer-Karte als Verschiebung des Radon-Merkmals wirkt, und die Zeilen 5–8 zeigen, dass das vertikale Umdrehen der Wafer-Karte als horizontales Umdrehen des Radon-Merkmals wirkt. Basierend auf der LRP-Heatmap, die durch das vorgeschlagene Modell erhalten wurde, wird der aktivierte Bereich für die gedrehte Wafer-Map horizontal und in ähnlicher Weise für die vertikal gespiegelte Wafer-Map verschoben. Darüber hinaus wurde durch die Durchführung einer inversen Radon-Transformation an der Wärmekarte des vorgeschlagenen Modells bestätigt, dass der Relevanzwert das Defektmuster der ursprünglichen Waferkarte angibt. Infolgedessen trägt die auf der Radon-Transformation basierende Kernel-Flipping-Methode des vorgeschlagenen Modells erheblich dazu bei, Rotations- und Flip-Invarianz für die Klassifizierung von Wafermustern zu erhalten.

Layerweise Relevanz-Heatmap-Analyse der Basislinie und vorgeschlagene Methoden für gedrehte oder gespiegelte Test-Wafer-Maps, mit Modellen, die auf einem Zugsatz mit 6400 Stichproben trainiert wurden. Die erste und dritte Spalte entsprechen der Eingabe für das Basismodell bzw. das vorgeschlagene Modell. Die zweite und vierte Spalte zeigen die LRP-Interpretationsergebnisse für die Modellentscheidungen. In der fünften Spalte werden die inversen Radon-Transformationsergebnisse der LRP-Ergebnisse der vorgeschlagenen Methode angezeigt, die so dargestellt werden, dass sie der Form der ursprünglichen Waferkarte entsprechen. Alle Bilder in dieser Abbildung wurden mit Python 3.8.4 visualisiert. Radon- und inverse Radon-Transformationen wurden mit der Scikit-Image-Bibliothek Version 0.20.0 durchgeführt, während die LRP-Heatmap mit unserer vorgeschlagenen Mehrzweig-LRP-Methode erhalten wurde.

Ein weiterer bemerkenswerter Punkt ist, dass die Relevanzbewertung des Basismodells bei jeder Drehung und Spiegelung der ursprünglichen Waferkarte verschiedene Positionen berücksichtigt, das vorgeschlagene Modell sich jedoch mehr auf die Defektpunkte der ursprünglichen Waferkarte konzentriert. Dies weist darauf hin, dass das vorgeschlagene Modell eine hohe Robustheitsklassifizierungsleistung für die Eingabe-Wafer-Rotation und Flip-Variationen aufweist, was auch der Grund dafür ist, dass es eine verbesserte Klassifizierungsleistung für die ursprünglichen und erweiterten Testsätze aufweist, wie später in „Quantitative Analyse“ erläutert wird.

Abbildung 6a und Tabelle 3 zeigen einen Vergleich der Klassifizierungsgenauigkeit der Vergleichsmodelle für verschiedene Zugsatzeinstellungen. Die Radon- und Kernel-Flip-Modelle sowie das vorgeschlagene Modell weisen eine höhere Klassifizierungsgenauigkeit auf als das Basismodell. Bemerkenswert ist, dass das Radon-Modell eine bessere Leistung erbringt als das Kernel-Flip-Modell, was darauf hindeutet, dass die Wafer-Map-Muster eine größere Variation bei Rotation als bei Flip aufweisen. Von allen Methoden erreicht das vorgeschlagene Modell die höchste Leistung, was darauf hindeutet, dass Invarianz sowohl für Rotation als auch für Flip gewährleistet ist.

(a) Vergleich der Klassifizierungsgenauigkeit zwischen Vergleichsmodellen für verschiedene Zugsatzgrößen, (b) Genauigkeitslücke für jede Klasse zwischen der Basislinie und den vorgeschlagenen Methoden, (c) Verwirrungsmatrix des Basismodells und (d) Verwirrungsmatrix der vorgeschlagenen Modell für eine Zuggarnitur der Baugröße 6400.

Abbildung 6b–d zeigt einen Vergleich der Basismodelle und der vorgeschlagenen Modelle im Hinblick auf die Klassengenauigkeit. Abbildung 6b zeigt den Unterschied zwischen der Klassengenauigkeit, einem diagonalen Element der Verwirrungsmatrix (Abb. 6c, d). Abbildung 6b zeigt, dass das vorgeschlagene Modell für alle Klassen eine höhere Genauigkeit aufweist als das Basismodell. Insbesondere C3 (Edge-Loc), C5 (Loc), C6 (Random) und C7 (Scratch) sind in allen Klassen deutlich erhöht. Zu diesem Trend passt die Tatsache, dass diese Klasse deutlich mehr Rotations- und Flip-Varianz aufweist als die anderen Klassen. Daher kann bestätigt werden, dass die hohe Genauigkeit des vorgeschlagenen Modells auf der Rotations- und Flip-Invarianz beruht.

Tabelle 4 vergleicht die Klassifizierungsgenauigkeit von Vergleichsmodellen für erweiterte Testsätze. In den Zeilen 1–2 werden die Baseline- und Kernel-Flip-Modelle unter dem Flip-Augmented-Testsatz bewertet. In den Zeilen 3–4 werden die Basis- und Radonmodelle unter dem rotationserweiterten Testsatz bewertet. In den Zeilen 5–6 werden das Basismodell und die vorgeschlagenen Modelle unter dem Rotations- und Flip-Augmented-Testsatz bewertet. In allen Fällen erzielen Vergleichsmodelle eine höhere Genauigkeit als das Basismodell. Dies bedeutet, dass das vorgeschlagene Modell und seine Ablationsmodelle rotations- oder flipinvariant zur unsichtbaren erweiterten Situation für Rotation oder Flip funktionieren.

Abbildung 7 zeigt die Klassifizierungsgenauigkeit von Vergleichsmodellen für die ursprünglichen und nicht sichtbaren erweiterten Situationen bei einem Zugsatz der Größe 6400. Abbildung 7a zeigt das Bewertungsergebnis für den ursprünglichen Testsatz und den erweiterten Flip-Testsatz sowohl des Basislinien- als auch des Kernel-Flip-Modells. 7b zeigt das Bewertungsergebnis für den rotationsergänzten Testsatz sowohl des Basismodells als auch des Radonmodells, und Abb. 7c zeigt das Bewertungsergebnis für den rotations- und umdrehungserweiterten Testsatz sowohl des Basismodells als auch des vorgeschlagenen Modells. Wie in Abb. 7 dargestellt, erzielen die Radon-, Kernel-Flip- und vorgeschlagenen Modelle in jedem erweiterten Testsatz alle eine höhere Genauigkeit gegenüber dem Basismodell. Allerdings nehmen in allen drei Fällen die Genauigkeiten zwischen zwei Situationen leicht ab. Bemerkenswert ist, dass die Reduktionslücke zwischen den Basismodellen größer ist als bei anderen Vergleichsmodellen. Dies kann so interpretiert werden, dass das vorgeschlagene Modell einen höheren Widerstand gegen Leistungseinbußen bei der Generalisierungsleistung in ungesehenen erweiterten Situationen aufweist.

Genauigkeiten der Vergleichsmodelle für ursprüngliche und erweiterte Testsätze bei einem Zugsatz der Größe 6400. (a) Basislinien- und Kernel-Flip-Modelle im Vergleich im umgedrehten erweiterten Testsatz, (b) Basislinien- und Radon-Modelle im Vergleich im rotierten erweiterten Testsatz, und (c) Vergleich der Basismodelle und der vorgeschlagenen Modelle in einem gedrehten und umgedrehten erweiterten Testsatz.

Abbildung 8 vergleicht die Generalisierungsleistungen für jede Klasse zwischen den vorgeschlagenen Modellen und den Basismodellen in einem Zugsatz der Größe 6400. Abbildung 8a zeigt den Unterschied in der Klassengenauigkeit der in Abb. 8b (dem ursprünglichen Testsatz) dargestellten Basismodelle und Abb. 8c (der gedrehte und gespiegelte erweiterte Testsatz). Abbildung 8d zeigt den Unterschied in der Klassengenauigkeit zwischen Abb. 8e (dem ursprünglichen Testsatz) und Abb. 8f (dem gedrehten und gespiegelten erweiterten Testsatz) für das vorgeschlagene Modell. Abbildung 8g zeigt den Unterschied zwischen Abbildung 8d und Abbildung 8a, der zeigt, dass das vorgeschlagene Modell für jede Klasse eine bessere Verallgemeinerung aufweist als das Basismodell. Aus Abb. 8d können wir ersehen, dass das vorgeschlagene Modell einen höheren Widerstand gegen Leistungseinbußen im Hinblick auf die Verallgemeinerung für einen unsichtbaren erweiterten Datensatz für alle Klassen aufweist, während die Klassen C3 (Edge-Loc), C5 (Loc) und C7 (Kratzer) zeigen einen deutlichen Anstieg. Diese außergewöhnliche Verallgemeinerungsleistung für rotations- und flipsensitive Klassen zeigt, dass das vorgeschlagene Modell die Rotations- und Flip-Invarianz effektiv beibehält. Darüber hinaus steht dieser Trend im Einklang mit den Ergebnissen des ursprünglichen Testsatzes, der im Abschnitt „Vergleich der Klassifizierungsleistung“ erläutert wird.

(a) Klassengenauigkeitslücke zwischen dem (b) ursprünglichen Testsatz und (c) gedrehten und gespiegelten erweiterten Testsatz für das Basismodell bei einem Zugsatz der Größe 6400. (d) Klassengenauigkeitslücke zwischen dem (e) ursprünglichen Testsatz und (f) gedrehter und gespiegelter erweiterter Testsatz für das vorgeschlagene Modell bei einem Zugsatz der Größe 6400. (g) Unterschied zwischen (d) und (a), der jeweils auf eine erhöhte Generalisierungsleistung des vorgeschlagenen Modells im Vergleich zum Basismodell hinweist Klasse.

In diesem Artikel stellen wir eine neuartige Methode zum Erreichen von Rotations- und Flip-Invarianz bei der Klassifizierung von Wafer-Map-Defektmustern vor, die eine Kombination aus Radon-Transformations- und Kernel-Flip-Techniken nutzt. Die Radon-Funktion sorgt für Rotationsinvarianz, indem sie die ursprüngliche Wafer-Map-Rotation in Translation umwandelt, während der Kernel-Flipping-Ansatz für Flip-Invarianz sorgt. Unsere vorgeschlagene Methode verwendet eine effiziente Netzwerkstruktur mit einer minimalen Anzahl umgedrehter Kernelzweige durch geeignete Kombination dieser beiden Module. Wir validieren unser Modell umfassend anhand des WM-811K-Datensatzes mit qualitativen und quantitativen Auswertungen. Die Interpretierbarkeit unseres vorgeschlagenen Modells wird durch die Überprüfung seiner Entscheidungen mithilfe der neu vorgeschlagenen Multi-Branch-LRP-Methode demonstriert. Das vorgeschlagene Modell erreicht eine hohe Erkennungsleistung, selbst in begrenzten Datensituationen, indem es erfolgreich Rotations- und Flip-Invarianz gewährleistet. Darüber hinaus haben wir die Generalisierungsleistung der vorgeschlagenen Methode in Bezug auf Rotations- und Flip-Invarianten bei Daten außerhalb der Verteilung mithilfe von Rotations- und Flip-erweiterten Testsätzen bewertet. Unsere Studie liefert ein effizientes End-to-End-Deep-Learning-Modell, das die Merkmale der Wafer-Kennzeichnung angemessen widerspiegelt und als geeignete Grundlage für die Wafer-Diagnose in der Zukunft dienen kann.

Die während der aktuellen Studie generierten und/oder analysierten Datensätze sind im MIR Corpora-Repository verfügbar (online: http://mirlab.org/dataSet/public/).

Tong, L.-I., Wang, C.-H. & Huang, C.-L. Überwachung von Fehlern in der IC-Herstellung mithilfe einer Hotelling T/sup 2/Kontrollkarte. IEEE Trans. Halbleiter. Hersteller 18, 140–147 (2005).

Artikel Google Scholar

Kim, B., Jeong, Y.-S., Tong, SH, Chang, I.-K. & Jeong, M.-K. Abwärtsgerichteter räumlicher Zufallstest zur Erkennung von Anomalien in DRAM-Wafern mit mehreren räumlichen Karten. IEEE Trans. Halbleiter. Hersteller 29, 57–65 (2015).

Artikel Google Scholar

Kameyama, K., Kosugi, Y., Okahashi, T. & Izumita, M. Automatische Fehlerklassifizierung bei der visuellen Inspektion von Halbleitern mithilfe neuronaler Netze. IEICE Trans. Inf. Syst. 81, 1261–1271 (1998).

Google Scholar

Yuan, T., Bae, SJ & Park, JI Bayesianische räumliche Defektmustererkennung in der Halbleiterfertigung mithilfe von Support-Vektor-Clustering. Int. J. Adv. Hersteller Technol. 51, 671–683 (2010).

Artikel Google Scholar

Wu, M.-J., Jang, J.-SR & Chen, J.-L. Erkennung von Wafer-Map-Fehlermustern und Ähnlichkeitsranking für große Datensätze. IEEE Trans. Halbleiter. Hersteller 28, 1–12 (2014).

Google Scholar

Yu, J. & Lu, X. Wafer-Map-Defekterkennung und -erkennung mithilfe gemeinsamer lokaler und nichtlokaler linearer Diskriminanzanalyse. IEEE Trans. Halbleiter. Hersteller 29, 33–43 (2015).

Artikel Google Scholar

Saqlain, M., Jargalsaikhan, B. & Lee, JY Ein Voting-Ensemble-Klassifikator zur Identifizierung von Wafer-Map-Defektmustern in der Halbleiterfertigung. IEEE Trans. Halbleiter. Hersteller 32, 171–182 (2019).

Artikel Google Scholar

Nakazawa, T. & Kulkarni, DV Wafer-Map-Defektmusterklassifizierung und Bildabruf mithilfe eines Faltungs-Neuronalen Netzwerks. IEEE Trans. Halbleiter. Hersteller 31, 309–314 (2018).

Artikel Google Scholar

Devika, B. & George, N. Faltungs-Neuronales Netzwerk zur Erkennung von Halbleiter-Wafer-Defekten. im Jahr 2019 10. Internationale Konferenz für Computer-, Kommunikations- und Netzwerktechnologien (ICCCNT). 1–6 (IEEE, 2019).

Kyeong, K. & Kim, H. Klassifizierung gemischter Defektmuster in Wafer-Bin-Maps mithilfe von Faltungs-Neuronalen Netzen. IEEE Trans. Halbleiter. Hersteller 31, 395–402 (2018).

Artikel Google Scholar

Yu, N., Xu, Q. & Wang, H. Wafer-Defektmustererkennung und -analyse basierend auf einem Faltungs-Neuronalen Netzwerk. IEEE Trans. Halbleiter. Hersteller 32, 566–573 (2019).

Artikel Google Scholar

Kang, S. Rotationsinvariante Wafer-Map-Musterklassifizierung mit Faltungs-Neuronalen Netzen. IEEE Access 8, 170650–170658 (2020).

Artikel Google Scholar

Kahng, H. & Kim, SB Selbstüberwachtes Repräsentationslernen für die Klassifizierung von Wafer-Bin-Map-Defektmustern. IEEE Trans. Halbleiter. Hersteller 34, 74–86 (2020).

Artikel Google Scholar

Laptev, D., Savinov, N., Buhmann, JM & Pollefeys, M. Ti-Pooling: Transformationsinvariantes Pooling für Feature-Learning in Faltungs-Neuronalen Netzen. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 289–297.

Cheng, G., Zhou, P. & Han, J. Lernen rotationsinvarianter Faltungs-Neuronaler Netze zur Objekterkennung in optischen VHR-Fernerkundungsbildern. IEEE Trans. Geosci. Remote Sens. 54, 7405–7415 (2016).

Artikel ADS Google Scholar

Cheng, G., Zhou, P. & Han, J. Rifd-cnn: Rotationsinvariante und Fisher-diskriminierende Faltungs-Neuronale Netze zur Objekterkennung. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2884–2893.

Dieleman, S., Willett, KW & Dambre, J. Rotationsinvariante Faltungs-Neuronale Netze zur Vorhersage der Galaxienmorphologie. Mo. Nicht. R. Astron. Soc. 450, 1441–1459 (2015).

Artikel ADS Google Scholar

Dieleman, S., De Fauw, J, & Kavukcuoglu, K. Ausnutzung der zyklischen Symmetrie in Faltungs-Neuronalen Netzen. in der Internationalen Konferenz über maschinelles Lernen. (PMLR, 2016).

Cohen, T. & Welling, M. Gruppe äquivarianter Faltungsnetzwerke. in der Internationalen Konferenz über maschinelles Lernen. (PMLR, 2016).

Marcos, D., Volpi, M. & Tuia, D. Lernen rotationsinvarianter Faltungsfilter für die Texturklassifizierung. im Jahr 2016 23. Internationale Konferenz zur Mustererkennung (ICPR). 2012–2017 (IEEE, 2016).

Gao, H. & Ji, S. Effiziente und invariante Faltungs-Neuronale Netze für dichte Vorhersagen. im Jahr 2017 IEEE International Conference on Data Mining (ICDM). 871–876 (IEEE, 2017).

Worrall, DE, Garbin, SJ, Turmukhambetov, D. & Brostow, GJ Harmonische Netzwerke: Tiefe Translations- und Rotationsäquivarianz. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 5028–5037.

Jaderberg, M., Simonyan, K. & Zisserman, A. Räumliche Transformatornetzwerke. in Fortschritten in neuronalen Informationsverarbeitungssystemen. Bd. 28 (Curran Associates, Inc., 2015).

Esteves, C., Allen-Blanchette, C., Zhou, X. & Daniilidis, K. Polar Transformer Networks. arXiv-Vorabdruck arXiv:1709.01889 (2017).

Dai, J. et al. Verformbare Faltungsnetzwerke. in Proceedings of the IEEE International Conference on Computer Vision. 764–773.

Mimura, M. & Toda, H. Topology of Lie Groups, I und II. Bd. 91 (American Mathematical Society, 1991).

Maksim, K. et al. Klassifizierung von Wafer-Maps-Defekten basierend auf Deep-Learning-Methoden mit kleinen Datenmengen. im Jahr 2019 Internationale Konferenz für Ingenieurwesen und Telekommunikation (EnT). 1–5 (IEEE, 2019).

Hansen, C. & Thyregod, P. Verwendung von Waferkarten bei der Herstellung integrierter Schaltkreise. Mikroelektron. Zuverlässig. 38, 1155–1164 (1998).

Artikel Google Scholar

Wu, M.-J., Jang, J.-S. & Chen, J.-L. Erkennung von Wafer-Map-Fehlermustern und Ähnlichkeitsranking für große Datensätze. IEEE Trans. Halbleiter. Hersteller 28(1), 1–12 (2014).

Google Scholar

Alawieh, MB, Boning, D. & Pan, DZ Wafer-Map-Defektmusterklassifizierung mithilfe von tiefem selektivem Lernen. im Jahr 2020 57. ACM/IEEE Design Automation Conference (DAC). 1–6 (IEEE, 2020).

Referenzen herunterladen

Diese Forschung wurde teilweise durch den Zuschuss der National Research Foundation of Korea (NRF) finanziell unterstützt, der vom Ministerium für Wissenschaft und IKT der koreanischen Regierung (MSIT) finanziert wurde (Nr. 2020R1A2C1009744), teilweise durch das Institute of Civil Military Technology Cooperation, finanziert vom Verwaltung des Verteidigungsbeschaffungsprogramms und Ministerium für Handel, Industrie und Energie der koreanischen Regierung im Rahmen des Zuschusses Nr. 19-CM-GU-01 und teilweise durch den Zuschuss des Korea Institute of Energy Technology Evaluation and Planning (KETEP), finanziert von der koreanischen Regierung [ Ministerium für Handel, Industrie und Energie (MOTIE)] unter der Fördernummer 20206610100290.

Fakultät für Maschinenbau, Pohang University of Science and Technology (POSTECH), Pohang, Republik Korea

Iljoo Jeong, Soo Young Lee, Keonhyeok Park, Iljeok Kim, Hyunsuk Huh und Seungchul Lee

Graduate School of Artificial Intelligence, Pohang University of Science and Technology (POSTECH), Pohang, Republik Korea

Seungchul Lee

Institut für Konvergenzforschung und Bildung in fortschrittlicher Technologie, Yonsei University, 50 Yonsei-ro, Seoul, Republik Korea

Seungchul Lee

Sie können diesen Autor auch in PubMed Google Scholar suchen

Methodik, Schreiben – Originalentwurf, Schreiben – Überprüfung und Bearbeitung, IJ; Konzeptualisierung, formale Analyse, SYL und KP; Datenkuration, Untersuchung, IK und HH; Betreuung, Fördermittelakquise, SL

Korrespondenz mit Seungchul Lee.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Jeong, I., Lee, SY, Park, K. et al. Klassifizierung von Wafer-Map-Fehlermustern mithilfe eines geometrischen transformationsinvarianten Faltungs-Neuronalen Netzwerks. Sci Rep 13, 8127 (2023). https://doi.org/10.1038/s41598-023-34147-2

Zitat herunterladen

Eingegangen: 16. Februar 2023

Angenommen: 25. April 2023

Veröffentlicht: 19. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-34147-2

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.