Apple vermeidet den „KI“-Hype auf der WWDC-Keynote, indem es ML in Produkte integriert

Sehen Sie sich die Nicht-AMP-Version auf arstechnica.com an

Inmitten beeindruckender neuer Produkte wie dem Apple Silicon Mac Pro und dem Apple Vision Pro, die am Montag bei der Keynote-Veranstaltung WWDC 2023 vorgestellt wurden, erwähnten Apple-Moderatoren den Begriff „KI“ kein einziges Mal, eine bemerkenswerte Auslassung, wenn man bedenkt, dass sich Konkurrenten wie Microsoft und Google stark darauf konzentriert haben generative KI im Moment. Dennoch war KI ein Teil von Apples Präsentation, nur unter anderen Namen.

Während „KI“ heutzutage ein sehr zweideutiger Begriff ist, der sowohl von erstaunlichen Fortschritten als auch von extremem Hype geprägt ist, hat Apple beschlossen, diese Assoziation zu vermeiden und sich stattdessen auf Begriffe wie „maschinelles Lernen“ und „ML“ zu konzentrieren. Während der iOS 17-Demo sprach beispielsweise Craig Federighi, SVP of Software Engineering, über Verbesserungen bei der Autokorrektur und dem Diktat:

Autokorrektur basiert auf maschinellem Lernen auf dem Gerät und wir haben diese Modelle im Laufe der Jahre immer weiter weiterentwickelt. Die Tastatur nutzt jetzt ein Transformer-Sprachmodell, das für die Wortvorhersage auf dem neuesten Stand der Technik ist und die Autokorrektur genauer denn je macht. Und mit der Leistung von Apple Silicon kann das iPhone dieses Modell jedes Mal ausführen, wenn Sie eine Taste drücken.

Bemerkenswert ist, dass Apple in einer Apple-Keynote den KI-Begriff „Transformer“ erwähnte. Das Unternehmen sprach ausdrücklich von einem „Transformer-Sprachmodell“, was bedeutet, dass sein KI-Modell die Transformer-Architektur nutzt, die viele neuere generative KI-Innovationen vorangetrieben hat, wie den DALL-E-Bildgenerator und den ChatGPT-Chatbot.

Ein Transformer-Modell (ein Konzept, das erstmals 2017 eingeführt wurde) ist eine Art neuronaler Netzwerkarchitektur, die in der Verarbeitung natürlicher Sprache (NLP) verwendet wird und einen Selbstaufmerksamkeitsmechanismus verwendet, der es ihm ermöglicht, verschiedene Wörter oder Elemente in einer Sequenz zu priorisieren. Seine Fähigkeit, Eingaben parallel zu verarbeiten, hat zu erheblichen Effizienzsteigerungen geführt und Durchbrüche bei NLP-Aufgaben wie Übersetzung, Zusammenfassung und Beantwortung von Fragen ermöglicht.

Anscheinend ermöglicht Apples neues Transformer-Modell in iOS 17 Autokorrekturen auf Satzebene, die entweder ein Wort oder einen ganzen Satz beenden können, wenn Sie die Leertaste drücken. Es lernt auch von Ihrem Schreibstil, der seine Vorschläge leitet.

Die gesamte KI-Verarbeitung auf dem Gerät ist für Apple relativ einfach, da ein spezieller Teil der Apple Silicon-Chips (und früherer Apple-Chips, beginnend mit dem A11 im Jahr 2017) namens Neural Engine entwickelt wurde, um Anwendungen für maschinelles Lernen zu beschleunigen. Apple sagte außerdem, dass das Diktat „ein neues transformatorbasiertes Spracherkennungsmodell erhält, das die Neural Engine nutzt, um das Diktat noch genauer zu machen“.

Während der Keynote erwähnte Apple auch mehrmals „maschinelles Lernen“: bei der Beschreibung einer neuen iPad-Sperrbildschirmfunktion („Wenn Sie ein Live-Foto auswählen, verwenden wir ein fortschrittliches maschinelles Lernmodell, um zusätzliche Frames zu synthetisieren“); iPadOS PDF-Funktionen („Dank neuer Modelle für maschinelles Lernen kann iPadOS die Felder in einer PDF-Datei identifizieren, sodass Sie sie mithilfe von AutoFill schnell mit Informationen wie Namen, Adressen und E-Mails Ihrer Kontakte ausfüllen können.“); eine AirPods Adaptive Audio-Funktion („Mit personalisierter Lautstärke nutzen wir maschinelles Lernen, um Ihre Hörpräferenzen im Laufe der Zeit zu verstehen“); und eine Apple Watch-Widget-Funktion namens Smart Stack („Smart Stack nutzt maschinelles Lernen, um Ihnen relevante Informationen genau dann anzuzeigen, wenn Sie sie brauchen“).

Apple hat außerdem eine neue App namens „Journal“ auf den Markt gebracht, mit der Sie persönliche Text- und Bildjournale (ähnlich einem interaktiven Tagebuch) gesperrt und verschlüsselt auf Ihrem iPhone führen können. Apple sagte, dass KI eine Rolle spiele, verwendete den Begriff „KI“ jedoch nicht.

„Durch maschinelles Lernen auf dem Gerät kann Ihr iPhone personalisierte Vorschläge für Momente erstellen, die Sie beim Schreiben inspirieren“, sagte Apple. „Vorschläge werden intelligent aus Informationen auf Ihrem iPhone zusammengestellt, wie Ihren Fotos, Standort, Musik, Trainingseinheiten und mehr. Und Sie steuern, was bei der Aktivierung von Vorschlägen enthalten sein soll und welche in Ihrem Tagebuch gespeichert werden sollen.“

Schließlich enthüllte das Unternehmen während der Demo des neuen Apple Vision Pro, dass das bewegte Bild der Augen eines Benutzers auf der Vorderseite der Brille von einem speziellen 3D-Avatar stammt, der durch Scannen Ihres Gesichts erstellt wurde – und Sie ahnen es schon: maschinelles Lernen.

„Mithilfe unserer fortschrittlichsten Techniken des maschinellen Lernens haben wir eine neuartige Lösung geschaffen“, sagte Apple. „Nach einem schnellen Registrierungsprozess mithilfe der Frontsensoren von Vision Pro verwendet das System ein fortschrittliches neuronales Encoder-Decoder-Netzwerk, um Ihre digitale Persona zu erstellen.“

Ein neuronales Encoder-Decoder-Netzwerk ist eine Art neuronales Netzwerk, das zunächst eine Eingabe in eine komprimierte numerische Form komprimiert, die als „Latentraumdarstellung“ (Encoder) bezeichnet wird, und dann die Daten aus der Darstellung (Decoder) rekonstruiert. Wir spekulieren, aber der Encoder-Teil könnte die während des Scanvorgangs erfassten Gesichtsdaten analysieren und in eine besser handhabbare, latente Darstellung mit niedrigeren Dimensionen komprimieren. Dann könnte der Decoder-Teil diese komprimierten Informationen verwenden, um sein 3D-Modell des Gesichts zu generieren.

Während der WWDC-Keynote stellte Apple seinen bisher leistungsstärksten Apple-Silicon-Chip vor, den M2 Ultra, der über bis zu 24 CPU-Kerne, 76 GPU-Kerne und eine 32-Kern-Neural Engine verfügt, die laut Apple angeblich 31,6 Billionen Operationen pro Sekunde liefert stellt eine 40 Prozent schnellere Leistung als der M1 Ultra dar.

Interessanterweise sagte Apple direkt, dass diese Leistung für das Training „großer Transformatormodelle“ nützlich sein könnte, was unseres Wissens nach die prominenteste Erwähnung von KI in einer Keynote von Apple ist (wenn auch nur am Rande):

Und der M2 Ultra kann enorme 192 GB einheitlichen Speicher unterstützen, das sind 50 % mehr als der M1 Ultra, sodass er Dinge tun kann, die andere Chips einfach nicht können. In einem einzelnen System können beispielsweise umfangreiche ML-Workloads trainiert werden, etwa große Transformer-Modelle, die die leistungsstärkste diskrete GPU nicht einmal verarbeiten kann, weil ihr der Speicher ausgeht.

Diese Entwicklung begeistert einige KI-Experten. Auf Twitter schrieb der häufige KI-Experte Perry E. Metzger: „Ob zufällig oder absichtlich, die einheitliche Speicherarchitektur von Apple Silicon bedeutet, dass High-End-Macs jetzt wirklich erstaunliche Maschinen für den Betrieb großer KI-Modelle und die KI-Forschung sind. Es gibt wirklich nicht viele.“ Andere Systeme zu diesem Preis bieten 192 GB GPU-zugänglichen RAM.

Hier bedeutet größerer RAM, dass größere und angeblich leistungsfähigere KI-Modelle in den Speicher passen. Bei den Systemen handelt es sich um den neuen Mac Studio (ab 1.999 US-Dollar) und den neuen Mac Pro (ab 6.999 US-Dollar), die das KI-Training potenziell für viele neue Leute zugänglich machen könnten – und das im Formfaktor von Desktop- und Tower-Geräten.

Nur strenge Auswertungen werden Aufschluss darüber geben, wie sich die Leistung dieser neuen M2 Ultra-Maschinen im Vergleich zu KI-optimierten Nvidia-GPUs wie der H100 schlagen wird. Im Moment sieht es so aus, als hätte Apple offen seinen Hut in den Hardware-Ring für generatives KI-Training geworfen.

Artikelkommentare anzeigen