Bei Apple haben Forscher eine neue Methode zum Training von Large Language Models (LLMs), Großsprachenmodellen, entwickelt, die neben Textinformationen auch visuelle Informationen nahtlos integriert.
Zu diesem neuen MM1 KI-Modell veröffentlichte das Unternehmen jetzt Details.
Apples MM1 KI-Modell
Die Resultate sind in dem Forschungspapier „MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training“ publiziert worden. Ein neuer Ansatz für den Aufbau intelligenter und flexibler KI-Systeme wird beschrieben.
Der Einsatz eines vielfältigen Datensatzes, der Bild-Bildunterschriftenpaare, Bild-Text-Dokumente und reine Textdaten beinhaltet, machen das MM1 KI-Modell laut Apple zu einem neuen Standard für die Fähigkeit der KI. Die Fähigkeiten der KI umfassen Aufgaben wie Bildunterschriften, visuelle Beantwortung von Fragen und natürliche Sprachinferenz mit einem hohen Genauigkeitsgrad.
Die Forschung fokussiert sich vor allem auf ein Zusammenspiel verschiedener Arten von Trainingsdaten und Modellarchitekturen. Auf diese Weise wird die KI in die Lage versetzt, Sprache basierend auf einem Mix aus bildlichen und sprachlichen Hinweisen zu verstehen und zu erzeugen.
Komplexe KI
Diese Fähigkeit spielt eine wichtige Rolle für Aufgaben, wo ein differenziertes Verständnis der Welt benötigt wird, wie etwa die Interpretation komplexer Bilder oder die Beantwortung von Fragen, in denen visuelle Elemente enthalten sind.
In dem Forschungspapier werden die außergewöhnlichen Lernfähigkeiten des MM1-Modells im Kontext hervorgehoben. Schwere und offene Problemlösungen auf der Grundlage minimaler Beispiele kann die KI beantworten.
Auf der Entwicklerkonferenz WWDC 2024 wird Apple nach bisherigen Informationen neue KI-Funktionen des Betriebssystems iOS 18 vorstellen. Zwischen Google und Apple laufen außerdem derzeit Gespräche über die Lizenzierung von Googles Gemini KI-Modell.