100.000 Dollar Preisgeld für die Auswertung von NFL-Football-Spielen? Auf Kaggle wird Data Science zum Wettbewerb. Aber auch angehende Datenanalysten werden ihre Freude haben.
Kaggle macht aus Data Science einen Wettbewerb und bietet allerlei Rohdatensätze für Datenanalysen.
(Bild: Kaggle.com)
Kaggle ist eine Data-Science-Competition-Plattform und wer sie nicht kennt, sollte sie sich dringend anschauen – egal, ob Datenanalyst oder nicht. Die Plattform existiert bereits seit 2010 und gehört seit 2017 zu Google. Schon kurz nach der Übernahme meldete Kaggle mehr als eine Million registrierter Nutzer.
Die Nutzerschaft besteht vor allem aus Datenwissenschaftlern, Entwicklern im Bereich Machine Learning und Lernwilligen, die sich für diese Themenbereiche interessieren. Bevor es an die einzelnen Tools geht, soll ein wenig Spannung abgebaut werden, hier also eine kurze Auflösung der Trigger aus dem Teaser – schließlich sind 100.000 Euro kein Pappenstiel und die NFL zieht in der Regel auch reichlich Interesse an.
Auf Kaggle läuft derzeit ein Wettbewerb zur Analyse von Helmkontakten in Football-Spielen, ausgelobt von der NFL und Amazon Web Services. Ziel ist es, Algorithmen zu entwickeln, die Helme mit einer Ziel-Trefferquote von 90 Prozent deren Trägern zuordnen. Helmkontakte selbst wurden bereits in früheren Wettbewerben analysiert, nun sollen diese Kontakte eben konkreten Spielern zugeordnet werden können.
Letztlich will man auf diese Weise ein Programm zur Überwachung und Vermeidung/Verminderung von Verletzungen aufzubauen. Als Datengrundlage stehen dafür 9.947 Bilder, 125 Videoclips und 7 CSV-Dateien zur Verfügung, insgesamt 3,2 Gigabyte an Daten. Der Wettbewerb zieht sich vom 10. August bis zum 2. November und lobt Preisgelder von 5.000 Dollar für den fünften Platz bis 50.000 Dollar für den ersten Platz aus. Das Projekt hat immerhin 199 Teams und 213 Wettbewerber angezogen.
Nicht alle Data-Science-Wettbewerbe sind entsprechend ausgelegt, bei vielen geht es auch einfach um Wissen, Ehre oder Swag, wie sich Kaggle ausdrückt. Einige weitere Beispiele:
Vorhersage von Immobilienpreisen (Einsteigerprojekt, Preis: Wissen)
Solche Wettbewerbe sind der eigentliche Kern von Kaggle und hier gab es bereits einige wohlklingende Projekte, beispielsweise für Gestenerkennung für Microsoft Kinect, Hilfe bei der Suche nach dem Higgs-Boson am CERN oder der Erforschung von HIV.
Jupyter Notebooks
Ein Jupyter Notebook in Kaggle.
(Bild: Lang / Kaggle)
Kaggle liefert aber nicht bloß Wettbewerbe und Datensätze, sondern auch die komplette Arbeitsumgebung für die Bewältigung der Aufgaben, inklusive der nötigen Rechenleistung im Hintergrund. Basis dafür sind Jupyter Notebooks, in denen per R oder Python programmiert werden darf.
Praktisch sind das in der Weboberfläche schlicht unterschiedliche, abwechselnde Kästen (Cells) mit Beschreibungen, Code und Ausgaben. In den Text-Cells wird zum Beispiel die Arbeitsumgebung festgelegt, also Dinge wie „import numpy as np“, in die Code-Cells kommt jeglicher Code, der dann auch direkt und Zelle für Zelle ausgeführt werden kann – die Ausgabe erfolgt dann entsprechend in den Output-Cells.
Code kann direkt im Browser ausgeführt werden.
(Bild: Lang / Kaggle)
Hinzu kommen einige Hilfsmittel, so dass man letztlich eine sehr schlanke Entwicklungsumgebung für Python und R im Browser bekommt, samt interaktiver Konsole. Und natürlich können die Jupyter Notebooks auch ex- und importiert werden. Für erfahrene Programmierer und/oder Datenanalysten braucht es also nicht mehr als diese drei Dinge, um loszulegen: Wettbewerb, Datensätze und Jupyter Notebook als Arbeitsumgebung.
Daten und Kurse
Kaggle ist allerdings nicht nur für Veteranen interessant, die sich ganz praktisch an die teils riesigen Datensätze wagen – Spitzenreiter ist ein Projekt zur Diabetes-Forschung mit stolzen 82,2 Gigabyte an Daten. Auf Kaggle finden sich auch etliche kostenlose Kurse rund um den Kosmos der Datenanalyse.
Dies beginnt Python-Grundlagen und die Einführung in Machine Learning und geht weiter über SQL, Deep Learning, Spiele-KI und KI-Ethik, Material zu Computer Vision, Feature-Entwicklung und Verarbeitung natürlicher Sprache und sogar einen Kurs „Geospatial Analysis“ zum Erstellen und Auswerten (interaktiver) Karten.
Die Kurse sind dabei recht kurz und bündig gehalten, auf Datenanalyse ausgerichtet, in der Regel mit Python umgesetzt und auch für nicht ganz blutige Anfänger sehr gut verständlich. All die Theorie schreit aber natürlich nach praktischer Umsetzung, für Einsteiger sind echte Wettbewerbe freilich ungeeignet.
Auf Kaggle findet sich allerdings eine riesige Auswahl an Datensätzen, mit denen Entwicklerinnen und Entwickler frei arbeiten können. Um einen Eindruck zu gewinnen, hier ein Beispiel mit Alltagsbezug: Eine Sammlung von 15.176 Covern von Filmen, Serien und Comics mit Titeln und Genre und als Inspiration die Frage: „Gibt es einen Zusammenhang zwischen Cover-Bildern und Genre?“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Schon hier würde eine sehr komplexe Aufgabe warten, nämlich die Extraktion und Klassifikation von Objekten und Texten in den Bildern nebst einer anschließenden Analyse von Zusammenhängen. Deutlich einfacher wird es mit reinen Textdaten, beispielsweise den knapp 80.000 Antworten aus der Stack Overflow Developer Survey 2021. Weitere Beispiele:
Fast-Food-Restaurants in den USA – eine Beispielauswertung.
(Bild: Lang / Kaggle)
Die Daten sind in der Regel frei zugänglich, es müssen lediglich die Bedingungen des jeweiligen Wettbewerbs/Anbieters akzeptiert werden. Dazu gehört standardmäßig auch, dass die eigenen Errungenschaften von den Anbietern genutzt werden dürfen. Und natürlich finden sich bei den Datensätzen letztlich auch die Lösungen anderer Nutzer, was enorm hilfreich für „fortgeschrittene Anfänger“ ist (jeweils im Tab „Code“).
Kaggle ist vordergründig „nur“ eine Wettbewerbsplattform für Datenanalysten und KI-/ML-Experten. Dank der vielen Grundlagenkurse, Online-IDE, Code-Snippets, Rechenleistung, Ideen und nicht zuletzt frei zugänglichen, ordentlich formatierten Daten, taugt Kaggle aber auch als wunderbarer One-Stop-Einstiegspunkt für alle, die sich näher mit Datenanalyse beschäftigen wollen – egal, welchen Wissensstand sie mitbringen.
Für den Einstieg ist auch das Blog von Kaggle einen Blick wert, das sich etwas versteckt im Menü unter „more“ findet und leider nicht ganz aktuell ist. Dennoch finden sich hier spannende Stories über und mit Wettbewerbsgewinnern, die einen guten Einblick in den Verlauf von Wettbewerben geben. Ein guter Einstieg ist etwa der Beitrag zu einem früheren NFL-Wettbewerb – mit Gewinnern, die von Football gar keine Ahnung hatten.
Einen etwas entspannteren Einstieg in Kaggle liefert ein gut 6 Minuten langes Video von Kaggle selbst, das zeigt, wie man den Titanic-(Lern-)Wettbewerb durchläuft.