Kristin Steppeling

#fortsetzung: Im Selbstversuch einfach mal eine KI programmieren

Für Clutch wagt Kristin Steppeling den Selbstversuch. In den kommenden Wochen wird sie eine KI programmieren und hier über ihre Fortschritte, jeden Schnitzer und jede Sackgasse sowie hoffentlich auch kleine Erfolge berichten, bis hin zum Ziel.

Bei meinem Selbstversuch werde ich von Falco Winkler, Werkstudent bei Esailors, einem Hamburger Softwareunternehmen, unterstützt. Nebenbei engagiert er sich im Verein Moinworld und bringt Anfängern wie mir das Coden bei. Er rät mir: „Du könntest dir ein einfaches Datenset raussuchen und dir eine Fragestellung dazu überlegen. Vielleicht fängst du mit einem einfacheren Algorithmus an und steigerst dich dann weiter, zum Beispiel hin zu einem neuronales Netz.“ Ich suche also nach einem einfachen Problem, das sich zunächst einmal mit einer klassischen Abfrage lösen lässt. Der Datensatz muss umfangreich sein, um später den Algorithmus damit trainieren zu können – zugleich aber nicht zu groß, sodass mein kleiner Rechner damit überfordert wäre.

Fündig wurde ich schließlich auf Kaggle, einem Netzwerk für Data Analysten. Jeder bereitgestellte Datensatz startet dort einen Wettbewerb um die beste Lösung. Während andere also mit dem Ziel reingehen, eine wirklich gute Lösung für das Problem zu finden, bin ich schon froh, wenn ich überhaupt ein Ergebnis erreiche. Deshalb entscheide ich mich für eines der beliebtesten Datensets. Es enthält Informationen zu 400 Studenten und ihrer Bewerbung für einen Masterstudiengang. Insgesamt 313 Lösungsvorschläge, sogenannte „Kernels”, gibt es zu diesem Datensatz. Bald sind es hoffentlich 314.

Meine KI als Entscheidungshilfe: Studieren oder nicht studieren?

Mit den Daten kann ich eine Frage beantworten, die sich auch drei von vier deutschen Studenten stellen: Wie schaffe ich es in den Masterstudiengang? Ein weiterführender Abschluss beeinflusst schließlich oftmals den eigenen Lebensweg spürbar. Im Schnitt starten Masterstudenten mit zwölf Prozent mehr Gehalt in den Job, bestimmte Karrierewege wie das wissenschaftliche Arbeiten oder naturwissenschaftliche Jobs kommen ohne Master sogar überhaupt nicht aus. Auch für Universitäten ist eine solche Auswertung hochinteressant. Denn sie zeigt, welche Kriterien bei den Zulassungsgremien die meiste Relevanz haben – und deckt mitunter eine falsche Gewichtung auf.

Mein Datensatz nun stammt aus Indien. Dort gibt es sogenannte Grad Schools, kleine akademische Einrichtungen an Unis eigens für die höheren Abschlüsse. Da alle Bewerber dieselbe Grundqualifikation mitbringen – den Bachelorabschluss – entscheiden andere Kriterien über Wohl und Wehe dieser Studenten:

  1. Der GRE-Score ist das Resultat eines standardisierten Gradscore-Tests.
  2. Der TOEFL-Score ist ein Sprachniveau-Test, der auch in Deutschland immer mehr zum Tragen kommt.
  3. Das University-Rating gibt Aufschluss über die Qualität des Grundstudiums, das der Student absolviert hat.
  4. Die Überzeugungskraft eines Motivationsschreibens und eines Empfehlungsschreibens sind die einzigen weichen Faktoren in der Vorauswahl.
  5. Der Notendurchschnitt aus dem Bachelor ist natürlich auch relevant.
  6. Ob ein Absolvent Forschungserfahrung sammeln konnte oder nicht, kann im Master ebenso eine Rolle spielen.
  7. Angegeben ist außerdem die Wahrscheinlichkeit für eine Annahme.

Mathematisch gewichtet sieht das wie folgt aus:

  • GRE Scores (290 to 340)
  • TOEFL Scores (92 to 120)
  • University Rating (1 to 5)
  • Statement of Purpose (1 to 5)
  • Letter of Recommendation Strength (1 to 5)
  • Undergraduate CGPA (6.8 to 9.92)
  • Research Experience (0 or 1)
  • Chance of Admit (0.34 to 0.97)

Das richtige Modell: Es lebe die Statistik!

Um von einem Berg an Daten zu einer Erkenntnis zu kommen, braucht es Statistik. Die dunkle Magie der Mathematik, wenn man so will. Auf Rat von Falco habe ich mir deshalb eine Aufgabe ausgesucht, die sich mit einem einfacheren, statistischen Modell (Vorsicht, Oxymoron!) berechnen lässt: Der linearen Regression. Mithilfe dieses statistischen Verfahrens wird versucht, eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Mehr dazu und wie es mit den Auswertungen aus dem Datensatz weitergeht, beschreibe ich im nächsten Artikel.

Dieser Beitrag ist die Online-Fortsetzung des Print-Artikels “Ein Selbstversuch” aus der aktuellen Clutch zum Thema KI. Das Magazin kann online zum freiwählbaren Copypreis bestellt werden.

(Beitragsbild: Klaus Knuffmann)

Clutch-Redaktion