+49 4131 2270 000
Universitätsallee 1, 21335 Lüneburg
info@erason.de

Wie Maschinen lernen.

Wie kann eine Maschine eigentlich lernen?

Diese und ähnliche Fragen rücken angesichts der sich anhäufenden Artikel über maschinelles Lernen (ML) und künstliche Intelligenz (KI) zunehmend in das Bewusstsein. Menschliches Lernen ist ein scheinbar endlos facettenreiches Thema: Von „Erstmal die Anleitung lesen.“ über „Mal schauen, wie die Anderen das machen.“ bis zu „Einfach mal machen.“ ist nicht einmal die Spitze des Eisbergs bekannt. Es herrscht generelle Uneinigkeit darüber, was und wie gelernt werden soll.

Maschinelles Lernen hingegen ist simpel. Wir wissen genau, was gelernt werden soll und wie es optimal gelernt wird. Das sollten wir uns zu Nutze machen!

Szenario:

Häufig kommt es allerdings vor, dass Vermieter uns zunächst nur ein paar Eckdaten geben, nicht aber den Mietspreis, da sie sich erstmal am Markt orientieren wollen.Wir haben eine Plattform auf der wir Mietswohnungen anbieten. Vermieter kommen auf uns zu, nennen uns die Eckdaten der Wohnung und wir vermitteln die Wohnungen an potentielle Mieter.

Unvollständige Wohnungseckdaten
Nummer Fläche in m² Preis in €
1 41,98 404,68
2 48,46 660,33
3 60,17 722,41
4 67,01 764,87
5 80,98 826,68
6 81,13 901,6
7 87,58 836,18
8 93,82 1011,93
9 101,16 934,24
10 123,21 1329,9
11 46,1 ?
12 65,35 ?
13 80,69 ?
14 82,17 ?
15 85,93 ?
16 107,94 ?
17 125,86 ?
18 134,34 ?
19 134,81 ?
20 146,61 ?

Eine Wohnung ohne Preis lässt sich schwer vermarkten, daher suchen wir eine zuverlässige Methode, den Preis einer Wohnung zu schätzen, bis der Vermieter den richtigen Preis nachreicht.

Suche nicht nach Fehlern, suche nach Lösungen.

– Henry Ford

Intuitiv erscheint es sinnvoll, die Fläche mit einem Preis pro Quadratmeter zu multiplizieren und vielleicht noch einen fixen Anteil zu addieren, da bei einer 10m²-Wohnung der Preis/m² sicherlich höher ist. Wir schätzen also in Form von:

Wohnung = €/m² x m² + €Fix

Bei einem Blick auf die Kundendaten erscheint ein Wert von ~10€/m² zu passen. Oder doch besser 9€/m² oder 11€/m²?

Es erscheint klar, dass 10€/m² besser passt als 1€/m², aber wie stellen wir genau fest, welcher Preis es sein sollte?

Im maschinellen Lernen spielt das Quantifizieren der Güte der Schätzung eine zentrale Rolle. In der Regel wird die Güte über einen Fehler gemessen. Das wohl gängigste Fehlermaß stellt dabei die mittlere quadratische Abweichung (MQA) dar. Warum das Quadrat? Eine zu niedrige Schätzung soll im Mittel nicht eine zu hohe Schätzung ausgleichen. Wird der Fehler quadriert, wird eine absolut gleich große Abweichung ungeachtet ihrer Richtung gleich behandelt.

Auf unseren Fall angewendet ergibt sich der folgende Fehler:

9€/m²   + 0€ fix → 22.862,28

10€/m² + 0€ fix → 8.565,62

11€/m² + 0€ fix → 7.718,51

Nun können wir genau messen, wie gut der von uns gewählte Preis passt. Welche Preise sollen wir aber probieren, um den besten Preis zu finden und soll das Ganze nicht eigentlich eine Maschine machen?

Wer einen Fehler gemacht hat und ihn nicht korrigiert, begeht einen zweiten.

– Konfuzius

Gute Nachrichten: Alles möglich!

Die MQA beantwortet „Wo sind wir gerade?“.  „In welche Richtung müssen wir weiter?“ kann die Ableitung der MQA nach dem m²-Preis/ Fixpreis beantworten. Sie gibt Aufschluss darüber, wieviel sich die MQA in Abhängigkeit durch minimale Änderung des m²-/Fix-Preises in eine bestimmte Richtung verändert.

Aus unseren Fragen sind drei Formeln geworden.

„Wo sind wir gerade?“ MQA
„Muss €/m² höher oder tiefer sein?“  Ableitung MQA nach €/m²
„Muss der Fixanteil höher oder tiefer sein?“  Ableitung MQA nach dem Fixanteil

Zufälligerweise sind Rechner sehr gut darin, Formeln mit festen Regeln zu folgen.

Lassen wir den Rechner arbeiten, ergibt sich der folgende Zusammenhang:

Wohnung = 9,20€ x m² + 115,90€

Damit sind wir bei einer MQA von 5.326,24. Deutlich besser als unsere initiale 11€ /m² Schätzung!  So sieht das Ganze graphisch aus:

Maschinelles Lernen – Regression mit Wohnungsgröße

Ergänzte Wohnungseckdaten
Nummer Fläche in m² Jahre Preis in €
1 41,98 31,28 404,68
2 48,46 8,72 660,33
3 60,17 10,9 722,41
4 67,01 22,57 764,87
5 80,98 30,42 826,68
6 81,13 12,97 901,6
7 87,58 35,07 836,18
8 93,82 13,58 1011,93
9 101,16 33,63 934,24
10 123,21 8,97 1329,9
11 46,1 27,05 ?
12 65,35 0,35 ?
13 80,69 33 ?
14 82,17 29,47 ?
15 85,93 36,89 ?
16 107,94 3,6 ?
17 125,86 8,02 ?
18 134,34 19,93 ?
19 134,81 24,85 ?
20 146,61 30,61 ?

Da falsche Preisschätzer einigen potentiellen Mietern sauer aufstoßen, möchten wir unsere Schätzung verbessern und fragen die Vermieter nach mehr Eckdaten zu den Wohnungen. Als Antwort erhalten wir, vor wie vielen Jahren die jeweilige Wohnung zuletzt renoviert worden ist.

Wir erweitern also unser Schätzermodel:

Wohnung = €/m² x m² + €Fix + €/Jahr x Jahre

Wieder lassen wir unseren Rechner die Arbeit machen und erhalten:

Wohnung = 9,12€/m² x m² + 262,34€ – 6,70€/Jahr x Jahre

Über unsere Methode haben wir herausgefunden, dass sich jedes Jahr nach einer Renovierung in Form einer 6,70€  Verminderung im Mietpreis widerspiegelt. Diese Information können wir an die Kunden weitergeben. Sicherlich lässt sich daraus ableiten, welche Wohnungen aus wirtschaftlicher  Sicht renoviert werden sollten.

Die Schätzung unserer neuen Methode sieht es wie folgt aus:

Maschinelles Lernen – Lineare Regression mit Wohnungsgröße und Jahre seit Renovierung

Ziemlich nah dran! Nur ein Gedanke will einfach nicht aus dem Kopf: Woher wissen wir, dass unsere Schätzungsmethode auch für die anderen Wohnungen funktionieren wird? Schließlich haben wir alles mit Hilfe der ersten Zehn Wohnungen bestimmt.

In der Praxis wird an dieser Stelle Validierung und Tests benutzt. D.h. von den verfügbaren Daten wird nur ein gewisser Anteil z.B. 80% für das Anlernen der Maschine verwendet. Der Rest wird anschließend benutzt, um zu testen, ob die Maschine auch ungesehene Daten valide einschätzen kann.

In unserem Wohnungsfall sind mittlerweile die verbleibenden Wohnungspreise von den Vermietern an uns weitergegeben worden. Wir testen also prompt unsere Methode an den ungesehenen Daten:

Maschinelles Lernen – Lineare Regression auf unbekannten Daten

Das sieht nach wie vor gut aus. Auch die zur Trainingszeit unbekannten Wohnungspreise werden von unserer Methode zuverlässig prognostiziert. Es scheint, als hätte die Maschine wirklich etwas Sinnvolles gelernt.

Zusammenfassend die Schritte, um die Maschine lernen zu lassen:

  • Aufgabe in Formel übersetzten
  • Daten aufteilen
  • Güte der Schätzung mit Formel feststellen
  • Güte maximieren/ Fehler minimieren durch Folgen der Ableitung
  • Validierung der Schätzung mit den verbleibenden Daten
  • Gegebenenfalls Anpassung des Modells

Natürlich ist das Beispielscenario relativ simpel. In der Praxis können und werden selbstverständlich gerade komplexe und zeit-intensive Aufgaben an die Maschine übergeben. Maschinelles Lernen ist ein unendlich nützliches und wandelbares Werkzeug.

Lassen Sie uns das Werkzeug gemeinsam formen und zu Ihren Zwecken den maximalen Nutzen in der minimalen Zeit erzielen.