« Wie kam die Plastikfigur in den Königskuchen? | Hauptseite | Macht Social Media blöd? Zwei substanzielle Antworten »
07.01.2010
Such-Zukunft: Die Crux mit unstrukturierten Daten
Roloblog-Leserinnen und -Leser haben von der Schwierigkeit der gängigen Suchmaschinen mit unstrukturierten Daten schon gelesen. Da unstrukturierte Daten (z.B. E-Mail, Word-Texte, etc.) sehr viel häufiger sind als strukturierte Daten (z.B. in Unternehmensapplikationen und Datenbanken) und die Datenmenge rasend schnell zunimmt, kommt der Verbesserung der relativ simpel funktionierenden index- und keywortbasierten Suchmaschinen höchste Bedeutung zu. Im Artikel "Nicole Kidman ist keine kosmische Gaskugel" geht Autonomy-Gründer Michael Lynch auf die Problematik zeitgemässer Suchmaschinen ein:
"Generell gibt es zwei Ansätze für Systeme, die lernen können, wie sich Konzepte zueinander verhalten, ohne diese vorher definieren zu müssen. Der erste, sehr intuitive Ansatz verwendet semantische Verfahren. Ein Computer ist in der Lage, die Regeln der Grammatik zu verstehen und damit in gewisser Weise Dinge zu analysieren. Dabei gibt es aber ein grundsätzliches Problem. Wenn ich Ihnen sage „Die Katze rennt in die Scheune, und sie hat ein Fell“, können Sie das „sie“ definieren. Aber nur, weil Sie über einiges Wissen verfügen. Sie wissen, dass Katzen – statistisch gesehen – mit größerer Wahrscheinlichkeit ein Fell haben als Scheunen.Siehe auch "Was kommt nach den heutigen Suchmaschinen?" oder "Semantische Suche ist kein Wundermittel".Also finden sich Leute, die an solchen Problemen arbeiten, dabei wieder, dass sie Doktoranden in Hinterzimmern damit beschäftigen, die Eigenschaft „hat ein Fell“ für Katzen zu definieren. Das läuft irgendwann aus dem Ruder, weil die Beziehungen zwischen Konzepten nicht absolut gelten, sondern von Bedingungen abhängen.
Der zweite Ansatz, den wir nutzen, ist hingegen kontraintuitiv: Man behandelt die ganze Sache als ein mathematisches Problem."
Verfasst von Hans Fischer um 07.01.10 11:22


