Retrieval

Aus WM 2.0 Wissensmanagement-Wiki

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Begriff

Schema Information Retrieval
Schema Information Retrieval

Heinz-Dirk Luckhadt (vgl.Information Retrieval "Virtuelles Handbuch Informationswissenschaft") beschreibt "Retrieval", respektive "Information Retrieval", als Sammelbegriff für alle Verfahren, die mit der Aufbereitung, Speicherung und Wiedergewinnung von Wissen zu tun haben. Wikipedia (vgl. Wikipedia: Information Retrieval) definiert enger eingegrenzt: "Information Retrieval (...) (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet sowohl der Informationswissenschaft als auch der Informatik. Wie der Begriff retrieval (deutsch Wiedergewinnung, Auffindung) sagt, sind Informationen in großen Datenbeständen zunächst verloren und müssen wieder gewonnen bzw. wieder gefunden werden."

Suchmaschinen

Web Search

Für den Privatgebrauch ist Google das Mass aller Dinge. Boolesche Operatoren wie «AND» oder «NEAR» und sogar Stoppwörter sind Schnee von gestern. Warum denn auch nicht? Entspricht das Suchresultat nicht den Vorstellungen, werden eben neue Begriffe oder Kombinationen derselben eingegeben. Suchmaschinen werden im Privatgebrauch ohnehin nur selten für exakte Recherchen verwendet. Vielmehr dienen die Resultatseiten oftmals als Ausgangspunkt für exploratives Surfen: Man sucht und findet mehr oder weniger das Passende und nimmt dies als Ausgangspunkt für Erkundungstouren – Suchmaschinen als Meta-Navigationsinstrumente also. Und werden für einmal wirklich exakte Suchresultate gebraucht, zum Beispiel für schriftliche Arbeiten oder Vorträge, helfen die weiterführenden Hinweise bei Wikipedia in den allermeisten Fällen aus der Patsche. Selbstverständlich muss nicht zwingend auf die Online-Enzyklopädie zurückgegriffen werden. In allen gängigen Suchmaschinen-Verzeichnissen finden sich spezialisierte Dienste, die das Auffinden exakter Information binnen nützlicher Frist ermöglichen.

Suchmaschinen decken ein Defizit im Internet ab, das kein eigenes Indexingsystem und kein eigenes Klassifikationssystem hat. Das macht seine Offenheit aus. Das Problem mit den Suchmaschinen ist, dass sie in der Zwischenzeit sehr viel über die Topologie des Netzes wissen: Was ist mit was verlinkt, was sind thematische Cluster usw. Aber es besteht sehr wenig Wissen darüber, was einen spezifischen Nutzer interessiert. Je größer die Informationsmenge wird, desto schwieriger ist es, ein spezifisches individuelles Nutzerinteresse mit der Informationstopologie zusammenzubringen. Google und auch andere versuchen jetzt, möglichst viel zu personalisieren. Das heißt, sie versuchen, möglichst viel über den Nutzer in Erfahrung zu bringen, konstruieren Profile, kategorisieren die Person und legen das als zusätzlichen Filter über die Suchresultate. Andere Suchresultate werden nach oben gerankt, oder Dinge verschwinden, weil der Anbieter die Vorstellung hat zu wissen, was die Person sucht. Die Personalisierung dient einerseits dem Interessee der Suchmaschinenanbieter, die User mit der gesuchten Information zu verbinden und andererseits die Werbekunden mit den ausgesuchten potenziellen Kunden in Beziehung zu bringen. Neben dem herkömmlichen Suchmaschinen-Index über die Informationen, die online erhältlich sind, existiert also ein "zweiter Index", welcher die die Informationen über die individuellen Nutzer beinhaltet. Das Wissen über die Menschen in der Gesellschaft in Echtzeit ermöglicht ein Herrschaftswissen über die Konstitution der Gesellschaft in Echtzeit.

Zu Beginn oft fälschlicherweise als Google-Konkurrent bezeichnet, soll Wolfram Alpha, die neuartige Suchmaschine des Mathematica-Erfinders Stephen Wolfram keine Suchmaschine sein, sondern einen neuen Zugang zu zahlenbezogenem Wissen und dessen Verarbeitung schaffen. Beispielsweise soll das System dazu in der Lage sein, auf Fragen wie "Was ist die 1.050. Stelle der Kreiszahl Pi?", "Wie stand die Aktie von Microsoft am 1. April 2005?" und "Wie viele Regentage gibt es in Sydney?" korrekt zu antworten. Die Daten dazu hat Wolfram Research nach eigenen Angaben aus verlässlichen Quellen zusammengetragen.

Das Internet bietet auch kompetente und umfangreiche Inhalte von Experten. Davon sollen die Benutzer bei Frage-Antwort-Portalen profitieren. Die meisten Angebote, die dem Trend "Weg von der klassischen Wortsuche über Suchmaschinen hin zu Portalen, die Fragen beantworten" folgen, sind derzeit jedoch noch rar und befinden sich zumeist noch in Entwicklung:

Search Wikia verfolgt den bekannten Wiki-Ansatz, dass der Algorithmus der Suchmaschine jedermann zugänglich ist. Somit soll das Projekt kein geschlossenes System sein, sondern eines, bei dem die Benutzer Seiten und Suchergebnisse bewerten und somit im Ranking rauf- oder runterstufen können. Gemeinsam soll die Qualität der Suchergebnisse verbessert werden. So soll es auch möglich sein, beispielsweise Ergänzungstexte zu Suchergebnissen zu schreiben und erscheinen zu lassen oder Verweise zu passenden Inhalten zu platzieren.

Mahalo, was "danke" auf Hawaiianisch bedeutet, kombiniert die Suchresultate von Google mit Hinweisen, die von einer menschlichen Redaktion erstellt werden. Die User können entweder den Suchbegriff direkt eingeben oder sich von der Startseite aus durch den Begriffsindex klicken. Für die Inhalte des Webkatalogs prüfen sogenannte Guides zu besonders gefragten Stichwörtern die Treffer mehrerer großer Suchmaschinen und bewerten das Ergebnis. Ein "Shaka"-Zeichen (eine Hand mit zwei ausgestreckten Fingern, laut FAQ eine hawaiianische Begrüßungsgeste) weist auf Treffer hin, die dem Prüfer besonders gut gefallen haben. Mit einem Warnschild versieht Mahalo Webadressen, die zwar relevante Inhalte haben, aber nicht ganz die Zustimmung der Prüfer fanden (etwa aufgrund zu umfangreicher oder aufdringlicher Werbung). Kleine Sprechblasen mit einem Fragezeichen erläutern Begriffe, die dem Besucher eventuell nicht geläufig sind. Findet Mahalo keinen entsprechend bearbeiteten Artikel, verweist die Seite direkt auf die Suchresultate von Google. Die Kombination aus menschlichen und maschinellen Suchtalenten ("Human Powered Search") soll in diesem Fall Google nicht ersetzen, sondern vielmehr ergänzen ("Google plus Index").

Der französische Suchmaschinenanbieter Exalead bietet die Möglichkeit, gezielt nach Bildern zu suchen, die in erster Linie das Gesicht der gesuchten Person abbilden. Google arbeitet an einer ähnlichen Funktion, die aber noch nicht freigeschaltet wurde. Exalead bietet darüber hinaus auch bei der Web-Suche zahlreiche Optionen und zeigt zu jeder gefundenen Seite ein Vorschaubild an. Neben Webseiten und Bildern lässt die laut Eigendeklaration "innovative WWW-Suchmaschine" auch die Suche nach Videos, Wikipedia- und Blog-Inhalten zu.

Suchmaschinen, bei denen die User selbst in einem P2P-Netz zum Aufbau eines verteilten Webseiten-Index beitragen, wird eine neue Dimension des Suchens im Web prophezeit.

Mit einem verbesserten Suchalgorithmus und einer optimerten Bedienoberfläche will Ask.com mehr Nutzer für seine Suchmaschine gewinnen. Hauptmerkmal der "Ask3D"-Seite ist ein dreigliedriger Aufbau. Vorschläge, die Suche zu erweitern oder zu verfeinern, finden sich auf der linken Seite. Die tradionellen Suchergebnisse werden in der mittleren Spalte ausgeliefert und in der rechten Spalte werden Ergebnisse aus Spezialsuchmaschinen eingeblendet. Welche Spezialsuchmaschinen bei Anfragen zum Einsatz kommen respektive welche Ergebnisse eingeblendet werden, wird von Fall zu Fall entschieden. Einige Anfragen können zu Links zu Musikstücken oder Videos führen, andere wiederum bieten Treffermaterial in Form von Links zu News oder auch Blog-Einträgen.

Die Suchmaschine Cuil (das aus dem Gälischen stammende Wort bedeutet sowohl Wissen als auch Hasel und wird "cool" ausgesprochen) soll das Web günstiger und schneller erfassen als Google. Gegründet wurde das Unternehmen von Tom Costello, einem ehemaligen IBM-Mitarbeiter, und seiner Frau Anna Patterson, die zuvor drei Jahre bei Google tätig war. Cuil gibt die Suchergebnisse nicht als eine Liste von Links und kurzen Stichworten aus, sondern zusammen mit einem kurzen Text und Bild präsentiert in Spalten. Die Betreiber nennen das "organized results", die Präsentation in Spalten sei besser lesbar. Dazu wird auf der Ergebnisseite ein Kasten mit Kategorien gezeigt, durch die die Fundstellen weiter eingegrenzt werden können. Die Suchergebnisse werden nicht nach Popularität sortiert, sondern nach ihren Inhalten. Bisher ist die Ende 2006 in Menlo Park gegründete Suchmaschine auf die Sprache Englisch optimiert, später sollen andere europäische Sprachen hinzukommen.

Mit SearchMonkey verwandelt Yahoo die eigene Suche in eine offene Plattform. Seitenbetreiber können die Suchergebnisse von Yahoo für ihre jeweilige Seite mit strukturierten Informationen anreichern und optisch aufpeppen. Die Suchergebnisse werden dadurch relevanter, sind für die Suchenden informativer und besser einzuschätzen und generieren zielgerichteteren und wertvolleren Traffic.

Anreicherung der Suchergebnisse von Yahoo mit zusätzlichen Daten.

Build your Own Search Service (BOSS), "baue Deinen eigenen Suchdienst", heißt ein neuer Dienst von Yahoo, mit dem jedermann auf Basis des Yahoo-Indexes eigene Suchmaschinen bauen darf. Anders als bei SearchMonkey begrenzt Yahoo die Anzahl der täglichen Anfragen nicht. Nutzer können die von Yahoo gelieferten Ergebnisse umsortierten und mit anderen Inhalten mischen; auch bei der Präsentation erhalten sie freie Hand. Zum Start haben Nutzer Zugriff auf den Web-, News- und Bilder-Index, weitere sollen folgen. Yahoo behält sich das Recht vor, in BOSS-Suchdiensten Werbung einzublenden. Yahoo stellt ein BOSS-API bzw. Webservices sowie ein Mashup-Framework zur Verfügung, mit dem sich BOSS-Inhalte mit anderen verschmelzen lassen.

BOSS (Build your Own Search Service).

Auch Google bietet mit SearchWiki die Möglichkeit, die Reihenfolge der Suchergennisse selbst zu verändern, einzelne Resultate zu löschen und zu kommentieren. So kann man einen Treffer an die oberste Stelle setzten oder auch aus der Suche löschen. Auch können Kommentare abgegeben werden. Noch nicht aufgeführte Seiten können der Ergebnisliste hinzugefügt werden. Sucht man später wieder einmal nach dem selben Begriff, liefert Google direkt die personalisierten Ergebnisse. So findet man schneller, was man als wirklich wichtig empfindet. Sämtliche Änderungen sind unter “My SearchWiki Notes” aufgeführt und auch von anderen Nutzern einsehbar. Laut Google ist dieser neue Dienst nur ein Beispiel dafür, wie die Suche in Zukunft noch viel dynamischer werden wird.

Deutschland und Frankreich gehen bei der Entwicklung der Suchtechnologie der nächsten Generation getrennte Wege. Frankreich verfolgt das Ziel, eine "konventionelle Suchmaschine" à la Google marktreif zu machen. In Deutschland hingegen will man unter dem Titel Theseus eine semantische Suchmaschine vorantreiben, die zur Verbesserung der Such- und Indiziertechnik eine Verknüpfung der vergleichsweise willkürlichen Verschlagwortung von Inhalten über Social Tagging bei Web 2.0-Diensten mit dem deutlich strengeren Katalogisierungsansatz des so genannten semantischen Web ermöglichen soll. Insgesamt soll Theseus wie der Namensgeber aus der griechischen Mythologie anscheinend den Nutzern den Weg durch das Wissenslabyrinth weisen.

Metadaten von Calais.
Metadaten von Calais.

Die zukünftige Suchtechnologie des Web 3.0 - welches als Verbindung von semantischem Web und dem Web 2.0 verstanden wird - soll vor allem eine Verbesserung der Mensch/Maschine-Schnittstelle und eine Veredelung der Suchergebnisse durch das Extrahieren der eigentlich gesuchten Information erlauben. So soll beispielsweise aus dem Kontext heraus unterscheiden werden können, ob mit "Golf" in einer bestimmten Aussage die Sportart, das Auto oder die Meeresbucht gemeint sei. Ein semantisches System kann derartige Ambivalenzen erkennen und eine Klassifizierung nach verschiedenen Zusatzbegriffen oder Kategorien empfehlen. Das Suchportal Powerset ist in der Lage, Inhalte aus Wikipedia semantisch aufzubereiten und kommt auch mit Fragen zurecht, die in einer natürlichen Sprache formuliert werden.

Calais ist ein ‘semantisches’ Toolkit von Thomson Reuters, mit dem sich Blogs, andere Content-Angebote und Anwendungen, die Texte prozessieren, automatisiert mit semantischen Ergänzungen anreichern lassen. Über die APIs des Calais Web Service etwa können Entwickler programmatisch auf alle Funktionen von Calais zugreifen. Dabei schicken sie unstrukturierten Text und bekommen ihn annotiert mit RDF, Microformaten oder mit anderen Fakten und Ereignissen wieder zurück.

Die semantische Suchtechnologie «tore» (technical operational research engine) wurde von Fraunhofer-Forschern zusammen mit dem Industrieunternehmen Bilfinger Berger zur Marktreife entwickelt. Ziel war die Entwicklung einer einheitlichen Plattform, die eine übergreifende Suche in 16 Datenbanken ermöglicht, darunter Lotus Notes und SQL-Datenquellen. Alle Einträge für dieses Wissensnetz wurden automatisch analysiert, mithilfe von statistischen sowie linguistischen Verfahren umgewandelt, ins Deutsche und Englische übersetzt und verknüpft. Dadurhc, dass verschiedene Bezeichnungen für dieselbe Sache bei der Anfrage berücksichtigt werden und nicht jeder Begriff extra recherchiert werden muss, erleichtert die Suche und spart viel Zeit. Durch das semantische Wissensnetz erhoffen sich Unternehmen eine verbesserte Position gegenüber den Mitbewerbern.

Desktop Search

Wollen die Unternehmen «lediglich» vom Suchen und Finden von Unternehmensdaten profitieren, reichen kostengünstige Desktop-Search-Anwendungen aus. Diese indexieren den lokalen Datenbestand und stellen bei entsprechender Eingabe von Suchbegriffen Resultatlisten zusammen. Je nach Tool werden mehr oder weniger weitgehende Zusatzfunktionen angeboten.

Für den Einsatz in Unternehmen ist insbesondere abzuklären, ob die Desktop-Search-Lösung alle verwendeten Dateiformate (zum Beispiel auch PDFs) und Anwendungen (E-Mail-Programme, USB-Sticks) unterstützt. Dazu kommt, dass dem Sicherheitsaspekt umfassend Rechnung getragen werden muss. Das gilt insbesondere für die Berücksichtigung der internen Berechtigungsrichtlinien.

Tools

Enterprise Search

In der heutigen Wissensgesellschaft sind Informationen ein Schlüssel zum Erfolg. Der Berg an zur Verfügung stehenden Daten wächst stetig. Nutzer stehen zunehmend vor der Herausforderung, die benötigte Information schnell und im richtigen Moment zu finden. Mitarbeiter kostet es täglich viel Zeit, Daten aus Kunden-, Lieferanten- und Expertendatenbanken herauszufiltern. Für das Unternehmen entstehen so unnoetig hohe Kosten.

Standard-Such-Tools finden - wenn überhaupt - höchstens einen Teil der eigentlich passenden und vorhandenen Dokumente in einem Unternehmen. Werden demgegenüber aber spezialisierte Tools eingesetzt, reduziert sich die Suchzeit nach vorhandenen Dateien enorm und eigentlich vorhandenes Fakten-Wissen geht nicht verloren – was aufgrund der Verhinderung von Dubletten wiederum finanziell relevant ist. Um diese Vorteile ausspielen zu können, braucht es Spezialsoftware. Das Marktangebot reicht von relativ einfachen und kostenlosen Desktop-Search-Lösungen bis hin zu umfangreichen Enterprise-Search-Applikationen, die komplexe Wissensmanagement-Funktionen erfüllen.

Semantische Suchlösungen aggregieren Suchergebnisse inhaltlich – unabhängig davon, ob es sich um hochstrukturierte Fakteninformationen oder um Texte aus Datenbanken und Verzeichnissen handelt. Und sie beziehen thematisch verwandte Informationen mit ein, wenn eine Fragformulierung zu unergiebig ist. Semantische Wissensnetze suchen nicht nach Wörtern, sondern nach Bedeutungen und erkennen, dass "Kunde" in der Vertriebsdatenbank gleichbedeutend ist mit "customer" im E-Mail-Archiv und "Auftragsgeber" in der Projektdokumentation. Erst mit Semantik wird die inhaltliche Integration verschiedener IT-Systeme im Unternehmen möglich.

Moderne Such-Software kommt sprachunabhängig auch mit unstrukturierten Daten wie E-Mails, Videos und Telefongesprächen klar. Ohne manuelle Eingriffe ist das System in der Lage, Dokumente miteinander zu assoziieren, personalisierte Informationen zu liefern, User mit gleichen oder ähnlichen Interessen zu lokalisieren oder Dokumente vollautomatisch zu verschlagworten. Dies führt im Einsatz für Unternehmen zu grossen Wettbewerbsvorteilen: Wer den Produktionsfaktor Wissen beherrscht, beherrscht den Markt.

Dass in Sachen Unternehmenssuche noch keines der IT-Schwergewichte das semantische Ei des Kolumbus gefunden hat, zeigt die Tatsache, dass hier auch kleinere Unternehmen aus der Schweiz mitmischen. So kombiniert die Basler Canoo Engineering mit ihrer quellenübergreifenden Suchlösung CanooFind- IT das grösste deutsche Onlinewörterbuch canoo.net mit dem verlinkten Wissen von Wikipedia und einem Sprachanalysetool, um auch Informationen finden und kategorisieren zu können, die nicht explizit gesucht wurden, die aber in einem Zusammenhang zum Suchbegriff stehen. Die in Bassersdorf domizilierte iQser wiederum setzt mit der selbstlernenden GIN-Plattform auf einen «Bottom-up»-Ansatz. Die semantische Middleware entwickelt selbstständig ein den praktischen Businessbedürfnissen folgendes, firmenspezifisches Mini-Web-3.0.

Tools

  • Das 1997 in Norwegen gegründete Unternehmen Fast Search & Transfer (FAST) ist unter anderem auf Informationsmanagement und Suchtechnik für Unternehmen spezialisiert. FAST wurde 2008 von Microsoft übernommen, da es u.a. gute Verknüpfungsmöglichkeiten mit dessen weitverbreiteten SharePoint-Plattform bietet.
  • ConWeaver vom Fraunhofer IDG ist eine Suchmaschine für firmeninterne Dokumente in Kunden-, Lieferanten- und Expertendatenbanken. Die Software durchsucht verschiedenen Datenquellen eines Unternehmens und bezieht dabei nicht nur den vom Nutzer eingegebenen Begriff in die Suche ein, sondern auch dessen Übersetzung in andere Sprachen sowie thematische Zusammenhänge.

Quellen

Links

Persönliche Werkzeuge