Suchmaschinen - Arno Dittmar- kleines Seminar





Suchmaschinen und Anfragen im WWW (SS02)






Themen:

1. Einleitung
1.1. Definition: Katalog
1.2. Definition: Suchmaschine
1.3. Definition: Meta-Suchmaschine


2. Funktionsweisen
2.1. Listen/ Kataloge
2.2. Generation 1
2.3. Generation 2
2.4. Generation 3
2.5. Probleme/Optimierungsstrategien


3. Beispiel: Google
3.1. Allgemeines
3.2. Technologie
3.3. Besonderheiten


4. Beispiel: MetaGer
4.1. Enstehung und Funktionsweise
4.2. Welche Suchdienste werden abgesucht?
4.3. Quicktips - lokale Suche
4.4. Optimierungen
4.5. MetaGer auf der eigenen Homepage verwenden?
4.6. Hardware

5. Statistiken

Quellenangaben am Ende




1. Einleitung





Das Internet enthält eine gigantische Informationsmenge. Die größte, die der Mensch jemals geschaffen hat. Gerade deshalb aber ist das Auffinden brauchbarer Informationen eine nicht ganz einfache Aufgabe. Stellen Sie sich die Bücher einer Bibliothek auf einem Haufen vor - kaum jemand wäre in der Lage, in akzeptabler Zeit das gewünschte Buch herauszusuchen. Jetzt stellen Sie sich alle Bibliotheken der Welt auf einem Haufen vor. Ungefähr so sieht es im Internet aus. Aus diesem Grund konkurrieren weltweit mehr als tausend Suchmaschinen um die Gunst des Internet-Surfers. Ohne Suchmaschinen wären Rechercheaufgaben im Web von vornherein zum Scheitern verurteilt. Aber auch mit diesen unentbehrlichen Helfern ist der Erfolg nicht garantiert. Suchmaschinen haben ihre Tücken: entweder ist das Gesuchte gerade nicht erfaßt oder aber der Suchende wird umgekehrt von der Menge des Gefundenen 'erschlagen'. Nur unter Ausnutzung aller zur Verfügung stehenden Suchangebote kann es heutzutage gelingen, der Informationsflut im Internet Herr zu werden. Hierzu werden Meta-Suchmaschinen eingesetzt. Die beiden international bekanntesten Meta-Suchmaschinen sind der am Computer Science Department der University of Washington entwickelte MetaCrawler und die kommerzielle Maschine Highway61 von Virtual Mirror in Highland Park, New Jersey. Für den deutschsprachigen Raum wurde am Regionalen Rechenzentrum Niedersachsen an der Uni Hannover als erste und bisher einzige deutsche Meta-Suchmaschine MetaGer entwickelt.

Eine statistische Untersuchung, die Wissenschaftler Anfang April am NEC-Forschungsinstitut in Princeton, New Jersey vorstellten, zeigt, dass schon 1998 das Suchen mit einfachen Suchmaschinen nur einen Bruchteil der gesamten Dokumentenmenge im Web abdeckte. Von den sechs bekanntesten Suchmaschinen lag Hotbot mit 34 Prozent an der Spitze, gefolgt von Altavista mit 28 und NorthernLight mit 20 Prozent. Excite und Infoseek fielen mit 14 und 10 Prozent schon stark ab; und für Lycos ergaben sich nur mickrige 3 Prozent. 1999 lag Northern Light mit nur noch 16 Prozent an der Spitze. Hotbot fiel auf 11,3 Prozent zurück. Alle 11 untersuchten Suchmaschinen erreichten zusammengefaßt nur 42 Prozent der verfügbaren Seiten. Bei der Mehrzahl aller Suchmaschinen konnten die Forscher feststellen, daß Sites amerikanischer Anbieter generell bevorzugt wurden. Sie vermuten daher, daß die Suchmaschinen zunehmend ein verzerrtes Ergebnis liefern.

Die Entwicklung der Internet-Suchdienste begann um 1991 mit WAIS. WAIS legte eine Volltext-Indexierung von kompletten Web-Servern an: Die erzeugte Datenbank beanspruchte dabei etwa denselben Speicherplatz wie die eigentlichen Daten. Dieses Manko glich Glimpse aus, das zwei Jahre später als freie Software auf den Markt kam. Glimpse benutzte effektivere Algorithmen und benötigte nur einen Bruchteil des Speicherplatzes. Im gleichen Zeitraum entstanden unter anderem mit Excite die ersten populären Internet-Suchdienste.


Aus der kurzen, aber bewegten Geschichte der Suchdienste lassen sich drei Tendenzen ablesen:

1. Suchdienste entwickelten sich von lokalen Sammelprozessen hin zu globalen Strukturierungsversuchen.
2. Durch das steigende Angebot von Suchmaschinen etablierten sich Meta-Dienste.
3. Durch steigendes Datenvolumen entwickelten sich verteilte Systeme.


1.1. Definition: Liste/Katalog


Listen bzw. Kataloge sind die Vorgänger der Suchmaschinen. Ein Katalog enthält ein Suchangebot, dass von Menschen vorher zusammengetragen und geordnet wurde. Im einfachsten Fall steckt hinter einem Katalog eine alphabetische oder nach thematischen Kriterien geordnete Liste. Bekannte Beispiele findet man heutzutage auf allen grösseren Portalseiten wie zum Beispiel bei Yahoo oder Web.de.


1.2. Definition: Suchmaschine


"Suchmaschine - Programm zur Informationsrecherche im Internet, das das World Wide Web nach Schlüsselbegriffen in Dateien und/oder Dokumenten absucht und die Fundstellen in abrufbaren Datenbanken bereithält." (Quelle: Der Brockhaus)
Im Unterschied zu Katalogen läuft die Suche automatisiert ab.


1.3. Definition: Meta-Suchmaschine


Meta-Suchmaschinen sind Recherchetools der zweiten Generation, die bei einer Anfrage mehrere einfache Suchmaschinen gleichzeitig abfragen und die Ergebnisse für den Benutzer einheitlich aufbereiten. Der Benutzer kommt mit den zugrundeliegenden Suchmaschinen nicht in Kontakt.






2. Funktionsweisen





2.1. Listen/Kataloge


Automatische Suchmaschinen können Texte nicht wirklich verstehen. Sie gewichten Dokumente im Allgemeinen nur nach verschiedenen Worthäufigkeiten. Im Gegensatz dazu steckt hinter manuellen Angeboten meistens ein Mensch, der für den späteren Nutzer eine intelligente Vorauswahl trifft. Der Klassiker dieser Listen ist die Yanoff-Liste, benannt nach ihrem 'Erfinder' Scott Yanoff. Das Angebot ist zwar immer noch im Internet zu erreichen, wird aber nicht mehr aktualisiert. Dass Kataloge aber nach wie vor ihre Anhänger haben zeigt die Entwicklung von Lycos. Nachdem Lycos als Suchmaschine an Bedeutung verlor, kaufte man Kataloge und es gelang, neue Kunden zu gewinnen. Ebenfalls in die Kategorie der Listen und Kataloge gehören FAQs und Foren.

Mit der Dynamik des Internet können Kataloge leider keinesfalls mithalten. Analysen von WWW-Adressen in Proxy-Caches haben gezeigt, daß nach einem halben Jahr bereits mehr als die Hälfte aller Adressen veraltet ist. Dadurch wird der Anspruch, das Informationsangebot möglichst vollständig zu erfassen, von Katalogen also auch nicht nur annähernd erfüllt.


2.2. Generation 1: einfache Suchmaschinen


Jeder Suchdienst arbeitet im Prinzip nach dem gleichen Schema: Zunächst geht es um das Sammeln der Daten. Die Programmteile der Suchmaschine die sich dieser Aufgabe widmen, werden gatherer, robot oder scooter genannt. Diese benötigen einige wenige Einstiegsadressen und gehen dann jedem auf diesen Seiten existierenden Link nach. Das Ergebnis dieses Sammelprozesses wird in einer Datenbank abgespeichert. Dazu indiziert das Programm die gesammelten Daten (d.h. es werden Listen mit Schlagworten angelegt). Die meisten Suchmaschinen generieren Schlagworte automatisch aus dem Volltext der gefundenen Dokumente. Meta-Tags werden meist werden gesondert berücksichtigt. Die Schlagworte sollen den Benutzer wie Karteikarten zum gesuchten Dokument führen.

Eine Abfrageschnittstelle fordert zur Eingabe der Suchbegriffe auf und kann eventuell durch die Formulierung eines Suchfilters die Ergebnismenge verfeinern. Der Benutzer kann einen oder mehrere Suchbegriffe angeben und sie durch logische Operatoren (AND/OR/!) verbinden. Werden Suchbegriffe nur durch ein Leerzeichen getrennt, stellen Suchmaschinen prinzipiell zuerst alle Dokumente dar, in denen beide Worte vorkommen, und im Anschluss die Dokumente in denen eines der beiden gefunden wurde.

In Artikeln über Suchmaschinen wird oft erwähnt, dass es sinnvoll ist, einen Qualitätstest vor der erstmaligen Benutzung einer Suchmaschine durchzuführen. Mit zwei einfachen Suchanfragen kann jeder Benutzer einfach und unmittelbar feststellen, ob zwei Haupt-Kriterien erfüllt werden: Die Unterscheidungsfähigkeit zwischen Gesamt- und Teilwort sowie die Funktionalität einer logischen Verknüpfung. Hierzu kann man folgendes Beispiel von Metager verwenden: Wenn das Wort "SAND" eingegeben wird und als Ergebnis verSAND oder verSANDkosten oder ähnliche "Treffer" vorkommen, unterscheidet die Suchmaschine NICHT zwischen Gesamt- und Teilausdruck. Man sollte auf andere Suchmaschinen ausweichen. Den zweiten Test (AND-Test) macht man einfach, indem (mit der Einstellung "Finde Treffer, in denen ALLE Suchworte vorkommen") zuerst zwei Suchworte eingegeben werden, die inhaltlich demselben Bereich entstammen, wie z.B. "Sand" und "Kies". Danach gibt man ein drittes Wort aus einem völllig anderen Bereich, wie z.B. "Skilanglauf" ein. Wenn die Treffer gleich oder sehr ähnlich wie zuvor sind, kann der Suchdienst höchstwahrscheinlich kein logisches AND korrekt ausführen.

Heutzutage bearbeiten Verteilte Systeme die Anfragen einer Suchmaschine in einzelnen Schritten und delegieren Teilaufgaben an verschiedene Rechner um optimale Performance zu bieten. Führt man die Idee der Aufgabenverteilung konsequent fort, dann kann man sich ein mehrfach verteiltes System vorstellen, bei dem jede Komponente jede beliebige Einzelaufgabe erledigen kann. Bis 1998 gab es nur ein einziges System, das in der Lage war, eine solche Mehrfachverteilung zu realisieren: das Harvest-System: Ursprünglich bestand Harvest aus den chaotischen Überbleibseln einer Programmierertätigkeit, der University of Boulder. Das Projekt wurde 1996 abgebrochen. Danach nahm sich die University of Edinburgh der Weiterentwicklung des Harvest-Systems an. Heraus kam eine komplette, fertige Suchmaschine, die auf allen modernen Unix-Systemen läuft. Das Programm kostet keinen Pfennig und ist frei verfügbar. Harvest erfreut sich besonders im universitären Bereich großer Beliebtheit und dient als Grundlage für zahlreiche Suchmaschinen wie beispielsweise im GERHARD-Projekt der Uni Oldenburg. Als verteiltes System, für das Harvest als einziges Programm derzeit geeignet und geplant war, kam es bisher jedoch nur sehr selten zum Einsatz.


2.3. Generation 2: Meta-Suchmaschinen


Meta-Suchmaschinen unterscheiden sich bei der Art der Ausgabe. Fast jeder Anbieter verwendet ein eigenes Rankingverfahren, dessen genaue Funktionsweise jeweils Betriebsgeheimis ist, um die Ergebnisse für den Benutzer vorsortiert auf dem Browser ausgegeben.

Man unterscheidet prinzipiell zwischen 2 Arten von Meta-Suchmaschinen:

(1) Wenn der Automat auf dem PC des Benutzers läuft, spricht man von einer client-basierten Meta-Suchmaschine.
(Beispiel: WebFerret - http://www.webferret.com/)

(2) Wenn der Automat auf einem Server Anfragen von mehreren Benutzern bearbeitet, spricht man von einer server-basierten Meta-Suchmaschine.
(Beispiel: Highway61 - http://www.highway61.com/)
(Beispiel: Metacrawler - http://www.metacrawler.com/)

Im Fall (1) ergeben sich zwei zwei Probleme: Das Last-mile-Problem und das Update-Problem.
Das Last-mile-Problem resultiert daraus, dass der Benutzer eine langsamere Internetverbindung hat und dies eventuell zu einer erheblichen Verzögerung beim Herunterladen des Datenstroms der MetaSuchmaschine führt und unnötigen Traffic verursacht. Das Problem bekommt zusätzlich Gewicht, wenn man berücksichtigt, dass 50% des Datenstroms (Werbung, mehrere gleiche Treffer, Fehlinformationen, ...) nach der Auswertung einfach wegfallen. Das Update-Problem entsteht, weil Suchmaschinen sehr häufig verbessert oder verändert werden bzw. wurden (ca. 1x pro Monat laut einer Studie von MetaGer im Jahr 1999) und damit ein erneuter Download der Software nötig ist. Client-basierte Meta-Suchmaschinen werden deshalb von Forschern als ungeeignet eingestuft und sind heutzutage kaum mehr von Bedeutung.


Kriterien zur Bewertung von Meta-Suchmaschinen

In einer Arbeit, die im Juli 98 auf der internationalen Tagung der 'Internet Society' in Genf vorgestellt wurde, haben Forscher klare und nachvollziehbare Kriterien zur Bewertung von Meta-Suchmaschinen formuliert: Um als vollwertige Metasuchmaschine zu gelten, müssen die folgenden Kriterien erfüllt sein:

1. Parallele Suche: Die Meta-Suchmaschine muß in der Lage sein, Suchamschinen wirklich parallel abzufragen.
2. Ergebnis-Merging: Die Ergebnisse müssen zusammengeführt und in einem einheitlichen Format dargestellt werden.
3. Doubletten-Eliminierung: Doppelte Fundstellen müssen erkannt und gekennzeichnet werden.
4. Mindestens AND- und OR-Operatoren: Für logische Operationen müssen mindestens die Operatoren AND und OR zur Verfügung stehen.
5. Kein Informationsverlust: Wenn ein Suchdienst eine Kurzbeschreibung der Fundstelle liefert, dann muß diese übernommen werden.
6. Search Engine Hiding: Die spezifischen Eigenschaften der unter der Meta-Maschine liegenden Suchdienste dürfen für die Bedienung keine Rolle spielen, der Anwender muß nichts darüber wissen müssen.
7. Vollständige Suche: Die Meta-Suchmaschine sollte in der Lage sein, so lange zu suchen, bis irgendeine der darunterliegenden Suchdienste noch Treffer liefert.



Meta-Suchmaschinen im Web - Checkliste
Meta-Suchmaschine Parallele
Suche
Ergebnis-
Merging
Doubletten-
Eliminierung
AND/OR Hiding Vollständige
Suche
Metasearch v - - - - - -
DigiSearch v - - v v - -
Verio v v v - - v -
ProFusion v v v v v - -
Cyber 411 v - - - - v -
Inference Find v teilweise v v - - -
Dogpile v - - v - v -
Mamma v v - v v v -
SavvySearch v - - v v v -
MetaCrawler v v v v v v -
MESA v v v v - v -
MetaGer v v v v v v v
Highway 61 v v v v v v v
v vorhanden        - nicht vorhanden
(C't, Heft 13/98)


Bei der deutschen Meta-Suchmaschine MetaGer wurde zusätzlich noch ein weiteres neues Feature eingebaut: die Kombination der Meta-Suche mit vorwiegend lokalen Datenquellen (sog. QuickTips). Vor der eigentlichen Parallelsuche schaut MetaGer in diesen lokalen Datenbeständen nach, um dem Benutzer quasi ohne Zeitverlust erste Ergebnisse anzeigen zu können. Dazu existiert eine lokale Datenbasis mit manuell ausgewählten Adressen, die vom Betreiber erfaßt und gepflegt werden. Eine Katalogfunktion also.
Als zweite vorwiegend lokale Datenquelle benutzt MetaGer das Domain-Name-System (DNS). Erscheint ein Suchwort oder eine Kombination aus mehreren Worten im DNS, wird diese Adresse ausgegeben. Dem Mißbrauch des DNS durch skrupellose Namensaufkäufer wird durch Ausschlußkriterien zu begegnen versucht.


2.4. Generation 3: Level-3-Automaten


Suchmaschinen, verteilte Systeme, Meta-Maschinen, alles schön und gut - aber was kommt danach?
Das Internet wächst ständig. Droht uns in naher Zukunft doch noch der Informations-Overkill?

Die meisten Menschen, die im Internet nach Informationen suchen, haben eine bestimmte Fragestellung oder einen speziellen Themenbereich im Auge, der sie besonders interessiert. Eine umfassende Auflistung aller Treffer kann sich da schnell hinderlich auswirken. Ein Gartenbauingenieur beispielsweise, der nach dem Wort 'Kohl' sucht, ist nicht an Informationen über den ehemaligen Bundeskanzler Helmut Kohl interessiert. Wesentlich besser wäre es, der Ingenieur würde eine Suchmaschine benutzen, die auf Dokumente über den Gartenbau spezialisiert wäre.
Eine solche Suchmaschine aufzusetzen ist relativ einfach: Im ersten Schritt sammelt man alle URLs, die zum Thema passen. Im zweiten Schritt läßt man über genau diese URLs eine Suchmaschine laufen. Das Problem beziehungsweise der Aufwand dabei liegt im Finden und in der Auswahl der URLs sowie im Updating der hierfür installierten Suchmaschine.
Also besteht der nächste Schritt darin, diesen Prozeß des Aufsetzens einer neuen Suchmaschine zu einem bestimmten Thema zu automatisieren - also einen Automaten zu schaffen, der themenorientierte Suchmaschinen selbsttätig generiert. An dieser Aufgabe arbeiten das Regionale Rechenzentrum Niedersachen (RRZN) und das Lehrgebiet Rechnernetze und Verteilte System (RVS) der Uni Hannover. Das Ziel dieser Entwicklungsarbeit: Mit Hilfe eines flexiblen Meta-Suchautomaten soll sich jeder Nutzer seine persönliche Suchmaschine in Zukunft selber generieren können.


2.5. Optimierungsstrategien/Probleme


Etikettenschwindel bei Meta-Suchmaschinen

Nicht jede Meta-Suchmaschine ist eine wirkliche Meta-Suchmaschine: Es gibt einige Anbieter, die simple All-in-one-Formulare Meta-Suchmaschinen nennen. Hinter All-in-one-Formularen verbergen sich einfache Eingabehilfen, die mehrere Suchdienste nacheinander über eine einheitliche Eingabemaske abfragen. Dies mag ganz praktisch erscheinen, aber der Performance-Gewinn dabei ist gleich null. Der Etikettenschwindel dient nur dazu, Web-Surfer und die werbetreibende Industrie auf die eigene Website zu locken.

Manipulation bei Rankingverfahren

Um die Qualität der Suchergebnisse zu erhöhen, setzen die Suchmaschinen-Betreiber derzeit verschiedene Ranking-Verfahren ein. Die konventionellen Verfahren basieren dabei fast ausschließlich auf Zählungen und Gewichtungen von Worthäufigkeiten. Der Sinn eines Textes wird nicht erkannt, von seiner Aussagekraft ganz zu schweigen. Außerdem öffnet diese Methode der Manipulation Tür und Tor: Soll eine Web-Seite, auf der für ein Produkt geworben wird, im Ranking der Suchmaschinen möglichst weit oben stehen, dann muß man einfach die passenden Stichwörter auf dieser Seite an den richtigen Stellen möglichst oft wiederholen. Auf http://www.rankthis.com/ können Web-Autoren die richtige Stichwortvergabe ausprobieren, um gegebenenfalls ihre Seiten nachzubessern.

Kollaboratives Filtern

Wissenschaftler diskutieren seit langem über neue Ranking-Methoden, um bessere Ergebnisse zu erzielen. Ein Ansatz dabei ist das sogenannte 'kollaborative Filtern'. Hierbei erhalten die Besucher von Websites die Möglichkeit, Seiten zu bewerten. Die Bewertung wird für spätere Rankings berücksichtigt. Ob dieses Verfahren sinnvoll ist, bleibt jedoch zweifelhaft. Jeder kann unliebsamer Konkurrenz gezielt schlechte Noten unterjubeln und diesen Prozeß im Extremfall sogar noch automatisiert ablaufen lassen.

Hyperlink Vector Voting (HVV)

Ein anderer Ansatz geht von der Überlegung aus, daß die Qualität einer Web-Seite von der Anzahl der externen Links abhängt, die auf diese Seite verweisen. Je mehr Links darauf zeigen, desto besser wird sie bewertet. Dieses Verfahren ist unter dem Namen 'Hyperlink Vector Voting' (HVV) bekannt. Auch diese Vorgehensweise ist natürlich manipulierbar.

Dublin Core

Bibliothekare und Recherchefachleute, die sich professionell mit der Wiederauffindung von Dokumenten beschäftigen, beschreiben den Inhalt von Web-Seiten mit Hilfe des Dublin Core, ein besonders im Bibliothekswesen verbreitetes Schema zur genormten Vergabe von Meta-Tags in HTML-Dokumenten. Diese Methode wäre sicherlich optimal, stellt aber an die Autoren von Web-Seiten hohe Ansprüche. Da es bereits jetzt einige hundert Millionen Web-Dokumente gibt, die diese Tags nicht enthalten und nie enthalten werden, ist dieser Weg wohl leider nur für eine Nische im Webspace gangbar.

Beschränkte Themengebiete

GERHARD, das GERman Harvest Automated Retrieval and Directory der Uni Oldenburg, schlägt eine andere Richtung ein, um dem Informations-Overload Herr zu werden. GERHARD beschränkt sich von vornherein auf Texte aus dem deutschen Wissenschaftsbereich. Dadurch scheint ein gewisses Qualitätsniveau der Dokumente von Anfang an gesichert und die Anzahl der Fundstellen bleibt überschaubar.
GERHARD kann jedoch noch mehr: es ist bis heute beziehungsweise war jahrelang die einzige Suchmaschine weltweit, die aus den Dokumenten automatisch einen nach Themengebieten geordneten Katalog erzeugt. Das Programm analysiert den Volltext und kategorisiert die Dokumente nach der dreisprachigen universalen Dezimalklassifikation der ETH Zürich (UDK). Das UDK-Lexikon enthält zur Zeit rund 70 000 Einträge.
Damit stehen dem Benutzer beide Wege bei der Informationssuche offen: er kann nach Stichworten suchen wie bei allen anderen Suchmaschinen auch und zusätzlich in Themenkatalogen herumstöbern. Trotzdem trifft das 'nobody is perfect' auch auf GERHARD zu: bei der automatischen Kategorisierung treten unweigerlich Fehler durch falsche Zuordnungen auf, die ein Automat nicht erkennen kann. Die Fehlerrate liegt in einem Bereich zwischen 10 und 20 Prozent. Ein anderes Manko fällt stärker ins Gewicht: GERHARD zeigt die gefundenen Dokumente nur mit Kurzüberschrift und URL an. Eine Beschreibung oder ein kurzer Textauszug fehlen.

Die seit 2001 existierende Suchmaschine Teoma versucht ebenfalls, mit einer Zuordnung der Suchbegriffe zu Themenbereichen, dem Benutzer ein hohes Mass an Qualität zu vermitteln. Hierzu werden bei den Suchergebnissen zusätzliche Schüsselwörter angezeigt, mit denen der Benutzer seine Suche in Richtung automatisch erkannter Themengebiete vertiefen bzw. verfeinern kann.




3. Beispiel: Google


images/google_logo.jpg



3.1. Allgemeines


"Google" ist ein Wortspiel mit "googol", das von Milton Sirotta, einem Neffen des amerikanischen Mathematikers Edward Kasner, geprägt wurde, um eine Zahl mit einer 1 und 100 Nullen zu bezeichnen. Googles Verwendung des Begriffs drückt das Ziel des Unternehmens aus, die immense Menge von Information auf dem Web und in der Welt zu organisieren.
Zwei Stanford-Doktoranden, Larry Page und Sergey Brin, gründeten 1998 Google. Das Unternehmen, das sich in Privatbesitz befindet, gab 1999 bekannt, dass es Eigenkapitalinvestitionen in Höhe von 25 Millionen US$ sicherstellen konnte. Unter den Investoren sind Kleiner Perkins Caufield & Byers und Sequoia Capital. Google betreibt seinen Dienst auf seiner eigenen, öffentlich zugänglichen Website, www.google.com. Die Firma bietet außerdem unter gemeinsamen Markennamen Informationsdienstleistern Suchlösungen für das Web an.

Das Handelsblatt schreibt am 10. Dezember 2001 zur Geschäftsentwicklung von Google: "Die Suchmaschine Google schreibt schwarze Zahlen. Die Internet-Suchmaschine Google kann sich anders als manches Konkurrenz-Unternehmen nicht über schlechte Geschäftsentwicklungen und die Werbeflaute im Internet beklagen. Zugleich kündigte das Unternehmen mit Sitz in Mountain View (Kalifornien) die Eröffnung einer Verkaufsniederlassung in Hamburg an, über die das Unternehmen Werbetreibende aus Deutschland, Österreich und der Schweiz betreuen will."
Im gleichen Zeitraum meldet die dpa aus Hamburg: "Das vor einigen Monaten von der Stiftung Warentest als beste Suchmaschine ausgezeichnete Angebot wurde vor drei Jahren gegründet und entwickelte sich mit heute rund 150 Millionen Suchaufträgen am Tag schnell zu einer der beliebtesten Suchmaschinen im weltweiten Datennetz. Geld verdient Google sowohl mit Werbung als auch durch die Lizenzierung von Suchtechnologien an Firmen wie Yahoo oder Sony. Wie hoch der Gewinn in diesem Geschäftsjahr voraussichtlich ausfallen wird, gab das Unternehmen nicht bekannt."

Googles Index, der mehr als eine Milliarde URLs enthält, ist der erste seiner Art und repräsentiert die umfassendste Sammlung der nützlichsten Webseiten im Internet. Google liefert in meist weniger als einer halben Sekunde relevante Suchergebnisse an Benutzer in aller Welt.


3.2. Technologie


Die Geschwindigkeit basiert teilweise auf der Effektivität des Suchalgorithmus und teilweise aus den Tausenden von "Low-Cost"-PCs, die in einem riesigen Netzwerk zu einer Hochgeschwindigkeitssuchmaschine zusammengeschlossen wurden. Laut eigenen Angaben setzt sich Google durch Verwendung einer innovativen Suchtechnik und einer eleganten Benutzeroberfläche von anderen Suchmaschinen ab. Anstatt "nur" eine Stichwort- oder Meta-Suchtechnologie zu verwenden, basiert Google auf der zum Patent angemeldeten PageRank™-Technologie, bei der die wichtigsten Ergebnisse , welche auch immer das sein mögen, immer zuerst gelistet werden.

Was steckt hinter PageRank(TM)

PageRank verlässt sich auf die einzigartige demokratische Natur des World Wide Webs, indem es die weitverzweigte Link-Struktur als einen Indikator für die individuelle Einschätzung der Qualität einer Seite nimmt. Der Kern ist dabei, dass Google einen Link von Seite A zu Seite B als ein "Votum" von Seite A für Seite B interpretiert. Aber Google sieht sich mehr an als nur das Ausmaß der Zustimmung oder der Links auf einer Seite: Google analysiert ebenfalls die Seite, die das Votum abgegeben hat. Das Votum von einer Seite, die selber "wichtig" ist, zählt mehr und hilft, andere Seiten "wichtig" zu machen.
Wichtige Websites mit hoher Qualität bekommen einen höheren PageRank, den Google sich mit jeder Suchanfrage merkt und verändert. Natürlich bedeuten wichtige Seiten nichts, wenn sie nicht das Suchwort treffen. Deshalb kombiniert Google die PageRank-Technologie mit einer Textsuche, um Seiten zu finden, die sowohl Suchanfragen treffen als auch wichtig sind. Google geht in der Analyse weit über die bloße Anzahl der Suchbegriffe, die auf einer Seite zu finden sind, hinaus und untersucht alle inhaltlichen Aspekte (wie auch den Inhalt der Seiten, die mit dieser Seite verbunden sind), um zu bestimmen, ob sie ein guter Treffer ist. Leider sind genauere Informationen ein gut gehütetes Geheimnis, zumal sich Google auch durch den Verkauf dieser Technologie an andere Anbieter finanziert.


3.3. Besonderheiten


Google speichert Webseiten im Cache

Google speichert viele Webseiten in einem riesigen Cache, um stets ein Backup vorzuhalten, falls ein Server zeitweise nicht erreichbar ist. Oft kann es sehr viel schneller sein, sich dieses Cache-Material anzusehen, als dem regulären Link zu folgen; andererseits kann es sein, dass die Cache-Informationen nicht mehr auf dem neuesten Stand sind.

Sprachübersetzung

Seit Mai 2001 bietet die Suchmaschine einen Dienst an, der die gefundenen Sites direkt übersetzten kann. Anstatt die gefundenen Sites im Original anzusehen können sie zum Beispiel aus Englisch und Französisch ins Deutsche übersetzt werden. Es ist möglich, die Voreinstellungen der Suchmaschine so einzurichten, dass auch die Suchresultate auf Deutsch statt in der Originalsprache dargestellt werden.
Die Übersetzungen sind etwa von ähnlicher Qualität wie jene bei Babelfish von AltaVista. So wird etwa aus einem Senior Director ein «Älterer Direktor». Mit etwa Phantasie sind die Übersetzungen aber durchaus verständlich.

Bildersuchmaschine

Seit Juni 2001 können mit der Suchmaschine auch Bilder gefunden werden. Suchkriterien sind der Name eines Bildes oder die Zuordnung zur Webseite, in der sich das Bild befindet.

images/google_bildersuche.jpg

Suche nach definierten Dokument-Typen

Im November 2001 kam eine weitere Besonderheit zu. Eine Suchfunktion ermöglicht das Eingrenzen der Suchresultate auf bestimmte Dokument-Typen. Unter der "Erweiterten Suche" kann angegeben werden, welche Dokument-Typen gesucht werden sollen. Zur Auswahl stehen PDF-, Word-, Excel-, PowerPoint- und RTF-Dateien.

Beteiligung an Forschungsprojekten

Die Suchmaschine beteiligt sich an Forschungsprojekten. Wer sich die Google-Toolbar herunterlädt, kann zum Beispiel bei der Lösung des Problems der Protein-Faltung mitwirken. Dazu zieht die Google-Toolbar überschüssige Rechenzeit ab und investiert sie in die Berechnungen.



4. Beispiel: MetaGer


images/metager_logo.jpg




4.1. Entstehung und Funktionsweise


Die Idee, die erste deutsche MetaSuchmaschine zu entwickeln, wurde 1996 auf der Cebit geboren. Einen Monat später gab es den ersten Prototyp. Als man sich enschied in die Öffentlichkeit zu gehen, entdeckte man dass kurz vorher am Computer Science Department der University of Washington dasselbe Projekt, der Metacrawler, bereits offiziell fertiggestellt wurde und man entschied sich, kein Konkurrenzprodukt entstehen zu lassen, sondern sich erstmal hauptsächlich auf Webseiten in Deutschland zu konzentrieren. Mittlerweile kann der Benutzer jedoch zwischen nationaler und internationaler Suche auswählen.
1997 wurde festgestellt, dass viele Benutzer nach Emailadressen suchten und man beschloss das Framework von MetaGer zu übernemen und damit den MetaEmailSearchAgent (MESA) zu implementieren.

Die Funktionsweise von MetaGer orientiert sich an den aufgestellten Kriterien der internationalen Tagung der 'Internet Society'. Weitere Informationen siehe Kapitel 2.3.


4.2. Welche Suchdienste werden abgesucht?


Standartmässig werden 10 der bekanntesten deutschen Suchmaschinen abgesucht. Da etliche Suchdienste mit kleineren Hardware-Resourcen von MetaGer durch die vielen Abfragen "platt gemacht" würden, gibt es absichtlich keine Funktion, mit der alle deutschen Suchmaschinen verwendet werden können.

4.3. Quicktips - lokale Suche


MetaGer sucht zusätzlich in einer vorwiegend lokalen Wissensbasis: den QuickTips. Diese QuickTip-Suche läuft parallel zu der Meta-Suche. Der Vorteil ist, dass sehr schnell gefundene Ergebnisse sofort anklickbar sind während die eigentliche Suche parallel weiter läuft.

4.4. Optimierungen


MetaGer führt standartmässig ein eigenes Ranking durch. die Ergebnisse können zusätzlich auf Wunsch zeitlich sortiert und die ausgegebenen Links auf Existenz geprüft werden. Um den Benutzer nicht allzulange warten zu lassen, gibt es für die Basisanfrage bei den Suchmaschinen ein Standart-Zeitfenster von 10 Sekunden und für die zusätzlichen Optimierungen weitere 5 Sekunden. Der Benutzer muss also nicht länger als 15 Sekunden warten. Diese Parameter können vom Benutzer geändert werden.

4.5. MetaGer auf der eigenen Homepage verwenden?


Es ist grundsätzlich erlaubt, MetaGer auf der eigenen Homepage verwenden. Es darf aber keinesfalls der Eindruck erweckt wird, MetaGer sei eine eigene Dienstleistung oder die eigene Homepage sei die wahre MetaGer-Startseite. Der HTML-Code für die Einbindung kann auf der Homepage von MetaGer jederzeit kostenlos heruntergeladen werden.

------------------------- schnipp ------------------------------
<a href="http://meta.rrzn.uni-hannover.de/">MetaGer-Suche</a>
über deutschsprachige Suchdienste:
<form METHOD="POST"
ACTION="http://mserv.rrzn.uni-hannover.de/cgi-bin/meta/meta.ger1">
<input name="eingabe" size="30"> 
<input type="submit" value="MetaGer-Suche">
<input type="hidden" name="mm" value=and>
<input type="hidden" name="time" value=10>
<input type="hidden" name="check_time" value=3> 
<input type="hidden" name="QuickTips" value=beschleuniger>
<input type="hidden" name="sprueche" value=1>

<input type="hidden" name="yahoo" value=1>
<input type="hidden" name="intersearch" value=1>
<input type="hidden" name="fportal" value=1>
<input type="hidden" name="blitzsuche" value=1>
<input type="hidden" name="allesklar" value=1>   
<input type="hidden" name="witch" value=1>
<input type="hidden" name="msn" value=1>  
<input type="hidden" name="alltheweb" value=1>
<input type="hidden" name="nhf" value=1>
<input type="hidden" name="lycos" value=1>
<input type="hidden" name="netfind" value=1>
<input type="hidden" name="crawler" value=1> 
<input type="hidden" name="qualigo" value=1> 
<input type="hidden" name="speedfind" value=1>
<input type="hidden" name="walhello" value=1> 
<input type="hidden" name="dmoz" value=1>
<input type="hidden" name="harvest" value=1>
<input type="hidden" name="onlfav" value=1> 
<input type="hidden" name="dmozint" value=1> 
<input type="hidden" name="wisenut" value=1>

<input type="hidden" name="start" value=1>
<input type="hidden" name="QuickTips" value=1>
<input type="hidden" name="newWindow" value=1>
</form>
------------------------- schnapp ------------------------------

So sieht die integrierte Suchmaske der MetaGer-Suche über deutschsprachige Suchdienste aus:

4.6. Hardware

MetaGer arbeitet als verteiltes System in einer lose gekoppelten Mehrrechner-Umgebung. Haupt-Arbeitsmaschine ist eine Sun Enterprise E450 (Betriebssystem: Solaris), ausgestattet mit 4 CPUs, 1,6 GB RAM an einem dedizierten 155-Mbps-BWiN-Anschluß. Weitere Sun- und Linux-Server (insgesamt 5) können bei Bedarf, z.B. zu Spitzenlastzeiten, hinzugeschaltet werden.






5. Statistiken (Google)





Wer hätte das gedacht: Nostradamus ist gefragter als Harry Potter!

Google ist zur Zeit die erfolgreichste und meistbenutzte Suchseite und kann deshalb wohl am ehesten repräsentativ feststellen, welche Themen die Internetgemeinde im Jahr 2001 am meisten beschäftigt hat. In der Jahresstatistik findet man unter den fünf meistgesuchten Begriffen:

1. Nostradamus
2. CNN
3. World Trade Center
4. Harry Potter
5. Antrax


Weitere Statistiken zeigen zum Beispiel, dass bei den Suchanfragen nach Männernnamen Nostradamus vor Osama bin Laden und Eminem liegt. Bei Frauennamen hat Britney Spears die Nase vorn, gefolgt von Pamela Anderson und Jennifer Lopez.


Erfasst wurden auch Suchbegriffe im Zusammenhang mit

(a) Filmen (1. Harry Potter, 2. Lord of the Rings, 3. Final Fantasy)
(b) Musikgruppen (1. Beatles, 2. U2, 3. NSYNC)
(c) neue Produkte (1. Windows XP, 2. Xbox, 3. Playstation 2)
(d) Videospiele (1. Counterstrike, 2. The Sims, 3. Operation Flashpoint)
(e) Markennamen (1. Nokia, 2.Sony, 3. BMW)


Die am meisten falschgeschrieben Suchbegriffe im Monat Februar 2002 sind:

1. morpheous
2. kazza
3. morphius
4. audio galaxi
5. kaaza







Quellen und Literatur: