
Werden diese Zeichen sinnvoll miteinander kombiniert, spricht man von Daten. Daten, als Satz von diskreten und objektiven Fakten zu Ereignissen, sind der Rohstoff zu Erzeugung von Information.
Damit Daten zu Information werden, müssen sie einerseits in einen Problemzusammenhang gestellt werden, andererseits muss der Nutzer diesen im Kontext auch begreifen (sonst werden die Informationen zum Rauschen) und sie müssen dem Nutzer auch neu sein, sonst handelt es sich um Redundanz, d.h. Wiederholung und im besten Fall Sicherung von Information.
Über individuelles Verarbeiten und Vernetzen im Kopf eines Menschen wird aus der Information erst Wissen. Bei Wissen unterscheidet man noch einmal implizites von explizitem Wissen. Unter implizitem Wissen, dem „know how“, versteht man das Wissen, dass ein Mensch in sich trägt, explizites Wissen, das „know that“, ist dasjenige Wissen, auf dass ein Mensch zurückgreift ohne es selber verifiziert, erlebt zu haben. Diese Form des Wissens ist in Büchern, Datenbanken, Formeln und Systemen gespeichert. Nach ihm kann nur recherchiert werden.
Der Begriff Daten hat im allgemeinen Sprachgebrauch in den letzten hundert Jahren eine starke Wandlung in seiner Bedeutung erfahren, wie man an folgenden beiden Definitionen erkennen kann.
Definition des Begriffes Daten aus „Meyers Großes Konversations-Lexikon“ 1906: (Mehrzahl von Datum) Tatsachen, Tatsächliches
Definition des Begriffes Daten
aus der „Brockhaus Enzyklopädie“ 1988: allgemein - aus
Statistiken, Messungen und ähnlichen gewonnene Angaben, Informationen,
allgemeine Tatsachen.
Informatik - zur Darstellung
von Informationen, Sachverhalten und anderem dienende Zeichenfolgen bei
digitalen Daten, oder kontinuierliche Funktionen bei analogen Daten, die Objekte
für den Prozess einer Datenverarbeitungsanlage sind.
Überlegungen über Daten nach Norbert Wiener (1894 – 1964, Begründer der Kybernetik und der Informationstheorie): Information (und damit auch ihre „Datenbausteine“) ist weder Energie noch Materie und unterliegt einem permanenten Wandel in Zeit und Raum.
Diese ungefähr ein halbes Jahrhundert zurückliegenden Beobachtungen und Gedanken um das Wesen von Information und Daten beschreibt meiner Meinung nach sehr zutreffend, mit was wir es heutzutage als Inhalt des Internets zu tun haben; nach was wir recherchieren.
Datenbank: Unter einer Datenbank (data base) versteht man eine Sammlung von Daten oder Informationen, die extra für die schnelle Suche und den Zugriff durch einen Computer geschaffen wurde. Die Speicherung erfolgt dabei auf diversen externen Speichermedien wie beispielsweise der CD-ROM, aber auch direkt im Netz auf „Servern“. Man unterscheidet nach ihrem Aufbau eine Vielzahl von Datenbanken, wobei hier nur die wichtigsten kurz vorgestellt werden:
| Flat database: | Einträge werden einfach als Entitäten aufgelistet (z.b. in einem folder) |
| Hierachical database: | Baumartige Struktur mit Stufen jeweils kleinerer Strukturen (z.b. explorer) |
| Network database: | Verknüpfung der Datensätze durch „hyperlinks“ (z.b. Artikelsuchprogramm der UB) |
| Object-oriented database:  | Datensätze die sich auf unterschiedlichen Ebenen einer Hierarchie befinden werden miteinander verknüpft (z.b. ArcView GIS) |
Im Gegensatz zu einer einzelnen, nach bestimmten Kriterien gegliederten Datenbank, handelt es sich beim Internet um ein Netz, dass ursprünglich der Kommunikation diente und sich zudem immer mehr als globales Sammellager für digitale multimediale oft sehr schnelllebige Dokumente entwickelt. Um sich in diesem Datenmeer zurechtfinden zu können, müssen seine Inhalte klassifiziert, indiziert und aktualisiert in bestimmten organisierten „Metadatenbänken“ vorliegen, auf die für eine Recherche schnell zurückgegriffen werden kann.
Diese Aufgabe wird einmal durch bestimmte Software automatisch und deswegen schneller und billiger getätigt, als durch Menschen möglich. Eine Vielzahl von sogenannten echten Suchmaschinen (true search engines) senden in regelmäßigen Abständen (alle 1 bis 2 Monate) Programme, sogenannte „crawler“ oder „spiders“ an die „host“-Rechner aller für sie auffindbaren Adressen, die die einzelnen „webpages“ analysieren und nach eigenen Kriterien indizieren um sich dann an Hand von den „hyperlinks“ weiterhangeln. Die Resultate werden zusammen mit den zugehörigen URL („uniform resource locator“) in der Datenbank der Suchmaschine als „index“ oder „catalog“ abgelegt.
Alternativ gibt es noch die sogenannten directories, deren Datenbank ausschließlich aus vom Menschen erstellten Einträgen bestehen. Diese können dort direkt vom Autor einer „website“ angemeldet und indiziert, und/oder aber durch Recherche von Freiwilligen und Angestellten erstellt werden. Der Vorteil eines „directory“ gegenüber eines „index“ besteht darin, dass die Daten nicht gleichwertig behandelt werden und somit oft in falsche Sinnzusammenhänge geraten. Ausserdem kommt es vor, dass ganz aktuell erschienene „sites“ schon in „directories“ angemeldet sind, bevor sie von „spiders“ aufgespürt wurden. Ihr Nachteile sind, dass Änderungen auf diesen Seiten oft lange unbemerkt bleiben, und dass die Datenbanken auf aktive Einträge limitiert sind.
Um die Vorteile beider Systeme von Suchmaschinen zu nutzen, greift eine Anzahl von sogenannten hybriden Suchmaschinen mit jeweils individueller Gewichtung sowohl auf verschiedene Partnerindexe als auch auf bestimmte „directories“ zurück.
Eine weiter Form für Suchmaschinen sind die metacrawlers. Im Gegensatz zu „true search engines“ indizieren „metacrawler“ nicht selber das Netz sondern sie erlauben dem Nutzer nur, Anfragen an eine Anzahl verschiedener Suchmaschinen auf einmal zu schicken, deren Einträge dann durch bestimmte Verfahren zusammengetragen und aufgelistet werden. Es gibt auch „metacrawlerstyle software“, die man auf der eigenen Computernutzeroberfläche installieren kann.
Ferner gibt es noch eine Vielzahl von speciality search engines; Suchmaschinen die sich auf die Suche nach bestimmten Gegenständen wie beispielsweise einer URL, „newsgroups“, Datenbanken, Software. Diese Suchmaschinen sind immer dann sehr zu empfehlen, wenn man genau weiß, wonach man sucht. Einen guten Einstieg in ihre Vielzahl bietet der weiter oben erwähnte link.
Auf diese sich ständig aktualisierenden „klassischen“ Datenbanken kann der Nutzer mit Hilfe einer Suchmaske zugreifen und recherchieren. Die aufgelisteten Suchergebnisse werden dann mit zugehörigen „clickable hyperlinks“ der URL angegeben.
Bei der Verwendung von Suchmaschinen während einer Netzrecherche ist es deswegen wichtig, zum Einem auf eine möglichst zum Thema abgestimmte Datenbank einer oder auch mehrerer Suchmaschinen zurückzugreifen, und zum Anderem diese mit Hilfe von gezielten, die Suchergebnisse verfeinernden, Befehlen zu durchkämmen.
| Name | Typ | Besonderheiten |
|
hybrid |
am meisten indizierte Seiten, große Auswahl an „power searching commands", greift auch auf die „directories" von Open Directory und LookSmart zurück |
|
|
true search engine |
menschlich unterstützte Suchmaschine, für die direkte Suche nach einer bestimmten Seite |
|
|
metasearch |
klassische Metasuche mit aufgeräumter Benutzeroberfläche |
|
|
true search engine (pseudo-hybrid) |
die „links", die am meisten angeclickt werden, werden höher platziert |
|
|
metasearch |
bestimmbare Liste von „true search engines" und „directories", Ergebnisse werden individuell angezeigt |
|
|
true search engine |
relativ großer Index, auch nicht Webmaterial (z.b. Ergebnisse aus Sport) wird angezeigt |
|
|
hybrid |
deutschsprachige Suchmaschine, Tochter von Lycos, |
|
|
special |
durchsucht deutsches Forschungsnetz auch nach nicht Webseiten (pdf, .doc) |
|
|
true search engine |
einer der größten Indexe |
|
|
hybrid |
gut für allgemein gehaltene Suchen durch besonderen Suchlogarithmus, umfassendes „directory" |
|
|
true search engine |
„sites" werden nach Häufigkeit der „links", die auf sie weisen aufgelistet, ideal für Einstieg zu bestimmten Themen, großer Index |
|
|
true search engine |
kommerziell, da man sich für Geld hoch platzieren lassen kann |
|
|
hybrid |
ausgefeilte, vielfältige „power searching commands", greift auf Direct Hit, Inktomi und Open Directory zurück |
|
|
metasearch |
Suchergebnisse werden nach verschiedenen Kategorien gruppiert angeboten |
|
|
metasearch |
„links" zu den großen Suchmaschinen, verschiedenen Kategorien und Metasuche |
|
|
true search engine |
Index auf den nur Partnersuchmaschinen zurückgreifen können |
|
|
metasearch |
listet nach Zugriff auf „top 10 rankings" verschiedener „true search engines" auf |
|
|
hybrid |
„directory", greift auch auf MSN Search und den Index von Inktomi zurück |
|
|
hybrid |
Mischung aus Open Directory und FAST Search und Direct Hit |
|
|
metasearch |
Metasuche über Suchmaschinen deren „listings" man kaufen kann |
|
|
metasearch |
ältester „metacrawler" |
|
|
metasearch |
Suchmaschine über deutschsprachige Suchmaschinen vom RRZN |
|
|
hybrid |
Mischung aus LookSmart directory und Inktomi index, IE5 Nutzer können ihre Suchen abspeichern |
|
|
hybrid |
gute eigene Datenbank offizieller „websites", ansonsten Google und Open Directory |
|
|
true search engine (zusätzlich kostenpflichtiges „directory") |
großen Index mit themenbezogenen Zusammenstellungen, zusätzlicher Bereich von Dokumenten für deren Ansicht gezahlt (4$) werden muss |
|
|
directory |
Katalogisierung des Netzes durch Freiwillige, freier Zugriff durch fremde Suchmaschinen |
|
|
metasearch |
individuell einstellbar mit „broken link detection" und „search tracking" |
|
|
metasearch |
bis zu 200 Seiten von Ergebnissen einer Suchmaschine werden auf einer Seite aufgelistet, QB-Masterpage ermöglicht benutzte „URLs" auf einer Seite zusammenzustellen |
|
|
hybrid |
von AltaVista, Suchmaschine wie Altavista nur schneller da keine Portalfunktion |
|
|
metasearch |
zusätzlich verschiedene spezielle Suchfunktionen |
|
|
hybrid |
„directory" ergänzt durch Zugriff auf Inktomi |
|
|
metasearch |
Metasuche mit verschiedenen Hilfestellungen und detaillierter Angabe zu den „sites" |
|
|
metasearch |
sucht über 9 große Suchmaschinen/ 9 Suchmaschinen bestimmter Länder |
|
|
true search engine |
kleinster Index von den großen Suchmaschinen |
|
|
directory |
Deutschland umfangreichstes „directory", 300.000 deutsche „sites" |
|
|
true search engine |
sehr großer Index, auch WAP, „news sources" und besonderes „WebCheck tool" |
|
|
hybrid |
erfolgreichster Anbieter, 150 fest Angestellte für Indizierung seines „directory", zusätzlich Google Index |
| Simple Search: | reine Stichwortsuche |
| Extended oder Power Search: | Angabe von zusätzlichen Kriterien |
| Groß-/ Kleinschreibung | |
| Trunkierung: | Suche nach verschiedenen Wortvariationen. |
| Gewichtung: | stärker gewichtete Suchbegriffe werden bei der Suche eher berücksichtigt. |
| Boole´sche Operatoren: |
| Phrasensuche (ADJ-Operator): | es wird nach der exakten Reihenfolge der Begriffe gesucht ==> die Suchbegriffe müssen dafür in Hochkommata eingeschlossen sein |
| Abstandsoperatoren (Proximity-Operatoren): | mit dem NEAR oder FOLLOWED-BY-Operator kann angegeben werden, wie nah zwei Suchbegriffe beieinander liegen sollen |
| Suchraumeingrenzung: | von einigen Diensten werden verschiedene Eingrenzungen des Suchraums angeboten, Eingrenzungsbereiche können dabei sein: |
| Treffermengeneingrenzung: | Eingrenzung durch Angabe einer Trefferzahl pro Ergebnisseite (Navigation zwischen Trefferseiten durch Blätterfunktion am Ende einer Ergebnisseite). |
| Ranking: | alle Suchdienste berechnen Relevanzgrade, nach denen die Ergebnismenge sortiert wird (Berechnung nach Worthäufigkeit, Wortabständen, usw.) |
Spektrum der Wissenschaft: Dossier – Die Welt im Internet. 01/98