Einordnung des Begriffes Daten:

Unter Zeichen versteht man Buchstaben, Ziffern und Sonderzeichen. Information bewegt sich meistens im Internet binär innerhalb bestimmter normierter Zeichensätze alphanumerischer Daten wie z.b. ISO 8559. Da wir uns bei einer deutschsprachigen Recherche wegen der Umlaute schon innerhalb bestimmter Zeichensätzen bewegen, bietet sich hier ein kleiner Exkurs an!

Werden diese Zeichen sinnvoll miteinander kombiniert, spricht man von Daten. Daten, als Satz von diskreten und objektiven Fakten zu Ereignissen, sind der Rohstoff zu Erzeugung von Information.

Damit Daten zu Information werden, müssen sie einerseits in einen Problemzusammenhang gestellt werden, andererseits muss der Nutzer diesen im Kontext auch begreifen (sonst werden die Informationen zum Rauschen) und sie müssen dem Nutzer auch neu sein, sonst handelt es sich um Redundanz, d.h. Wiederholung und im besten Fall Sicherung von Information.

Über individuelles Verarbeiten und Vernetzen im Kopf eines Menschen wird aus der Information erst Wissen. Bei Wissen unterscheidet man noch einmal implizites von explizitem Wissen. Unter implizitem Wissen, dem „know how“, versteht man das Wissen, dass ein Mensch in sich trägt, explizites Wissen, das „know that“, ist dasjenige Wissen, auf dass ein Mensch zurückgreift ohne es selber verifiziert, erlebt zu haben. Diese Form des Wissens ist in Büchern, Datenbanken, Formeln und Systemen gespeichert. Nach ihm kann nur recherchiert werden.


 
            

 

 

Definitionen:

Der Begriff Daten hat im allgemeinen Sprachgebrauch in den letzten hundert Jahren eine starke Wandlung in seiner Bedeutung erfahren, wie man an folgenden beiden Definitionen erkennen kann.

 

Definition des Begriffes Daten aus „Meyers Großes Konversations-Lexikon“ 1906: (Mehrzahl von Datum) Tatsachen, Tatsächliches

Definition des Begriffes Daten aus der „Brockhaus Enzyklopädie“ 1988: allgemein - aus Statistiken, Messungen und ähnlichen gewonnene Angaben, Informationen, allgemeine Tatsachen.
Informatik - zur Darstellung von Informationen, Sachverhalten und anderem dienende Zeichenfolgen bei digitalen Daten, oder kontinuierliche Funktionen bei analogen Daten, die Objekte für den Prozess einer Datenverarbeitungsanlage sind.

Überlegungen über Daten nach Norbert Wiener (1894 – 1964, Begründer der Kybernetik und der Informationstheorie): Information (und damit auch ihre „Datenbausteine“) ist weder Energie noch Materie und unterliegt einem permanenten Wandel in Zeit und Raum.

Diese ungefähr ein halbes Jahrhundert zurückliegenden Beobachtungen und Gedanken um das Wesen von Information und Daten beschreibt meiner Meinung nach sehr zutreffend, mit was wir es heutzutage als Inhalt des Internets zu tun haben; nach was wir recherchieren.

Datenbank: Unter einer Datenbank (data base) versteht man eine Sammlung von Daten oder Informationen, die extra für die schnelle Suche und den Zugriff durch einen Computer geschaffen wurde. Die Speicherung erfolgt dabei auf diversen externen Speichermedien wie beispielsweise der CD-ROM, aber auch direkt im Netz auf „Servern“. Man unterscheidet nach ihrem Aufbau eine Vielzahl von Datenbanken, wobei hier nur die wichtigsten kurz vorgestellt werden:

Flat database:   Einträge werden einfach als Entitäten aufgelistet (z.b. in einem folder)
Hierachical database: Baumartige Struktur mit Stufen jeweils kleinerer Strukturen (z.b. explorer)
Network database:  Verknüpfung der Datensätze durch „hyperlinks“ (z.b. Artikelsuchprogramm der UB)
Object-oriented database:  Datensätze die sich auf unterschiedlichen Ebenen einer Hierarchie befinden werden miteinander verknüpft (z.b. ArcView GIS)
 

Suchmaschinen – unser „tool“ für Recherchen im Internet:

Im Gegensatz zu einer einzelnen, nach bestimmten Kriterien gegliederten Datenbank, handelt es sich beim Internet um ein Netz, dass ursprünglich der Kommunikation diente und sich zudem immer mehr als globales Sammellager für digitale multimediale oft sehr schnelllebige Dokumente entwickelt. Um sich in diesem Datenmeer zurechtfinden zu können, müssen seine Inhalte klassifiziert, indiziert und aktualisiert in bestimmten organisierten „Metadatenbänken“ vorliegen, auf die für eine Recherche schnell zurückgegriffen werden kann.

Diese Aufgabe wird einmal durch bestimmte Software automatisch und deswegen schneller und billiger getätigt, als durch Menschen möglich. Eine Vielzahl von sogenannten echten Suchmaschinen (true search engines) senden in regelmäßigen Abständen (alle 1 bis 2 Monate) Programme, sogenannte „crawler“ oder „spiders“ an die „host“-Rechner aller für sie auffindbaren Adressen, die die einzelnen „webpages“ analysieren und nach eigenen Kriterien indizieren um sich dann an Hand von den „hyperlinks“ weiterhangeln. Die Resultate werden zusammen mit den zugehörigen URL („uniform resource locator“) in der Datenbank der Suchmaschine als „index“ oder „catalog“ abgelegt.

Alternativ gibt es noch die sogenannten directories, deren Datenbank ausschließlich aus vom Menschen erstellten Einträgen bestehen. Diese können dort direkt vom Autor einer „website“ angemeldet und indiziert, und/oder aber durch Recherche von Freiwilligen und Angestellten erstellt werden. Der Vorteil eines „directory“ gegenüber eines „index“ besteht darin, dass die Daten nicht gleichwertig behandelt werden und somit oft in falsche Sinnzusammenhänge geraten. Ausserdem kommt es vor, dass ganz aktuell erschienene „sites“ schon in „directories“ angemeldet sind, bevor sie von „spiders“ aufgespürt wurden. Ihr Nachteile sind, dass Änderungen auf diesen Seiten oft lange unbemerkt bleiben, und dass die Datenbanken auf aktive Einträge limitiert sind.

Um die Vorteile beider Systeme von Suchmaschinen zu nutzen, greift eine Anzahl von sogenannten hybriden Suchmaschinen mit jeweils individueller Gewichtung sowohl auf verschiedene Partnerindexe als auch auf bestimmte „directories“ zurück.

Eine weiter Form für Suchmaschinen sind die metacrawlers. Im Gegensatz zu „true search engines“ indizieren „metacrawler“ nicht selber das Netz sondern sie erlauben dem Nutzer nur, Anfragen an eine Anzahl verschiedener Suchmaschinen auf einmal zu schicken, deren Einträge dann durch bestimmte Verfahren zusammengetragen und aufgelistet werden. Es gibt auch „metacrawlerstyle software“, die man auf der eigenen Computernutzeroberfläche installieren kann.

Ferner gibt es noch eine Vielzahl von speciality search engines; Suchmaschinen die sich auf die Suche nach bestimmten Gegenständen wie beispielsweise einer URL, „newsgroups“, Datenbanken, Software. Diese Suchmaschinen sind immer dann sehr zu empfehlen, wenn man genau weiß, wonach man sucht. Einen guten Einstieg in ihre Vielzahl bietet der weiter oben erwähnte link.

Auf diese sich ständig aktualisierenden „klassischen“ Datenbanken kann der Nutzer mit Hilfe einer Suchmaske zugreifen und recherchieren. Die aufgelisteten Suchergebnisse werden dann mit zugehörigen „clickable hyperlinks“ der URL angegeben.

Bei der Verwendung von Suchmaschinen während einer Netzrecherche ist es deswegen wichtig, zum Einem auf eine möglichst zum Thema abgestimmte Datenbank einer oder auch mehrerer Suchmaschinen zurückzugreifen, und zum Anderem diese mit Hilfe von gezielten, die Suchergebnisse verfeinernden, Befehlen zu durchkämmen.

 

Bekannte Suchmaschinen mit Angabe ihrer Eigenarten, Stärken und Schwächen:  

Name Typ Besonderheiten

AltaVista

hybrid

am meisten indizierte Seiten, große Auswahl an „power searching commands", greift auch auf die „directories" von Open Directory und LookSmart zurück

Ask Jeeves

true search engine

menschlich unterstützte Suchmaschine, für die direkte Suche nach einer bestimmten Seite

C4

metasearch

klassische Metasuche mit aufgeräumter Benutzeroberfläche

Direct Hit

true search engine (pseudo-hybrid)

die „links", die am meisten angeclickt werden, werden höher platziert

Dogpile

metasearch

bestimmbare Liste von „true search engines" und „directories", Ergebnisse werden individuell angezeigt

Excite

true search engine

relativ großer Index, auch nicht Webmaterial (z.b. Ergebnisse aus Sport) wird angezeigt

Fireball

hybrid

deutschsprachige Suchmaschine, Tochter von Lycos,

Fireball-Wissen.de

special

durchsucht deutsches Forschungsnetz auch nach nicht Webseiten (pdf, .doc)

FAST Search

true search engine

einer der größten Indexe

Go

hybrid

gut für allgemein gehaltene Suchen durch besonderen Suchlogarithmus, umfassendes „directory"

Google

true search engine

„sites" werden nach Häufigkeit der „links", die auf sie weisen aufgelistet, ideal für Einstieg zu bestimmten Themen, großer Index

GoTo

true search engine

kommerziell, da man sich für Geld hoch platzieren lassen kann

HotBot

hybrid

ausgefeilte, vielfältige „power searching commands", greift auf Direct Hit, Inktomi und Open Directory zurück

Inference Find

metasearch

Suchergebnisse werden nach verschiedenen Kategorien gruppiert angeboten

Infogrid

metasearch

„links" zu den großen Suchmaschinen, verschiedenen Kategorien und Metasuche

Inktomi

true search engine

Index auf den nur Partnersuchmaschinen zurückgreifen können

Ixquick

metasearch

listet nach Zugriff auf „top 10 rankings" verschiedener „true search engines" auf

LookSmart

hybrid

„directory", greift auch auf MSN Search und den Index von Inktomi zurück

Lycos

hybrid

Mischung aus Open Directory und FAST Search und Direct Hit

Mamma

metasearch

Metasuche über Suchmaschinen deren „listings" man kaufen kann

MetaCrawler

metasearch

ältester „metacrawler"

MetaGer

metasearch

Suchmaschine über deutschsprachige Suchmaschinen vom RRZN

MSN Search

hybrid

Mischung aus LookSmart directory und Inktomi index, IE5 Nutzer können ihre Suchen abspeichern

Netscape Search

hybrid

gute eigene Datenbank offizieller „websites", ansonsten Google und Open Directory

Northern Light

true search engine (zusätzlich kostenpflichtiges „directory")

großen Index mit themenbezogenen Zusammenstellungen, zusätzlicher Bereich von Dokumenten für deren Ansicht gezahlt (4$) werden muss

Open Directory

directory

Katalogisierung des Netzes durch Freiwillige, freier Zugriff durch fremde Suchmaschinen

ProFusion

metasearch

individuell einstellbar mit „broken link detection" und „search tracking"

QuickBrowse

metasearch

bis zu 200 Seiten von Ergebnissen einer Suchmaschine werden auf einer Seite aufgelistet, QB-Masterpage ermöglicht benutzte „URLs" auf einer Seite zusammenzustellen

Raging Search

hybrid

von AltaVista, Suchmaschine wie Altavista nur schneller da keine Portalfunktion

Search.com

metasearch

zusätzlich verschiedene spezielle Suchfunktionen

Snap

hybrid

„directory" ergänzt durch Zugriff auf Inktomi

SurfWax.com

metasearch

Metasuche mit verschiedenen Hilfestellungen und detaillierter Angabe zu den „sites"

Try9

metasearch

sucht über 9 große Suchmaschinen/ 9 Suchmaschinen bestimmter Länder

WebCrawler

true search engine

kleinster Index von den großen Suchmaschinen

Web.de

directory

Deutschland umfangreichstes „directory", 300.000 deutsche „sites"

WebTop

true search engine

sehr großer Index, auch WAP, „news sources" und besonderes „WebCheck tool"

Yahoo

hybrid

erfolgreichster Anbieter, 150 fest Angestellte für Indizierung seines „directory", zusätzlich Google Index

 

Möglichkeiten der Präzision der Suchbefehle (Search Engine Maths):

 

Simple Search: reine Stichwortsuche
Extended oder Power Search: Angabe von zusätzlichen Kriterien
Groß-/ Kleinschreibung  
Trunkierung: Suche nach verschiedenen Wortvariationen.
Gewichtung: stärker gewichtete Suchbegriffe werden bei der Suche eher berücksichtigt.
Boole´sche Operatoren:  
Phrasensuche (ADJ-Operator): es wird nach der exakten Reihenfolge der Begriffe gesucht ==> die Suchbegriffe müssen dafür in Hochkommata eingeschlossen sein
Abstandsoperatoren (Proximity-Operatoren): mit dem NEAR oder FOLLOWED-BY-Operator kann angegeben werden, wie nah zwei Suchbegriffe beieinander liegen sollen
Suchraumeingrenzung: von einigen Diensten werden verschiedene Eingrenzungen des Suchraums angeboten, Eingrenzungsbereiche können dabei sein:
Treffermengeneingrenzung: Eingrenzung durch Angabe einer Trefferzahl pro Ergebnisseite (Navigation zwischen Trefferseiten durch Blätterfunktion am Ende einer Ergebnisseite).
Ranking: alle Suchdienste berechnen Relevanzgrade, nach denen die Ergebnismenge sortiert wird (Berechnung nach Worthäufigkeit, Wortabständen, usw.)

 

Verwendete Literatur und Links:

 

Spektrum der Wissenschaft: Dossier – Die Welt im Internet. 01/98
http://www.ubka.uni-karlsruhe.de/cgi-bin/psview?document=/ira/1994/32  Knörzer, A. et.al: Multimedia, Datenspeicherung und Datenbanken
http://www.aifb.uni-karlsruhe.de/~wm1/Bereiche/IntranetInhalte/Ausarbeitung%20Wissensmanagement.htm http://searchenginewatch.com  über Suchmaschinen
http://www.teamone.de/selfaktuell/index.htm  Html-Tutorium mit vielen Links zu Internetthemen
http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html