Umweltinformationssystem
beim Umweltbundesamt
Umweltinformationen auf XML-Basis
Von Jürgen Wasem-Gutensohn*
Für die Realisierung eines Brokers für
Umweltinformationen beim Umweltbundesamt hat die Sema
Group erstmals die neue XML-Technologie eingesetzt.
Die Anwendung läuft auf dem Informationsserver Tamino
von der Software AG.
Suchmaschinen sind ein Eckpfeiler der Web-Benutzung:
Wer nicht nur auf eine begrenzte Anzahl immer gleicher
Web-Adressen zugreift, sondern das
Informationspotenzial des Web für wechselnde
Fragestellungen nutzen will, der kommt nicht ohne
diverse Suchmaschinen aus. Suchmaschinen geben jedoch
oft irrelevante Adressen (URLs) zurück. Das liegt
auch an der von den Suchmaschinen verwendeten Technik.
Sie führen im Grunde lediglich eine Volltextsuche über
ungezählte Webseiten durch. Dabei bleiben sie im
wesentlichen auf statische Webseiten beschränkt.
Informationen, die erst vom Anwender über Menüs oder
gar über Datenbankzugriffe erschlossen werden,
bleiben für die Suchmaschinen meist unsichtbar. Im
Web spielen jedoch gerade diese dynamischen Web-Seiten
eine immer größere Rolle.
Das Projekt GEIN 2000[1]
Vor diesem Problem stand das Umweltbundesamt (UBA)
bei der Planung seines Umweltinformationsnetzes GEIN
2000 (German Environment Information Network). GEIN
soll die über die Webseiten zahlreicher öffentlicher
Einrichtungen Umweltbehörden, statistische Bundes-
und Landesämter, Ministerien usw. verstreuten
Informationen erschließen und so als
Informationsbroker für Umweltinformationen in
Deutschland dienen. GEIN steht künftig allen
interessierten Bürgern zur Verfügung und soll auch
bei der Expo 2000 in Hannover gezeigt werden. Es ist
wesentlicher Bestandteil des Umweltpräsentationssystems
Umwelt 2000, das dem interessierten Laien Zugang zu
vertieften Umweltinformationen bietet. GEIN 2000
ist daher kein behördeninternes Projekt, sondern
zielt auf die Öffentlichkeit.
Mit der Entwicklung des Projekts GEIN 2000
wurde die Sema Group betraut. Sie hat sich nicht
zuletzt aufgrund des Modellcharakters des Projekts
entschlossen, es auf Basis des neuen
Internet-Standards XML (eXtensible Markup Language)
und unter Einsatz des neuen, auf der XML-Technologie
aufbauenden Informationsservers Tamino der Software AG
umzusetzen.
"Die Entscheidung, das Projekt auf Basis von
XML zu entwickeln, war anfangs vielleicht durch
Vorlieben der Projektgruppe beeinflusst", erklärt
Thomas Bandholtz, Projektleiter der Sema Group. "Wir
wollten sehen, was man mit dieser neuen Technologie
erreichen kann. Dabei haben wir uns eine Rückzugsmöglichkeit
auf traditionelle Strukturen wie SQL bewusst offen
gehalten. Aber XML hat nicht nur uns überzeugt,
sondern auch die potentiellen Anwender. Erstaunlich
war für uns dabei, wie positiv alle angesprochenen
Stellen XML einschätzen. Die Akzeptanz von XML ist
wirklich enorm."
Einer der wesentlichen Vorteile von XML besteht
darin, dass der Datenaustausch nicht mehr proprietär
ist. Alles beruht auf dem offenen Standard des W3C und
lässt sich damit optimal ins Web integrieren. Damit
ist es sehr leicht möglich, in Zukunft neue
Informationsangebote in GEIN 2000 zu integrieren.
Da GEIN 2000 davon lebt, dass es möglichst viele
und möglichst unterschiedliche Informationsangebote
abdeckt, ist die Koordination und Abstimmung von
Datenformaten aus unterschiedlichen Systemen
wesentlich.
"Die Abstimmung zwischen Behörden ist
normalerweise eine sehr langwierige Angelegenheit, die
schon mal Jahre dauern kann. Man darf nun nicht
erwarten, dass mit XML alles in zehn Minuten fertig
ist, denn die konzeptionelle Abstimmung der
Messmethoden beispielsweise muss nach wie vor
geleistet werden. Aber man kann mit XML sehr schnell
zu einer gemeinsamen Basis für den
Informationsaustausch kommen und sich auf den Inhalt
konzentrieren. Was sonst ein Dauerthema war
beispielsweise Feldlängen, Trennzeichen, Satzende
, das spielt in XML überhaupt keine Rolle mehr",
führt Projektleiter Bandholtz aus.
GEIN 2000 und XML
GEIN 2000 regelt nicht nur den Datenaustausch
mit XML, es verwendet XML auch für seine internen
Prozesse. So verfügt GEIN 2000 unter anderem über
einen integrierten in XML abgebildeten geographischen
Thesaurus, mit dem Anfragen nach räumlichen Aspekten
ausgewertet werden können. Dieser geographische
Thesaurus löst ein Problem, das Suchmaschinen
typischerweise haben: Ein Suchbegriff kann nicht als
geographischer Begriff identifiziert werden. Wer nach
'Lüneburger Heide' sucht, findet nichts, das
beispielsweise unter 'Wilseder Berg gespeichert ist.
Der geographische Thesaurus enthält über 50.000
geographische Begriffe, und XML macht es möglich,
diese zusammen mit einer räumlichen Zuordnung zu
erfassen. Damit ist bei Suchen nach Ortsbegriffen
keine Wort-Übereinstimmung mehr erforderlich, sondern
kann über die räumliche Dimension erfolgen. Freilich
müssen die Begriffe entsprechend erfasst werden
das W3C weiss vermutlich nicht, dass der Wilseder Berg
in der Lüneburger Heide liegt. Auf gleiche Weise
lassen sich Zeitangaben auswerten: 'von - bis' lässt
sich bei GEIN 2000 in XML als echter Zeitraum abbilden.
Nur mit XML lassen sich solche Fragestellungen
nicht-proprietär lösen.
Basis von GEIN 2000 ist die XML-Anwendung Resource
Description Framework (RDF), die eine komplexere
Abfragelogik erlaubt, als sie mit HTML möglich wäre.
Mit RDF wurde ein XML-konformes G2K-Profil (von GEIN 2000)
aufgestellt, das von einem Parser analysiert und
ausgewertet werden kann. Die Informationen selbst müssen
dabei nicht im XML-Format vorliegen. Die Darstellung
in RDF kann auch eine Quell-URL angeben, die zu einem
beliebigen Dokument führt.
Das nachstehende gekürzte Beispiel (Bild
1) zeigt einen 'Datensatz' für GEIN 2000, der
eine Art Verschlagwortung für den GEIN-Broker
aufbereitet. Einer der Vorzüge von XML wird hier
unmittelbar deutlich: das Beispiel ist für den, der
auch nur die Grundlagen von XML kennt, in kurzer Zeit
verständlich. Dies erleichtert die Adaption an
beliebige Zielsysteme außerordentlich, was gerade für
ein fach- und organisationsübergreifendes Projekt wie
GEIN 2000 sehr wichtig ist.
| <rdf:RDF>
<rdf:Description
about="http://www.site.de/rheinwasser.html">
<g2k:title> Wasserqualität des Rheins bei
Bonn 1994-1998 </g2k:title>
<g2k:abstract>
Dieses Dokument beschreibt die Wasserqualität
des Rheins gemessen in Bonn in den
Jahren 1994 bis 1998
</g2k:abstract>
<g2k:topic thesaurus= "
http://www.gein2000.de/profile/02/ubathes">
<g2k:item ID="4711">Wasserqualität
</g2k:Item>
</g2k:topic>
<g2k:area thesaurus= "
http://www.gein2000.de/profile/02/geothes"
>
<g2k:item ID="4712">Rhein
</g2k:item>
<g2k:item ID="4713">Bonn
</g2k:item>
</g2k:area>
<g2k:time>
<g2k:from> 1994</g2k:from>
<g2k:to> 1998</g2k:to>
</g2k:time> </rdf:Description>
</rdf:RDF> |
Bild 1
| <?xml version="1.0"
encoding="utf-8"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:g2k="http://www.gein.de/g2k-profile/02/profile">
<rdf:description ID="4711">
<g2k:detailedSearch
language="de">
<g2k:topic thesaurus= "
http://www.gein2000.de/profile/02/ubathes">
<g2k:item ID="4711">Wasserqualität
</g2k:Item>
</g2k:topic>
<g2k:area thesaurus= "
http://www.gein2000.de/profile/02/geothes"
match ="or">
<g2k:item ID="4712">Rhein
</g2k:item>
<g2k:item ID="4713">Bonn
</g2k:item>
</g2k:area>
<g2k:time>
<g2k:from> 1994</g2k:from>
<g2k:to> 1998</g2k:to>
</g2k:time>
</g2k:detailedSearch>
</rdf:description>
</rdf:RDF> |
Bild 2
Bei einer Suchanfrage sendet GEIN 2000 die
Suchbedingung generisch ebenfalls in RDF (s. Beispiel
in Bild 2).
Die Antwort wird in einen <resultSet>-Block
eingepackt, der Bezug auf die ID der Frage nimmt. In
diesem Block befinden die Descriptions derjenigen
Informationen, die in der Trefferliste erscheinen
sollen (Bild 3).
| ...
<g2k:resultSet about="4711">
....
</g2k:resultSet> |
Bild 3
GEIN 2000 kann zudem lokal vorhandene Indizes
auswerten, direkt lokale Suchfunktionen ansprechen und
vor allem auch dynamische Webseiten auswerten. Dabei
wird die Auswahl, die normalerweise der Anwender
manuell vornimmt, von GEIN 2000 automatisiert;
die Anwort-URL wird dementsprechend nicht am Browser
dargestellt, sondern zusammen mit Titel und
Kurzbeschreibung an GEIN 2000 zurückgereicht.
XML und Tamino
Die Sema Group hat für die Realisierung des
Projektes GEIN 2000 eine Reihe von Systemen
evaluiert, darunter auch relationale- oder
objektorientierte Datenbanken (ODBMS). Während
erstere XML in ihre anders geartete Datenstruktur
konvertieren müssen und insofern technologisch nicht
ganz zu GEIN 2000 passen, bestehen bei ODBMS
deutliche Akzeptanzprobleme seitens der Kunden. Der
Informationsserver Tamino der Software AG bietet
dagegen eine reine XML-Struktur: er ist von Grund auf
für die Speicherung von XML-Dokumenten entwickelt und
speichert diese ohne Konvertierung in ihrer natürlichen
Form ab. Damit kann Tamino die allgemeine Akzeptanz
von XML voll für sich nutzen. GEIN 2000 wird mit
Tamino in einer ersten Projektphase einen
strukturierten XML-Index mit etwa 60.000 Objekten
vorhalten, dazu einen mehrsprachigen Begriffsthesaurus
und den erwähnten geographischen Thesaurus.
GEIN 2000 ist weit mehr als eine neue
Suchmaschine auf XML-Basis, es arbeitet als Broker und
die weit verstreuten Webseiten, Datenbanken usw.
verhalten sich unter GEIN 2000 wie ein verteiltes
Datenhaltungssystem. Insofern bringt das Projekt die
wesentliche Stärke von Tamino, nämlich ein
universeller Informationsserver zu sein, voll zur
Geltung.
| Das Umweltbundesamt
Das Umweltbundesamt (UBA) ist eine
wissenschaftliche Behörde im Geschäftsbereich
des Bundesministeriums für Umwelt, Naturschutz
und Reaktorsicherheit (BMU). Der Stellenwert der
Analysen und Empfehlungen für politische
Entscheidungen und die Unabhängigkeit von
Einzelinteressen machen das UBA zu einer
besonderen Umweltinstitution in Deutschland.
Das UBA ermittelt, beschreibt und bewertet
den Zustand der Umwelt, um Beeinträchtigungen
von Mensch und Umwelt möglichst frühzeitig und
umfassend zu erkennen. Im Rahmen der
Ressortaufgaben werden fachliche Konzepte
entworfen und dem BMU und anderen
Bundesministerien wirksame Maßnahmen
vorgeschlagen. Darüber hinaus werden auch
andere staatliche, kommunale und private
Einrichtungen beraten. Das UBA informiert die Öffentlichkeit
allgemeinverständlich über die Ursachen sowie
praktischen Möglichkeiten zur Lösung von
Umweltproblemen. Das UBA stellt sein Wissen und
seine Erfahrungen national und international zur
Verfügung und wirkt in internationalen Gremien
und Konferenzen an der Weiterentwicklung des
internationalen Umweltschutzes mit. |
Schwerpunkte der Projektentwicklung
von GEIN 2000
- Implementierung einer Suchmaschine für
das Informationsangebot von GEIN 2000
- Empfehlungen an die Anbieter von
Informationen zur Einrichtung ihrer
Webseiten hinsichtlich der Erfassung durch
GEIN 2000
- Festlegung eines einfachen und innerhalb
der Umweltinformationen universellen
Suchprotokolls und eines knappen
Metadatensatzes mit Angaben zu den Themen
Raum und Zeit
- Unterstützung bei der Implementierung
dieses Datensatzes und bei der
Verschlagwortung
- Einbindung lokaler Suchverfahren über
Netzwerkschnittstellen (beispielsweise CGI
oder RMI) oder mit Hilfe von
Konversionsfiltern auf lokal generierte
Indizes
|
| Die Sema Group
Die Sema Group ist eines der größten
Systemhäuser der Welt. Schwerpunkte der Tätigkeit
sind das Outsourcing-Geschäft,
Systemintegration, Anwendungsentwicklung und
Consulting. Die rund 20.000 Mitarbeiter in
weltweit über 120 Niederlassungen haben 1998
einen Umsatz von umgerechnet etwa 3,75
Milliarden Mark erwirtschaftet. Das Unternehmen
ist an den Börsen von London und Paris notiert.
In Deutschland ist die Sema Group seit mehr als
30 Jahren mit derzeit rund 750 Mitarbeitern tätig.
Ansprechpartner: Thomas Bandholtz, Telefon
+49 221-8299-0
Jürgen Wasem-Gutensohn ist Redakteur bei der
PR-Agentur PR-COM in Martinsried bei München |
[1] GEIN 2000 entsteht im Rahmen des
Forschungsvorhabens UFOPLAN FKZ 29811603/01, gefördert
durch BMU/UBA, begleitet durch Dr. Maria Rüther und
Dr. Richard Bös, beide UBA-FG Z 2.4