XML Einstieg
  XML Bibliothek
  Bücher
  Glossar
  Links
   
  engl. Version
  Ressourcen

 

 

 

 

XML in der Praxis

Umweltinformationssystem beim Umweltbundesamt

Umweltinformationen auf XML-Basis

Von Jürgen Wasem-Gutensohn*

Für die Realisierung eines Brokers für Umweltinformationen beim Umweltbundesamt hat die Sema Group erstmals die neue XML-Technologie eingesetzt. Die Anwendung läuft auf dem Informationsserver Tamino von der Software AG.

Suchmaschinen sind ein Eckpfeiler der Web-Benutzung: Wer nicht nur auf eine begrenzte Anzahl immer gleicher Web-Adressen zugreift, sondern das Informationspotenzial des Web für wechselnde Fragestellungen nutzen will, der kommt nicht ohne diverse Suchmaschinen aus. Suchmaschinen geben jedoch oft irrelevante Adressen (URLs) zurück. Das liegt auch an der von den Suchmaschinen verwendeten Technik. Sie führen im Grunde lediglich eine Volltextsuche über ungezählte Webseiten durch. Dabei bleiben sie im wesentlichen auf statische Webseiten beschränkt. Informationen, die erst vom Anwender über Menüs oder gar über Datenbankzugriffe erschlossen werden, bleiben für die Suchmaschinen meist unsichtbar. Im Web spielen jedoch gerade diese dynamischen Web-Seiten eine immer größere Rolle.

Das Projekt GEIN 2000[1]

Vor diesem Problem stand das Umweltbundesamt (UBA) bei der Planung seines Umweltinformationsnetzes GEIN 2000 (German Environment Information Network). GEIN soll die über die Webseiten zahlreicher öffentlicher Einrichtungen – Umweltbehörden, statistische Bundes- und Landesämter, Ministerien usw. – verstreuten Informationen erschließen und so als Informationsbroker für Umweltinformationen in Deutschland dienen. GEIN steht künftig allen interessierten Bürgern zur Verfügung und soll auch bei der Expo 2000 in Hannover gezeigt werden. Es ist wesentlicher Bestandteil des Umweltpräsentationssystems Umwelt 2000, das dem interessierten Laien Zugang zu vertieften Umweltinformationen bietet. GEIN 2000 ist daher kein behördeninternes Projekt, sondern zielt auf die Öffentlichkeit.

Mit der Entwicklung des Projekts GEIN 2000 wurde die Sema Group betraut. Sie hat sich – nicht zuletzt aufgrund des Modellcharakters des Projekts – entschlossen, es auf Basis des neuen Internet-Standards XML (eXtensible Markup Language) und unter Einsatz des neuen, auf der XML-Technologie aufbauenden Informationsservers Tamino der Software AG umzusetzen.

"Die Entscheidung, das Projekt auf Basis von XML zu entwickeln, war anfangs vielleicht durch Vorlieben der Projektgruppe beeinflusst", erklärt Thomas Bandholtz, Projektleiter der Sema Group. "Wir wollten sehen, was man mit dieser neuen Technologie erreichen kann. Dabei haben wir uns eine Rückzugsmöglichkeit auf traditionelle Strukturen wie SQL bewusst offen gehalten. Aber XML hat nicht nur uns überzeugt, sondern auch die potentiellen Anwender. Erstaunlich war für uns dabei, wie positiv alle angesprochenen Stellen XML einschätzen. Die Akzeptanz von XML ist wirklich enorm."

Einer der wesentlichen Vorteile von XML besteht darin, dass der Datenaustausch nicht mehr proprietär ist. Alles beruht auf dem offenen Standard des W3C und lässt sich damit optimal ins Web integrieren. Damit ist es sehr leicht möglich, in Zukunft neue Informationsangebote in GEIN 2000 zu integrieren. Da GEIN 2000 davon lebt, dass es möglichst viele und möglichst unterschiedliche Informationsangebote abdeckt, ist die Koordination und Abstimmung von Datenformaten aus unterschiedlichen Systemen wesentlich.

"Die Abstimmung zwischen Behörden ist normalerweise eine sehr langwierige Angelegenheit, die schon mal Jahre dauern kann. Man darf nun nicht erwarten, dass mit XML alles in zehn Minuten fertig ist, denn die konzeptionelle Abstimmung der Messmethoden beispielsweise muss nach wie vor geleistet werden. Aber man kann mit XML sehr schnell zu einer gemeinsamen Basis für den Informationsaustausch kommen und sich auf den Inhalt konzentrieren. Was sonst ein Dauerthema war – beispielsweise Feldlängen, Trennzeichen, Satzende –, das spielt in XML überhaupt keine Rolle mehr", führt Projektleiter Bandholtz aus.

GEIN 2000 und XML

GEIN 2000 regelt nicht nur den Datenaustausch mit XML, es verwendet XML auch für seine internen Prozesse. So verfügt GEIN 2000 unter anderem über einen integrierten in XML abgebildeten geographischen Thesaurus, mit dem Anfragen nach räumlichen Aspekten ausgewertet werden können. Dieser geographische Thesaurus löst ein Problem, das Suchmaschinen typischerweise haben: Ein Suchbegriff kann nicht als geographischer Begriff identifiziert werden. Wer nach 'Lüneburger Heide' sucht, findet nichts, das beispielsweise unter 'Wilseder Berg‘ gespeichert ist.

Der geographische Thesaurus enthält über 50.000 geographische Begriffe, und XML macht es möglich, diese zusammen mit einer räumlichen Zuordnung zu erfassen. Damit ist bei Suchen nach Ortsbegriffen keine Wort-Übereinstimmung mehr erforderlich, sondern kann über die räumliche Dimension erfolgen. Freilich müssen die Begriffe entsprechend erfasst werden – das W3C weiss vermutlich nicht, dass der Wilseder Berg in der Lüneburger Heide liegt. Auf gleiche Weise lassen sich Zeitangaben auswerten: 'von - bis' lässt sich bei GEIN 2000 in XML als echter Zeitraum abbilden. Nur mit XML lassen sich solche Fragestellungen nicht-proprietär lösen.

Basis von GEIN 2000 ist die XML-Anwendung Resource Description Framework (RDF), die eine komplexere Abfragelogik erlaubt, als sie mit HTML möglich wäre. Mit RDF wurde ein XML-konformes G2K-Profil (von GEIN 2000) aufgestellt, das von einem Parser analysiert und ausgewertet werden kann. Die Informationen selbst müssen dabei nicht im XML-Format vorliegen. Die Darstellung in RDF kann auch eine Quell-URL angeben, die zu einem beliebigen Dokument führt.

Das nachstehende – gekürzte – Beispiel (Bild 1) zeigt einen 'Datensatz' für GEIN 2000, der eine Art Verschlagwortung für den GEIN-Broker aufbereitet. Einer der Vorzüge von XML wird hier unmittelbar deutlich: das Beispiel ist für den, der auch nur die Grundlagen von XML kennt, in kurzer Zeit verständlich. Dies erleichtert die Adaption an beliebige Zielsysteme außerordentlich, was gerade für ein fach- und organisationsübergreifendes Projekt wie GEIN 2000 sehr wichtig ist.

<rdf:RDF>

      …

      <rdf:Description about="http://www.site.de/rheinwasser.html">

      <g2k:title> Wasserqualität des Rheins bei Bonn 1994-1998 </g2k:title>

            <g2k:abstract>

                  Dieses Dokument beschreibt die Wasserqualität

                  des Rheins gemessen in Bonn in den

                  Jahren 1994 bis 1998

            </g2k:abstract>

            <g2k:topic thesaurus= "

                  http://www.gein2000.de/profile/02/ubathes">

                  <g2k:item ID="4711">Wasserqualität </g2k:Item>

            </g2k:topic>

            <g2k:area thesaurus= "

                  http://www.gein2000.de/profile/02/geothes" >

                  <g2k:item ID="4712">Rhein </g2k:item>

                  <g2k:item ID="4713">Bonn </g2k:item>

            </g2k:area>

            <g2k:time>

                  <g2k:from> 1994</g2k:from>

                  <g2k:to> 1998</g2k:to>

            </g2k:time> </rdf:Description>

</rdf:RDF>

Bild 1

<?xml version="1.0" encoding="utf-8"?>

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:g2k="http://www.gein.de/g2k-profile/02/profile">

<rdf:description ID="4711">

      <g2k:detailedSearch language="de">

            <g2k:topic thesaurus= " http://www.gein2000.de/profile/02/ubathes">

                  <g2k:item ID="4711">Wasserqualität </g2k:Item>

            </g2k:topic>

            <g2k:area thesaurus= " http://www.gein2000.de/profile/02/geothes"

                  match ="or">

                  <g2k:item ID="4712">Rhein </g2k:item>

                  <g2k:item ID="4713">Bonn </g2k:item>

            </g2k:area>

            <g2k:time>

                  <g2k:from> 1994</g2k:from>

                  <g2k:to> 1998</g2k:to>

            </g2k:time>

      </g2k:detailedSearch>

</rdf:description>

</rdf:RDF>

 

Bild 2

 

Bei einer Suchanfrage sendet GEIN 2000 die Suchbedingung generisch ebenfalls in RDF (s. Beispiel in Bild 2).

Die Antwort wird in einen <resultSet>-Block eingepackt, der Bezug auf die ID der Frage nimmt. In diesem Block befinden die Descriptions derjenigen Informationen, die in der Trefferliste erscheinen sollen (Bild 3).

...

<g2k:resultSet about="4711">

      ....

</g2k:resultSet>

Bild 3

GEIN 2000 kann zudem lokal vorhandene Indizes auswerten, direkt lokale Suchfunktionen ansprechen und vor allem auch dynamische Webseiten auswerten. Dabei wird die Auswahl, die normalerweise der Anwender manuell vornimmt, von GEIN 2000 automatisiert; die Anwort-URL wird dementsprechend nicht am Browser dargestellt, sondern zusammen mit Titel und Kurzbeschreibung an GEIN 2000 zurückgereicht.

XML und Tamino

Die Sema Group hat für die Realisierung des Projektes GEIN 2000 eine Reihe von Systemen evaluiert, darunter auch relationale- oder objektorientierte Datenbanken (ODBMS). Während erstere XML in ihre anders geartete Datenstruktur konvertieren müssen und insofern technologisch nicht ganz zu GEIN 2000 passen, bestehen bei ODBMS deutliche Akzeptanzprobleme seitens der Kunden. Der Informationsserver Tamino der Software AG bietet dagegen eine reine XML-Struktur: er ist von Grund auf für die Speicherung von XML-Dokumenten entwickelt und speichert diese ohne Konvertierung in ihrer natürlichen Form ab. Damit kann Tamino die allgemeine Akzeptanz von XML voll für sich nutzen. GEIN 2000 wird mit Tamino in einer ersten Projektphase einen strukturierten XML-Index mit etwa 60.000 Objekten vorhalten, dazu einen mehrsprachigen Begriffsthesaurus und den erwähnten geographischen Thesaurus.

GEIN 2000 ist weit mehr als eine neue Suchmaschine auf XML-Basis, es arbeitet als Broker und die weit verstreuten Webseiten, Datenbanken usw. verhalten sich unter GEIN 2000 wie ein verteiltes Datenhaltungssystem. Insofern bringt das Projekt die wesentliche Stärke von Tamino, nämlich ein universeller Informationsserver zu sein, voll zur Geltung.

 

Das Umweltbundesamt

Das Umweltbundesamt (UBA) ist eine wissenschaftliche Behörde im Geschäftsbereich des Bundesministeriums für Umwelt, Naturschutz und Reaktorsicherheit (BMU). Der Stellenwert der Analysen und Empfehlungen für politische Entscheidungen und die Unabhängigkeit von Einzelinteressen machen das UBA zu einer besonderen Umweltinstitution in Deutschland.

Das UBA ermittelt, beschreibt und bewertet den Zustand der Umwelt, um Beeinträchtigungen von Mensch und Umwelt möglichst frühzeitig und umfassend zu erkennen. Im Rahmen der Ressortaufgaben werden fachliche Konzepte entworfen und dem BMU und anderen Bundesministerien wirksame Maßnahmen vorgeschlagen. Darüber hinaus werden auch andere staatliche, kommunale und private Einrichtungen beraten. Das UBA informiert die Öffentlichkeit allgemeinverständlich über die Ursachen sowie praktischen Möglichkeiten zur Lösung von Umweltproblemen. Das UBA stellt sein Wissen und seine Erfahrungen national und international zur Verfügung und wirkt in internationalen Gremien und Konferenzen an der Weiterentwicklung des internationalen Umweltschutzes mit.

 

Schwerpunkte der Projektentwicklung von GEIN 2000
  • Implementierung einer Suchmaschine für das Informationsangebot von GEIN 2000
  • Empfehlungen an die Anbieter von Informationen zur Einrichtung ihrer Webseiten hinsichtlich der Erfassung durch GEIN 2000
  • Festlegung eines einfachen und innerhalb der Umweltinformationen universellen Suchprotokolls und eines knappen Metadatensatzes mit Angaben zu den Themen Raum und Zeit
  • Unterstützung bei der Implementierung dieses Datensatzes und bei der Verschlagwortung
  • Einbindung lokaler Suchverfahren über Netzwerkschnittstellen (beispielsweise CGI oder RMI) oder mit Hilfe von Konversionsfiltern auf lokal generierte Indizes

 

Die Sema Group

Die Sema Group ist eines der größten Systemhäuser der Welt. Schwerpunkte der Tätigkeit sind das Outsourcing-Geschäft, Systemintegration, Anwendungsentwicklung und Consulting. Die rund 20.000 Mitarbeiter in weltweit über 120 Niederlassungen haben 1998 einen Umsatz von umgerechnet etwa 3,75 Milliarden Mark erwirtschaftet. Das Unternehmen ist an den Börsen von London und Paris notiert. In Deutschland ist die Sema Group seit mehr als 30 Jahren mit derzeit rund 750 Mitarbeitern tätig.

Ansprechpartner: Thomas Bandholtz, Telefon +49 221-8299-0

Jürgen Wasem-Gutensohn ist Redakteur bei der PR-Agentur PR-COM in Martinsried bei München

[1] GEIN 2000 entsteht im Rahmen des Forschungsvorhabens UFOPLAN FKZ 29811603/01, gefördert durch BMU/UBA, begleitet durch Dr. Maria Rüther und Dr. Richard Bös, beide UBA-FG Z 2.4

Was ist neu?

Software AG baut Marktanteil bei XML-Technologie deutlich auf 40,5 Prozent weltweit aus
 

XML Einstieg

Was ist XML?
Warum XML?
XML in der Praxis
XML Glossar

mehr...

Mehr über XML

Robin Cover's XML News

XML.ORG
XML.COM
W3C


mehr...

Bücher über XML

XML Grundkurs
XML & Co.
Workshop XML
XML Ge-Packt
Datenbanken und XML
Java/XML. Das Einsteigerseminar
XSLT und XPath