GREED - GeRman Energy and Environment Document Corpus for Geoparsing and Time Expression Normalization Tasks
This dataset contains scientific texts with rich linguistic or structural annotations for research purposes.
It is designed to support tasks such as natural language processing, information extraction, and corpus linguistics.
Contents
The dataset consists of two main components:
- Text Content
Excerpts or full text passages from scientific publications. These were included with explicit permission from the respective authors or rights holders.
The following table lists the included files and the corresponding source information:
| File Name | Title | Authors | Link |
|-----------|-------|---------|------|
| 10200-Klimaleitplanken_2.0
| * Klimazukunft Baden-Württemberg - Was uns ohne effektiven Klimaschutz erwartet! * | Dr. Kai Höpker, Dr. Sabrina Plegnière (LUBW) | Link |
| 10506-Landesweite_Brutbestandserfassung_2022_im_Auftrag_der_LUBW_-_Landesanstalt_für_Umwelt_Baden-Württemb.tml
| * Der Kormoran (Phalacrocorax carbo) in Baden-Württemberg 2022 * | Ornithologische Gesellschaft Baden-Württemberg | Link |
| 10274-Sondermessungen_2020_Abschlussbericht.tml
| * Verkehrsnahe Sondermessungen 2020 in Baden-Württemberg * | LUBW Refarat 33 | Link |
| 10199-Immissionsbelastung_für_Baden-Württemberg_2016_-_2025.tml
| * Flächendeckende Ermittlung der Immissionsbelastung für Baden-Württemberg 2016 und Prognose für 2025 * | LUBW Refarat 33 | Link |
| Grundwasser-Überwachungsprogramm - 2022.tml
| * Grundwasser-Überwachungsprogramm 2022 * | LUBW Referat 42 | Link |
| 10582-Zahlen_und_Fakten_zum_Stand_der_Altlastenbearbeitung_in_Baden-Württemberg.tml
| * Altlastenstatistik 2022 * | Jochen Stark, Alicia Graf | Link |
| 82479-Untersuchungen_unter_Verwendung_des_Programms_ARTM_(Atmosphärisches_Radionuklid-Transport-Modell).tml
| * ABR-ARTM - Untersuchung zur Langzeitausbreitung von radioaktiven Schadstoffen an den Standorten von Atomkraftwerken in Baden-Württemberg * | Walter Scheuermann, Andreas Piater, Christoph Krass, Herbert Pohl | Link |
| 95109-Leitfaden
| Überwachung von industriellen Abwasseranlagen und -einleitungen | LUBW | Link |
| Anlage 4 der V813-2023_Abschlussbereicht.tml
| * V813/2023 ANLAGE 4: ABSCHLUSSBERICHT * | Stadt Mannheim, MVV Regioplan | Link |
| Kommunale_Waermeplanung_Beschlussvorlage.tml
| *Kommunale Wärmeplanung für München * | Referat für Klima- und Umweltschutz und Referat für Arbeit und Wirtschaft | [Link]( Beschluss der Vollversammlung des Münchner Stadtrats vom 15.5.2024, München) |
| 01_2024_uib_energieeffiziente_mobilitaet.tml
| * Beschäftigung durch energieeffiziente Mobilität - Methodik der Ermittlung und Ergebnisse für das Jahr 2019 * | Luisa Sievers, Anna Grimm | Link |
| 333_LF_Urbansky.tml
| * Untersuchung der Verteilnetzbelastung bei Proaktivem Energy-Sharing nach Österreichischem Vorbild * | Julian Urbansky, Lennart Schürmann | Link |
| Innovative_Technologien_Gebäudebereich_EWB.tml
| Innovative Technologien im Gebäudebereich der Forschungsinitiative ENERGIEWENDEBAUEN | Jessica Preuss, Heike Erhorn-Kluttig | Link |
| 05_2024_cc_dekarblnd_tb1.tml
| Dekarbonisierung der industriellen Produktion (DekarbInd) AP 1: Ganzheitliches Bewertungsschema für Technologien | Peter Viebahn, Dietmar Schüwer, Georg Holtz, Andreas Pastowski, Jacqueline Klingen, Sören Steger, Ali Aydemir | Link |
| 1436-4980-2024-01-02-11.tml
| Effizienzsteigerung durch Energiemanagementsysteme | Laura Jung, Kerim Torolsan, Artur Gergert, Felix Förster, Alexander Sauer | Link |
| Wärmeplanung_Augsburg_Infoblatt_Jan2024
| Hinweise zur Wärmeplanung und zum Fernwärmeausbau im Stadtgebiet Augsburg (Stand Januar 2024) | Stadt Augsburg, Umweltamt | Link |
| 2024-04-05_Endbericht_kommunale_Wärmeplanung_Stadt_Pforzheim_nach__7_Klimaschutzgesetz_Baden-Württemberg.tml
| Kommunale Wärmeplanung der Stadt Pforzheim | Stadt Pforzheim, Amt für Umweltschutz | Link |
| Bericht_zur_kommunalen_Waermeplanung.tml
| Kommunale Wärmeplanung Für die Stadt Offenburg | Stadt Offenburg | Link |
| 10598-Archewiesen_-_Saatgutgewinnung.tml
| „Archewiesen“ Ein Projekt zur Erhaltung des artenreichen Grünlands in Baden-Württemberg | LUBW Referat 56 | Link |
| Auf zu neuen Wegen – gemeinschaftlich und nachhaltig wirtschaften!_2022.tml
| Auf zu neuen Wegen – gemeinschaftlich und nachhaltig wirtschaften! | Binta Bah, Gerd Oelsner | Link |
⚠️ The individuals and institutions listed here are the copyright holders of the corresponding documents.
The text content is used with their permission and may only be used for non-commercial, scientific purposes.
- Annotations
Metadata, structural, or linguistic annotations created manually or semi-automatically, intended to support various forms of scientific analysis.
License
Annotations
All annotations and the dataset structure are licensed under the Creative Commons Attribution 4.0 International License (CC BY 4.0).
You are free to use, modify, and redistribute the annotations — including for commercial purposes — provided that appropriate credit is given.🔗 CC BY 4.0 Summary
Text Content
The original text content is copyrighted and included with permission from the respective authors or publishers.
It is made available exclusively for non-commercial, scientific use.
- ✅ Permitted: Academic research, teaching, citation in scientific publications.
- ❌ Not permitted: Commercial use, redistribution of raw text content outside of research settings, or adaptation beyond scholarly work.
For more details, refer to the
LICENSE.txt
file.
Author and Contact Information:
- Institution: Karlsruhe Institute of Technology (KIT), Institute for Automation and Applied Informatics (IAI)
- Main Author: Nicolas Doms, ndoms716@gmail.com
- Authors: Toni Golian, Ruidie Hu
- Principle Investigator: Thorsten Schlachter, thorsten.schlachter@kit.edu
Version and Date of Publication
- Version: 1.0
- Date: 2025-04-08
Disclaimer
This dataset is provided "as is" without warranty. The authors are not responsible for any misuse of the content. Users must ensure compliance with the licensing terms when distributing or using the dataset.
TagCombiner.py
Text content and annotations are delivered separately in this dataset to ensure a clear separation with regard to the license.
This dataset includes a Python file named TagCombiner.py. This simple code merges the tags from the "Tags" directory into the raw text data in the "Raw" directory.
The resulting files have the annotations in-line and can be used for the evaluation of machine learning models.