Die zunehmende Dynamik und Komplexität moderner Produktionsumgebungen stellen Unternehmen bei der Planung und Steuerung ihrer Produktion vor erhebliche Herausforderungen [1, 2]. In diesem Zusammenhang bietet KI neue Perspektiven, da sie aus iterativen Lernprozessen optimale Strategien entwickeln kann, die sich an veränderte Produktionsbedingungen anpassen und diese automatisieren können [3, 4]. Die erfolgreiche Anwendung von KI in der PPS erfordert jedoch eine robuste und skalierbare Dateninfrastruktur, die eine Vielzahl von Anforderungen erfüllen muss.
Die Gewährleistung der Verfügbarkeit und Qualität von Echtzeit- und historischen Daten sowie die nahtlose Integration in bestehende Systeme wie Manufacturing Execution Systems (MES) und Enterprise Resource Planning (ERP)-Systeme sind von größter Bedeutung. In den folgenden Abschnitten werden diese Herausforderungen im Detail untersucht und in den Kontext aktueller Forschungsergebnisse gestellt. Dieser Artikel zielt darauf ab, eine Strategie für Unternehmen zur Automatisierung der PPS mithilfe von KI vorzustellen und das Potenzial der Automatisierung der Produktionssteuerung mithilfe intelligenter Agenten detailliert zu beschreiben.
Grundlagen der Produktionsplanung und -steuerung
Produktionsplanung und -steuerung (PPS) ist ein umfassender Begriff, der alle strategischen und operativen Maßnahmen umfasst, die notwendig sind, um Fertigungsprozesse effizient zu planen, zu steuern und zu überwachen [5, 6]. Das übergeordnete Ziel in der PPS ist es, eine termingerechte und kosteneffiziente Produktion mit optimaler Nutzung der Ressourcen (hauptsächlich Maschinen und Personal) zu gewährleisten und so eine hohe logistische Leistung bei minimalen Logistikkosten zu erreichen [5]. Gemäß den Ansätzen von Nyhuis et al. [5] und Schmidt et al. [6] umfasst die PPS folgende Elemente:
- Planung: Festlegung von Produktionsprogrammen, Berechnung des Materialbedarfs und Zuweisung von Kapazitäten.
- Steuerung: Koordination der Produktionsabläufe durch Prüfung der Verfügbarkeit, Einplanung von Produktionsaufträgen, Bildung sinnvoller Abläufe in der Bearbeitung und Anpassung der Kapazitäten.
- Controlling: Analyse von Abweichungen und Einleitung von Abhilfemaßnahmen.
Das Hannoveraner Lieferkettenmodell (HaLiMo) ist ein theoretischer Rahmen, der die Aufgaben und Prozesse der PPS in ihrer chronologischen und logischen Abfolge organisiert (Bild 1) [6]. Der dem Modell zugrunde liegende Ansatz gewährleistet, dass die Produktionsprozesse flexibel und reaktionsschnell bleiben, was in dynamischen Märkten von größter Bedeutung ist.
![Bild 1: Hannoveraner Lieferkettenmodell (in Anlehnung an [6]).](https://industry-science.com/wp-content/uploads/2025/09/Schneider_I4S-25-5_Bild-1.jpeg)
Künstliche Intelligenz im Hannoveraner Lieferkettenmodell
Produzierende Unternehmen gehören zu den Hauptnutznießern der digitalen Transformation [7]. Die zunehmende Verfügbarkeit von Daten bietet eine Reihe von Möglichkeiten zur Steigerung der Effizienz, zur Verbesserung der Qualität und zur Senkung der Produktionskosten [8]. Um diese Potenziale zu heben, werden KI-Anwendungen bereits in verschiedenen Unternehmensbereichen erfolgreich eingesetzt und intensiv erforscht.
Die Produktionsplanung und -steuerung (PPS) bietet für die Anbindung von KI-Lösungen dabei einige Anknüpfungspunkte [4, 9, 10]. Innerhalb des HaLiMo-Rahmens können eine Reihe von Anwendungsfällen für KI-Anwendungen identifiziert werden, die das Potenzial haben, durch einen Multi-Agenten-System-Ansatz zu einer ganzheitlichen Automatisierung von PPS beizutragen. Es ist wichtig anzuerkennen, dass im Prinzip jede der 11 primären PPS-Aufgaben (Bild 1) mit einem geeigneten KI-Ansatz automatisiert werden kann.
Die Implementierung des Multiagentensystems ermöglicht die Verknüpfung der einzelnen KI-Lösungen, die für die Automatisierung der PPS vorgesehen sind, mit den Informations- und Materialflüssen (Bild 1). Diese Verknüpfung erfolgt auf zentraler Ebene im Rahmen der AutoPPS. Der Mehrwert für Forschung und Industrie liegt darin, dass durch die Implementierung einer zukunftssicheren Dateninfrastruktur eine ganzheitliche Basis für eine intelligente, adaptive und automatisierte PPS geschaffen werden kann, die sowohl Echtzeit- als auch historische Daten einbezieht und sich nahtlos in bestehende Systeme integrieren lässt.
In der bestehenden Literatur [9, 10] ist die Optimierung einzelner Teilaufgaben der PPS mithilfe von KI die gängige Praxis. Eine ganzheitliche Verknüpfung innerhalb eines Rahmenmodells wie dem HaLiMo in Form eines Multi-Agenten-Systems, was ein wesentlicher Beitrag dieses Artikels ist, ist bisher nicht vorhanden.
Die nachfolgenden Beschreibungen konzentrieren sich auf die Automatisierung von Produktionssteuerungsaufgaben durch intelligente Reinforcement Learning (RL)-Agenten. In einem ersten Schritt werden die Grundlagen des RL skizziert, um in einem weiteren Schritt zu zeigen, wie Unternehmen intelligente Agenten entwickeln und einsetzen können, um diskrete Aufgaben der Produktionssteuerung zu automatisieren.
![Bild 2: Schematischer Aufbau eines Reinforcement-Learning-Agenten (in Anlehnung an [11]).](https://industry-science.com/wp-content/uploads/2025/09/Schneider_I4S-25-5_Bild-2.jpeg)
Reinforcement Learning ist ein Teilgebiet des maschinellen Lernens, bei dem ein Agent durch Interaktion mit einer Umgebung lernt, seine Entscheidungen zu optimieren. Der Agent agiert in einer definierten Umgebung, die durch verschiedene Zustände gekennzeichnet ist. Durch die Ausführung von Aktionen verändert der Agent den aktuellen Zustand und erhält als Belohnung eine Rückmeldung. Die Belohnung zeigt, inwieweit die gewählte Aktion zur Erreichung des langfristigen Ziels beiträgt [9, 11]. Der Kontext und die schematische Struktur sind in Bild 2 dargestellt.
Das Ziel besteht darin, eine Strategie zu entwickeln, die darauf abzielt, den kumulativen Gewinn über eine Vielzahl von Interaktionen hinweg zu maximieren. In der vorhandenen Literatur werden die grundlegenden Konzepte und Methoden ausführlich beschrieben [11]. Erste Ansätze zeigen das Potenzial von RL zur Automatisierung einzelner PPS-Aufgaben und zur Bewältigung von Komplexität [12]. So wurde beispielsweise nachgewiesen, dass RL-Agenten die etablierten Industriestandards im Zeitmanagement übertreffen können [3].
Anforderungen an die Dateninfrastruktur
Die Leistung von Reinforcement Learning (RL)-Agenten hängt maßgeblich von der Qualität der zugrunde liegenden Daten und Informationen ab. In Produktionsumgebungen können die Daten in drei Haupttypen kategorisiert werden:
- Betriebsrückmeldedaten: Produktionsanlagen erzeugen kontinuierlich Datenströme, die den aktuellen Zustand der Maschinen, den Materialfluss und den Produktionsfortschritt widerspiegeln. Dies ist eine Folge der Integration von Sensoren, IoT-Geräten und MES. [13]
- Historische Daten: Um RL-Modelle zu trainieren und zu validieren, sind umfangreiche Archive vergangener Produktionsprozesse notwendig. Zu den historischen Daten gehören vor allem Produktionsprotokolle mit Informationen über Planwerte, Bearbeitungszeiten und Kapazitäten. [11, 14]
- Kontext und Metadaten: Neben numerischen Daten sind Informationen über Produktionspläne, Auftragsprioritäten, Ressourcenverfügbarkeit und andere organisatorische Parameter von entscheidender Bedeutung. Diese Kontextdaten, die häufig aus ERP-Systemen stammen, bilden den Rahmen für die Interpretation von Produktionsdaten. [15]
Die Leistung eines RL-Agenten ist eng mit der Qualität der verfügbaren Daten verbunden. Unvollständige oder inkonsistente Datensätze können zu Fehlinterpretationen und fehlerhaften Lernprozessen führen. Daher müssen Qualitätssicherungsprozesse implementiert werden, um die Entscheidungen des RL-Agenten auf Plausibilität und Vollständigkeit zu überprüfen [9, 11]. Dies erfordert den Einsatz moderner Datenpipelines, die in der Lage sind, große Datenmengen schnell zu verarbeiten [16].
Die Vielfalt der Datenformate aus unterschiedlichen Quellen stellt dabei eine große Herausforderung bei der Aufbereitung heterogener Daten in einem standardisierten Format dar. Data Lakes und standardisierte ETL-Prozesse (Extract, Transform, Load) ermöglichen dabei eine effiziente Aggregation und Vorverarbeitung. [3, 11]
Integration eines Reinforcement Learning-Agenten in die Produktion
Die Integration eines Reinforcement Learning (RL)-Agenten in die bestehende IT-Landschaft ist eine Voraussetzung für die Realisierung von Synergien zwischen traditionellen Systemen und modernen Algorithmen. Im Fokus stehen dabei vor allem MES und ERP-Systeme. Die wesentliche Aufgabe von MES ist die Echtzeitsteuerung und -überwachung von Produktionsprozessen [17]. Der RL-Agent muss direkt auf die vom MES bereitgestellten Daten zugreifen können [11, 17].
Darüber hinaus muss der Agent in der Lage sein, dem System durch Steuerbefehle Rückmeldung zu geben. ERP-Systeme sind darauf ausgelegt, unternehmensweite Daten zu verwalten, die über die Grenzen des Produktionsprozesses hinausgehen [17]. Die Integration und Kontextualisierung der Daten aus dem vorliegenden System sind eine essenzielle Voraussetzung für eine optimale Unterstützung des RL-Agenten. Die Entwicklung spezifischer Schnittstellen ist für die Realisierung einer bidirektionalen Kommunikation zwischen den Systemen erforderlich. Dies ermöglicht eine nahtlose Integration und effektive Zusammenarbeit. [18]
Umsetzungsfahrplan – Vom Konzept zur Praxis
Die erfolgreiche Einführung eines Reinforcement Learning (RL)-Agenten in der Produktionsplanung und -steuerung (PPS)-Praxis erfordert eine systematische Vorgehensweise, die sowohl technische als auch organisatorische Aspekte berücksichtigt. Im Folgenden wird ein detaillierter und praxisnaher Fahrplan skizziert, der Unternehmen von der konzeptionellen Planung über die Integration bis hin zur kontinuierlichen Optimierung eines RL-Agenten begleiten kann. Der hier dargelegte Ansatz gründet auf dem Cross Industry Standard Process for Data Mining, einem standardisierten Verfahren zur Durchführung von Data-Mining-Projekten, das in Fachkreisen einen hohen Stellenwert genießt [19]. Der schematische Aufbau und das Verfahren sind in Bild 3 dargestellt.

Vor der Entwicklung eines kundenspezifischen RL-Agenten müssen Unternehmen eine gründliche Bestandsaufnahme ihrer bestehenden IT- und Produktionssysteme vornehmen. Dazu gehört die Dokumentation der vorherrschenden Datenquellen (z. B. Echtzeit- und Kontextdaten) und der verwendeten Schnittstellen für MES und ERP-Systeme. Darüber hinaus ist es unerlässlich, quantifizierbare Key Performance Indicators (KPIs) festzulegen, mit denen die Wirksamkeit des RL-Agenten effektiv bewertet werden kann [9].
Der nächste Schritt im Prozess ist die Konsolidierung der erforderlichen Datenquellen. Die Gewährleistung der Qualität und Konsistenz der Daten ist von höchster Relevanz. Zu diesem Zweck empfiehlt sich die Implementierung automatisierter Testverfahren und Datenbereinigungsprozesse [11, 14].
Voraussetzung für die Integration des RL-Agenten in die Produktion ist die Erstellung eines Digitalen Zwillings oder Simulationsmodells der Produktionsanlage. Diese ermöglichen ein risikoloses Testen und Trainieren des Agenten unter simulierten Produktionsbedingungen. Es wird eine realitätsgetreue Umgebung kreiert, in der der RL-Agent eine iterative Lernprozedur durchläuft und seine Entscheidungsstrategien verfeinern kann [4, 11]. In dieser Phase wird das erste Training in der Simulation eingeleitet, in der der Agent zunächst mit historischen und simulierten Echtzeitdaten konfrontiert wird.
Dieser Prozess ermöglicht die Entwicklung grundlegender Entscheidungsstrategien. Mittels systematischer Auswertungen und Verfeinerungen erfolgt eine kontinuierliche Weiterentwicklung des Modells. Nach Abschluss der ersten Trainingseinheiten erfolgt eine schrittweise Integration von Echtzeitdaten. Übergänge zur produktiven Umgebung werden durch inkrementelle Bewertungen nachgebildet, und das Modell wird gegen Unwägbarkeiten abgesichert.
Die gegebene Interoperabilität befähigt den Agenten dazu, Entscheidungen auf der Grundlage von Echtzeit-Feedback zu treffen und gleichzeitig relevante Daten an das übergeordnete System zurückzuspielen [17]. Es wird empfohlen, den RL-Agenten vor einer umfassenden Implementierung in einer Pilotphase in einem kontrollierten Bereich einzusetzen.
In dieser Phase erfolgt die Validierung der Funktionalität des Systems unter realen Bedingungen, während gleichzeitig die Aspekte Sicherheit, Datenschutz und Leistung unter realen Einsatzbedingungen überwacht und bewertet werden. Nach erfolgter Integration ist eine kontinuierliche Überwachung unerlässlich. Dies impliziert die Beobachtung der Leistung des RL-Agenten, seiner Entscheidungen und der Auswirkungen dieser Entscheidungen auf die Produktionsprozesse.
Nach Abschluss der zuvor genannten sechs Schritte kann die Realisierung eingeleitet werden. Der Terminus „Realisierung“ wird in diesem Zusammenhang als die praktische Umsetzung der betrachteten PPS-Aufgaben definiert. Es sei darauf hingewesen, dass die in Bild 3 dargestellte schematische Abfolge der einzelnen Schritte nicht als singulärer, einmaliger Vorgang zu interpretieren ist.
Vielmehr ist es ein wiederkehrender Prozess, der wiederholt ausgeführt und an neue Bedingungen im Produktionsprozess angepasst werden muss. Das System sollte so konzipiert sein, dass es kontinuierlich Wissen aus neuen Daten und Rückmeldungen gewinnt. Die Einrichtung von Rückkopplungsschleifen zwischen Produktion, Informationstechnologie und den Entwicklern des RL-Agenten ermöglicht die Durchführung von Anpassungen und die kontinuierliche Optimierung des Modells.
Die Implementierung eines RL-Agenten bedingt demnach eine Modifikation der Arbeitsabläufe und die Aneignung neuer Kompetenzen. Die Bereitstellung von Ressourcen für Aus- und Weiterbildungsmaßnahmen ist folglich eine Aufgabe, die dem Unternehmen obliegt. Das Ziel solcher Initiativen besteht darin, den Mitarbeitern den Erwerb von Kompetenzen im Umgang mit der neuen Technologie zu erleichtern und gleichzeitig Bedenken und Hemmungen abzubauen, die bei der Einführung neuer Methoden auftreten können.
Dieser Ansatz fördert nicht nur die Akzeptanz, sondern auch den langfristigen Erfolg. Diese Roadmap bietet Unternehmen einen strukturierten Ansatz für den erfolgreichen Übergang von der konzeptionellen Planungsphase zum produktiven Einsatz eines RL-Agenten in der PPS. Durch die systematische Berücksichtigung von technischen, organisatorischen und sicherheitsrelevanten Aspekten ist es Unternehmen möglich, Risiken zu minimieren und nachhaltige Wettbewerbsvorteile zu erzielen.
Herausforderungen und Aussichten
Die Implementierung einer ganzheitlichen Dateninfrastruktur für Reinforcement Learning (RL) in der Produktionsplanung und -steuerung (PPS) ist mit zahlreichen Herausforderungen verbunden. Ein wesentlicher Aspekt ist dabei die Tatsache, dass relevante Daten oft in isolierten Systemen gespeichert sind, die nicht effektiv miteinander kommunizieren. Um diese Silos zu überwinden, sind nicht nur technische, sondern auch organisatorische Maßnahmen erforderlich, um eine unternehmensweite Datenintegration zu erreichen. In Produktionsumgebungen treten hohe Datenmengen und wechselnde Belastungen auf. Die Dateninfrastruktur ist daher so zu gestalten, dass sie eine flexible Skalierbarkeit gewährleistet und zur Bewältigung von Lastspitzen beiträgt.
Um dieser Herausforderung zu begegnen, bedarf es verteilter Datenbanksysteme und Cloud-Lösungen, die eine hohe Verfügbarkeit und Leistung garantieren. Eine weitere Herausforderung besteht in der Notwendigkeit der interdisziplinären Zusammenarbeit, um derartige Projekte erfolgreich umzusetzen und in den Produktionsprozess eines Unternehmens zu integrieren. Die Grundlage für den Erfolg von RL-Projekten in der PPS ist demnach eine enge Zusammenarbeit von Data Scientists, IT-Spezialisten, Produktionslogistikern und Sicherheitsbeauftragten. Die Integration und Sicherheit der Daten stellen eine Herausforderung dar, die durch einen interdisziplinären Ansatz bewältigt werden muss.
Die Implementierung eines RL-Agenten sollte als kontinuierlicher Prozess und nicht als einmaliges Unterfangen betrachtet werden, da sie die laufende Bereitstellung von Ressourcen erfordert. Eine hohe Flexibilität der Dateninfrastruktur ist daher essentiell, um zukünftigen Anforderungen, technologischen Fortschritten und sich entwickelnden Produktionsprozessen gerecht zu werden. Regelmäßige Evaluierungen und Aktualisierungen sind folglich unabdingbar. Zusammenfassend lässt sich die Schlussfolgerung ziehen, dass die Implementierung von RL in der PPS eine robuste und zukunftssichere Dateninfrastruktur erfordert. Die Bereitstellung hochwertiger Echtzeit- und historischer Daten sowie die nahtlose Integration in bestehende MES- und ERP-Systeme sind dabei wesentliche Voraussetzungen.
Der Einsatz moderner Technologien, wie Digitaler Zwillinge und fortschrittlicher Datenvorverarbeitung, ermöglicht es Unternehmen, die Leistungsfähigkeit ihrer Produktionssysteme nachhaltig zu steigern und sich somit langfristige Wettbewerbsvorteile zu sichern. Die interdisziplinäre Zusammenarbeit sowie der kontinuierliche Ausbau der Dateninfrastruktur sind hierbei von entscheidender Bedeutung für den Erfolg in einer zunehmend digitalisierten und vernetzten Industrieumgebung.
In Verbindung mit den untersuchten Kontexten lässt sich diese Aussage auf eine Vielzahl von KI-Lösungen übertragen. Die zuvor skizzierte Vision von „AutoPPS“ findet in dieser Konstellation ihre Bestätigung. Um dieses Ziel zu erreichen, wird eine ganzheitliche Herangehensweise empfohlen, bei der die Interaktionen, Informations- und Materialflüsse in der Produktionslogistik berücksichtigt werden.
In diesem Zusammenhang lässt sich das Ziel der Automatisierung der gesamten PPS visionär formulieren. Die Realisierung dieses Vorhabens kann durch die Automatisierung und Verknüpfung aller PPS-Aufgaben erfolgen. Als einheitliche Grundlage wird in diesem Zusammenhang das Hannoveraner Lieferkettenmodell als Rahmenwerk empfohlen.
Gefördert durch die Deutsche Forschungsgemeinschaft (DFG) – SFB 1153.
Dies ist ein Originalbeitrag. Die englische Übersetzung finden Sie unter der DOI: 10.30844/I4SE.25.5.84
Literatur
[1] Mrugalska, B.; Wyrwicka, M.K.: Towards Lean Production in Industry 4.0. Procedia Engineering 182 (2017), 466–473.[2] Mütze, A.; Lucht, T.; Nyhuis, P.: Logistics-Oriented Production Configuration Using the Example of MRO Service Providers. In: IEEE Access 10 (2022), S. 20328–20344.
[3] Altenmüller, T.; Stüker, T.; Waschneck, B.; Kuhnle, A.; Lanza, G.: Reinforcement learning for an intelligent and autonomous production control of complex job-shops under time constraints. In: Production Engineering 14 (2020) 3, S. 319–328.
[4] Panzer, M.; Bender, B.: Deep reinforcement learning in production systems: a systematic literature review. In: International Journal of Production Research 60 (2022) 13, 4316–4341.
[5] Nyhuis, P.; Wiendahl, H.-P.: Logistische Kennlinien: Grundlagen, Werkzeuge und Anwendungen. Berlin 2012.
[6] Schmidt, M.; Nyhuis, P.: Produktionsplanung und -steuerung im Hannoveraner Lieferkettenmodell: Innerbetrieblicher Abgleich logistischer Zielgrößen. Berlin 2021.
[7] Sui, X.; Jiao, S.; Wang, Y.; Wang, H.: Digital transformation and manufacturing company competitiveness. In: Finance Research Letters 59 (2024), 104683.
[8] Zhang, Q.; Li, S.; Li, Z.; Xing, Y.; Yang, Z.; Dai, Y.: CHARM: A Cost-Efficient Multi-Cloud Data Hosting Scheme with High Availability. In: IEEE Transactions on Cloud Computing 3 (2015) 3, S. 372–386.
[9] Wang, Y.-C.; Usher, J.M. Application of reinforcement learning for agent-based production scheduling. In: Engineering Applications of Artificial Intelligence 18 (2005) 1, S. 73–82.
[10] Hiller, T.; Demke, T.M.; Nyhuis, P.: Throughput Time Predictions Along the Order Fulfilment Process. In: IEEE Access 12 (2024), S. 9705–9718.
[11] Brunton, S.L.; Kutz, J.N.: Data-Driven Science and Engineering. Cambridge 2019.
[12] Stricker, N.; Kuhnle, A.; Sturm, R.; Friess, S.: Reinforcement learning for adaptive order dispatching in the semiconductor industry. In: CIRP Annals 67 (2018) 1, S. 511–514.
[13] Peschke, F.; Eckardt, C.: Flexible Produktion durch Digitalisierung: Entwicklung von Use Cases. München 2019.
[14] Kaelbling, L.P.; Littman, M.L.; Moore, A.W.: Reinforcement Learning: A Survey. In: Journal of Artificial Intelligence Research 4 (1996), S. 237–285.
[15] Pistorius, J.: Industrie 4.0 – Schlüsseltechnologien Für Die Produktion: Grundlagen, Potenziale und Anwendungen. Berlin 2020.
[16] Jordan, M.I.; Mitchell, T. M.: Machine learning: Trends, perspectives, and prospects. In: Science 349 (2015) 6245, S. 255–260.
[17] Berić, D.; Stefanović, D.; Lalić, B.; Ćosić, I.: The Implementation of ERP and MES Systems as a Support to Industrial Management Systems. In: International Journal of Industrial Engineering and Management 9 (2018) 2, S. 77–86.
[18] Tao, F.; Qi, Q.; Liu, A.; Kusiak, A.: Data-driven smart manufacturing. In: Journal of Manufacturing Systems 48 (2018), S. 157–169.
[19] Wirth, R.; Hipp, J.: CRISP-DM: Towards a standard process model for data mining. In: Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining, 1 (2000), S. 29–39.
Ihre Downloads
Lösungen: Produktionssteuerung
