Implementierung einer Anwendung zur Abwicklung einer Stichprobeninventur auf der Basis maschineller Lernverfahren

Aus Winfwiki

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

1 Einleitung

Unternehmen sind aufgrund von handels- und steuerrechtlichen Vorschriften dazu verpflichtet, jährlich eine Inventur durchzuführen. Aus Unternehmenssicht stellt die Durchführung einer Inventur einen Prozess dar, der insbesondere hohe Personalkosten verursacht. Des weiteren ist die Durchführung einer Inventur häufig mit einer Unterbrechung der betrieblichen Arbeitsabläufe verbunden, die zu einer Verringerung der Produktions- und Umsatzergebnisse führen kann. Aus diesem Grund hat der Gesetzgeber mit der Implementierung der Inventurvereinfachungsverfahren den Unternehmen die Möglichkeit eröffnet, die Kosten für die Durchführung einer Inventur zu senken. Dabei sind in der Praxis insbesondere die Stichprobeninventurverfahren von Bedeutung. Bei diesen Verfahren erfolgt die Auswahl der aufzunehmenden Vermögensgegenstände nach dem Zufallsprinzip. Gleichzeitig wird durch den Einsatz mathematisch-statistischer Verfahren die Anzahl der aufzunehmenden Vermögensgegenstände erheblich reduziert. Durch diese Verringerung des Inventuraufwandes können die durch eine Inventur verursachten Kosten sichtbar reduziert werden. Bei dieser Vorgehensweise besteht jedoch die Gefahr, dass eventuelle Bestandsdifferenzen nicht aufgedeckt werden, da eine selektive und unvollständige Bestandsaufnahme der Vermögensgegenstände erfolgt. Häufig werden diese Bestandsdifferenzen erst zu einem späteren Zeitpunkt im laufenden Geschäftsbetrieb sichtbar, wodurch im betrieblichen Prozess Zusatzkosten entstehen können. Zur Vermeidung dieser Zusatzkosten sollte das Ziel darin bestehen, die Vermögensgegenstände zu identifizieren, die wahrscheinlich eine Bestandsdifferenz aufweisen, um sie dann im Rahmen einer Stichprobeninventur zusätzlich körperlich aufzunehmen. Zur Identifizierung dieser Vermögensgegenstände bietet sich der Einsatz maschineller Lernverfahren an. Diese Verfahren sind u.a. darauf spezialisiert, auf Basis von Daten vergangener Inventuren ein allgemeines Modell abzuleiten, welches die Klassifikation von Vermögensgegenständen in fehlerfrei und fehlerhaft ermöglicht.

Ziel dieser Arbeit ist es, eine Software zu entwickeln, die die Abwicklung einer Stichprobeninventur unter Einbeziehung der wahrscheinlich fehlerhaften Vermögensgegenstände ermöglicht. Dabei erfolgt die Identifikation dieser Vermögensgegenstände auf der Basis maschineller Lernverfahren.


Die zur Erstellung der Softwarelösung benötigten theoretischen Grundlagen werden in den Kapiteln 2 – 4 erörtert. In Kapitel 2 erfolgt zunächst eine Darstellung der traditionellen Inventurformen sowie deren gesetzlichen Grundlagen. In Kapitel 3 wird das Wesen der Stichprobeninventur beschrieben. Dieses beinhaltet sowohl eine detaillierte Darstellung der Anforderungen an eine Stichprobeninventur als auch die Beschreibung des für die Softwarelösung benötigten mathematisch-statistischen Stichprobenverfahrens. Kapitel 4 umfasst die Grundlagen maschineller Lernverfahren. Dabei wird der Schwerpunkt auf die Klassifikationsverfahren gelegt, die einen wesentlichen Bestandteil der zu entwickelnden Software darstellen.

In Kapitel 5 erfolgt die Konzeption der Stichprobeninventur auf Basis maschineller Lernverfahren. Dabei werden insbesondere verfahrenstechnische Abläufe sowie die gesetzlichen Anforderungen an das beschriebene Verfahren berücksichtigt. Der im Rahmen dieses Konzeptes beschriebene Ablauf bildet die Grundlage für die in Kapitel 6 beschriebene Implementierung. Hier erfolgt zunächst eine Darstellung der aus dem Konzept abgeleiteten benötigten Software – Funktionen. Auf Basis der definierten Funktionen wird im Anschluss daran der Entwurf der Software-Lösung vorgenommen. Abschließend wird der Einsatz der entwickelten Software am Beispiel realer Daten eines Industrieunternehmens der Zerspanungsindustrie demonstriert.


2 Die Inventur

Für den sowohl im Schrifttum als auch in der Praxis vielfach verwendeten Begriff der Inventur existiert keine einheitliche Definition. Nach der häufig verwendeten Begriffsdefinition von Kalveram wird unter dem Begriff der Inventur „das genaue Aufzeichnen aller Vermögensgegenstände (Grundstücke, Maschinen, Lagerbestände, Bargeld, Buchforderungen usw.) und aller Schulden (Wechsel-, Grund-, Lieferantenschulden usw.), die zu einem bestimmten Zeitpunkt in einem Unternehmen vorhanden sind“, verstanden[1]. Abweichend von dieser allgemeinen Definition wird der Inventurbegriff noch im engeren Sinne gebraucht: zum einen wird unter „Inventur“ die körperliche Bestandsaufnahme durch Zählen, Wiegen, Messen oder Schätzen verstanden[2]. Zum anderen wird dieser Begriff auf die Erfassung von Vorratsvermögen beschränkt[3]. Nach dem Gliederungsschema der Bilanz für Kapitalgesellschaften (§ 266 HGB) werden hierunter folgende Positionen verstanden:

  • Roh-, Hilfs- und Betriebsstoffe
  • Unfertige Erzeugnisse, unfertige Leistungen
  • Fertige Erzeugnisse und Waren
  • Geleistete Anzahlungen

Der Begriff der Vorratsinventur im engeren Sinne schließt die Bilanzposten „Unfertige Leistungen“ und „Geleistete Anzahlungen“ aus, da sich die Erfassung dieser beiden Positionen eher nach den Grundsätzen, die für Forderungen gelten, richtet[4]. Im Rahmen dieser Arbeit soll der Inventurbegriff im Sinne dieser engeren Definition verwandt werden.

Aufgrund der Tatsache, dass für den Begriff der Inventur bis heute keine Legaldefinition existiert[5], besteht hinsichtlich der betriebswirtschaftlichen Bedeutung des Inventurbegriffs Ungewissheit[6], so dass der Begriff der Inventur sowie seine Bedeutung für die Praxis und die sich daraus ergebenden rechtlichen und betriebswirtschaftlichen Konsequenzen Gegenstand zahlreicher Publikationen sind[7]. Der Hauptfachausschuss des Instituts der Wirtschaftsprüfer e.v. (HFA IDW) hat mit seinen Stellungnahmen HFA 1/1981 („Stichprobenverfahren für die Vorratsinventur zum Jahresabschluss“) bzw. HFA 1/990 („Zur körperlichen Bestandsaufnahme im Rahmen von Inventurverfahren“) Verlautbarungen erlassen, die zwar keine gesetzliche Norm darstellen, jedoch eine faktische bedeutende Wirkung für die Mitglieder der Wirtschaftsprüferkammer besitzen[8]. So sollte ein Wirtschaftsprüfer nur aus gewichtigen Gründen von den Grundsätzen dieser Verlautbarungen abweichen. Aufgrund der sich daraus ergebenden Praxis – Relevanz der Stellungnahmen des HFA beschränken sich die Ausführungen in den folgenden Kapitel im wesentlichen auf die Veröffentlichung dieser Institution.

2.1 Gesetzliche Inventurpflicht

Im Handelsgesetzbuch ist keine explizite Vorschrift über die Inventur kodifiziert. Die Verpflichtung zur Inventurdurchführung resultiert vielmehr aus § 240 Abs. 1 und 2 HGB[9]:

  1. „Jeder Kaufmann hat zu Beginn seines Handelsgewerbes seine Grundstücke, seine Forderungen und Schulden, den Betrag seines baren Geldes sowie seine sonstigen Vermögensgegenstände genau zu verzeichnen und dabei den Wert der einzelnen Vermögensgegenstände und Schulden anzugeben.
  2. Er hat demnächst für den Schluss eines jeden Geschäftsjahrs ein solches Inventar aufzustellen. Die Dauer des Geschäftsjahres darf zwölf Monate nicht überschreiten. Die Aufstellung des Inventars ist innerhalb der einem ordnungsmäßigen Geschäftsgang entsprechenden Zeit zu bewirken.“

Das o.g. Gesetz orientiert sich am Begriff des Inventars, der Begriff der Inventur wird nicht explizit erwähnt. Hierzu stellte der HFA des IDW fest, dass davon ausgegangen werden kann, dass der Gesetzgeber die körperliche Aufnahme von Sachgegenständen als Voraussetzung zur Erstellung des Inventars angesehen hat[10]. Dabei ist für folgende Ansicht des IDW für das Vorratsvermögen eine jährliche Inventur durchzuführen[11]. Hingegen besteht für das Sachanlagevermögen die Pflicht zur körperlichen Aufnahme nur dann, wenn die Bestandszuverlässigkeit der Anlagekartei, in der die Anlagegegenstände samt Zu- und Abgängen sowie Umbuchungen verzeichnet werden, nicht gegeben ist[12].

Auch aus steuerrechtlicher Sicht lässt sich die Pflicht zur Durchführung einer Inventur ableiten. So wird in §140 AO festgelegt, dass Buchführungs- und Aufzeichnungspflichten, die sich aufgrund anderer Gesetze ergeben, auch im Rahmen der Besteuerung zu erfüllen sind. Somit ist z.B. die für Kaufleute handelsrechtlich vorgeschriebene Aufstellung eines Inventars (und damit die Pflicht zur Durchführung einer Inventur) auch aus steuerrechtlicher Sicht zu leisten. In §141 AO wird die Buchführungspflicht für Gewerbetreibende und Land- und Forstwirte auf den einzelnen Betrieb ausgedehnt. Dabei wird in §141 Abs. 1 Satz 2 auf die Gültigkeit der HGB – Vorschriften §§238, 240 – 242 Abs. 1 und §§243 - 256 verwiesen. In § 141 AO wird somit indirekt die Pflicht zur Durchführung einer Inventur pro Betrieb vorgeschrieben.

2.2 Grundsätze ordnungsgemäßer Inventur

Im Schrifttum wird aufgrund der Bedeutung der Inventur als Bestandteil der Rechnungslegung die Notwendigkeit sowie die Herleitung der Grundsätze ordnungsgemäßer Inventur (GoI) diskutiert[13]. Dabei werden die GoI als Teilbereich der im Gesetz verankerten[14] aber nicht vollständig kodifizierten Grundsätze ordnungsgemäßer Buchführung (GoB) verstanden[15]:


In Anlehnung an [QUIC07, S. 13]

Abbildung 1: Grundsätze ordnungsgemäßer Buchführung


Aufgabe der GoB ist es, die gesetzlichen Einzelvorschriften zu konkretisieren und zu ergänzen, da nicht alle Tatbestände der Rechnungslegung durch handelsrechtliche Vorschriften detailliert geregelt sind und auch nicht vom Gesetzgeber umfassend geregelt werden können. In diesem Zusammenhang dienen die GoD zur Sicherung der Aufzeichnung aller buchungspflichtigen Geschäftsvorfälle[16]. Die GoBil sollen gewährleisten, dass der Jahresabschluss vollständig, inhaltlich richtig sowie klar und übersichtlich aufgestellt wird[17]. Die GoI sollen sicherstellen, dass die Vermögensgegenstände vollständig, richtig, nachprüfbar und einzeln erfasst werden[18]. In der Stellungnahme HFA 1/1990 heißt es hierzu:

  1. Vollständigkeit der Bestandsaufnahme
    Nach dem Grundsatz der Vollständigkeit sind die Bestände sämtlicher Vermögensgegenstände und Schulden, die in die Bilanz nach § 246 Abs. 1 HGB aufzunehmen sind, im Inventar zu erfassen[19].
  2. Richtigkeit der Bestandsaufnahme
    Die zu erfassenden Bestandspositionen sind sind nach Art und Menge zutreffend festzustellen. Alle Informationen, die für die Bewertung dieser Bestände notwendig sind, müssen identifiziert und erfasst werden[20].
  3. Einzelerfassung der Bestände
    Die Bestände müssen nach dem in § 252 Abs. 1 Nr. 3 kodifizierten Grundsatz der Einzelerfassung nach Art und Menge und Beschaffenheit einzeln erfasst werden. Ausnahmen von diesem Grundsatz ergeben sich nach § 240 Abs. 3 und 4 HGB (Festbewertung und Gruppenbewertung)[21].
  4. Nachprüfbarkeit der Bestandsaufnahme
    Die Bestandsaufnahme muss dokumentiert und aufbewahrt werden. Die Dokumentation muss in Anlehnung an §§ 238 und 239 HGB einem sachverständigen Dritten innerhalb angemessener Zeit einen Überblick über die Bestände nach Art, Menge und Beschaffenheit vermitteln können[22].

2.3 Inventursysteme und Inventurverfahren

Inventuren können grundsätzlich anhand zweier Kriterien systematisiert werden. Teilt man Inventuren nach dem Kriterium „Zeitpunkt bzw. Zeitraum der Bestandsaufnahme“ ein, so spricht man von Inventursystemen. Dagegen bestimmt das Kriterium „Art und Weise der Bestandsaufnahme“ das Inventurverfahren für die einzelnen Inventurarten:


In Anlehnung an [QUIC07, S. 24]

Abbildung 2: Inventursysteme und Inventurverfahren


Im Rahmen der Inventurdurchführung müssen nach § 240 Abs. 1 HGB die Vermögensgegenstände und Schulden erhoben werden. Dabei kommen primär drei Inventurverfahren zur Anwendung:

  1. Körperliche Inventur
    Im Rahmen der körperlichen Inventur erfolgt die Aufnahme der einzelnen Vermögensgegenstände durch Zählen, Messen, Wiegen oder Schätzen[23]. Bei der lückenlosen Inventur werden die Vermögensgegenstände vollständig, bei der Stichprobeninventur nur teilweise erfasst[24].
  2. Buchinventur
    Bei der Buchinventur erfolgt die Ermittlung der Vermögensgegenstände und Schulden nach Art, Menge und Wert auf Basis der Buchführung[25]. Sie ist für immaterielle Vermögensgegenstände, bei Rechten sowie Forderungen und Verbindlichkeiten der einzige durchführbare Aufnahmetechnik[26].
  3. Bestandsaufnahme anhand von Dokumenten
    Diese Form der Bestandsaufnahme erfolgt bei Vermögensgegenständen, die nicht zugänglich sind, wie z.B. unterwegs befindliche oder bei Dritten eingelagerte Ware. Zur Bestandsaufnahme werden dabei Dokumente wie Lagerscheinen, Rechnungen, Frachtbriefen etc. herangezogen.

2.4 Inventurformen

Eine Inventurform umfasst jeweils eine Kombination aus einem bestimmten Inventursystem und einem bestimmten Inventurverfahren. So ist z.B. die traditionelle Inventur durch die Verknüpfung des Inventursystems „Stichtagsinventur“ mit dem Inventurverfahren „vollständigen körperliche Inventur“ gekennzeichnet.

Grundsätzlich lassen sich aber auch zeitliche und mengenmäßige Vereinfachungen miteinander verbinden, wie z.B. in der Inventurform der permanenten Stichprobeninventur“[27].

Für die nachfolgende Darstellung der gängigen Inventurformen wird das jeweils angesprochene Inventursystem mit dem Inventurverfahren der körperlichen Inventur kombiniert.

2.4.1 Stichtagsinventur

Bei dieser traditionellen Form der Inventur erfolgt eine vollständige körperliche Bestandsaufnahme am Bilanzstichtag. Sie gilt als besonders zuverlässige Inventurform[28], da

  1. eine physische Bestandskontrolle aller Vermögensgegenstände erfolgt
  2. durch das Zusammenfallen von Inventur- und Abschlussstichtag buch- und belegmäßige Fehler aufgrund von Wertfortschreibungs- und/oder Wertrückrechnungen ausgeschlossen sind[29].

Die Pflicht zur Durchführung einer Stichtagsinventur in Form der körperlichen Bestandsaufnahme besteht zum einen immer dann, wenn die für die Buchinventur erforderlichen Unterlagen nicht vorhanden sind[30]. Zum anderen besteht diese Pflicht bei solchen Beständen,

  • deren Buchmengen aufgrund einer fiktiven Schwung-, Abbrand-, Abfallrechnung bzw. durch Schätzung oder in anderer Weise durch Rückrechnung gewonnen werden;
  • die starker Bewegung und erfahrungsgemäß starken Mengendifferenzen und unkontrollierbaren Schwund unterliegen;
  • die besonders wertvoll und ohne erhebliche Schwierigkeiten aufnehmbar sind[31].

Kann die körperliche Bestandsaufnahme aus betrieblichen Gründen nicht am Inventurstichtag vorgenommen werden, so kann die Aufnahme im Rahmen einer ausgeweiteten Stichtagsinventur auch innerhalb einer Frist von zehn Tagen vor oder nach dem Bilanzstichtag durchgeführt werden[32].


In diesem Fall müssen die Bestandsveränderungen bis zum Bilanzstichtag oder ab dem Bilanzstichtag nach Art, Menge und Wert auf diesen fort geschrieben oder zurück gerechnet werden. Die entsprechenden Belege über die Einzelbewegungen sind Bestandteil der Inventurunterlagen[33].

2.4.2 Vereinfachte Formen der Inventur

Der Gesetzgeber hat in dem § 241 HGB („Inventurvereinfachungsverfahren“) der Tatsache Rechnung getragen, dass die körperliche Bestandsaufnahme aller Vermögensgegenstände zum Inventurstichtag mit z.T. erheblichen Nachteilen organisatorischer und kostenmäßiger Art verbunden ist:

Organisatorische Nachteile

  • Es muss qualifiziertes Personal organisiert und bereitgestellt werden.
  • Wird auf betriebsinterne Mitarbeiter zurückgegriffen, so müssen diese ihre laufenden Aufgaben unterbrechen, was zu Störungen des Betriebsablaufs führen kann.
  • Ist der Personalbedarf sehr hoch, kann für die Dauer der Inventur eine Betriebsschließung erforderlich sein, was organisatorische Probleme hinsichtlich der Geschäftsbeziehungen mit Kunden/Lieferanten nach sich ziehen kann.
  • Erfolgt die körperliche Aufnahme unter Zeitdruck, so kann dies die Genauigkeit der Aufnahme verringern, was letztendlich zu unerwünschten Inventurdifferenzen führt.

Kostenmäßige Nachteile:

  • Werden betriebsfremde Mitarbeiter zur Durchführung der Inventur herangezogen resultiert hieraus ein Anstieg der Personalkosten.
  • Ruht der Betrieb während der Bestandsaufnahme, so können keine Erträge erwirtschaftet werden. Durch eventuell entgangene Aufträge können in der Folge weitere Kosten entstehen.
  • Um den Betriebsablauf nicht zu blockieren, können bei Einsatz betriebsinterner Mitarbeiter Überstunden angeordnet werden, die in der Regel mit erhöhten Personalkosten verbunden sind.
  • Durch die Fixierung der Inventur auf einen Inventurstichtag ist es nicht möglich, die Inventur zu Zeiten geringer Beschäftigung oder niedriger Lagerbestände durchzuführen. Somit ist es nicht möglich, Einsparpotentiale hinsichtlich der Aufnahmekosten der Inventur auszunutzen.

Somit ist bei der Durchführung einer Stichtagsinventur insgesamt mit der Entstehung progressiver Kosten zu rechnen. Durch die ausgeweitete Stichtagsinventur können die angesprochenen Nachteile zwar gemildert, jedoch nicht vollständig beseitigt werden[34].

Im folgenden werden zunächst die einzelnen Inventurvereinfachungsverfahren erläutert bevor abschließend eine Beurteilung dieser Verfahren unter organisatorischen bzw. kostenmäßigen Gesichtspunkten vorgenommen wird.

2.4.2.1 Vor- oder nachverlegte Stichtagsinventur

Die in § 241 Abs. 3 HGB kodifizierte vor- oder nachverlegte Stichtagsinventur erlaubt ebenfalls eine zeitliche Verlagerung der Inventurdurchführung innerhalb eines Geschäftsjahres. Der Zeitraum wurde dabei auf drei Monate vor oder zwei Monate nach dem Bilanzstichtag festgelegt. Die Vermögensgegenstände müssen zum Inventurstichtag nach Art, Menge und Wert in einem besonderen Inventar aufgenommen werden. Der sich danach ergebende Gesamtwert des Bestands ist dann wertmäßig auf den Bilanzstichtag nach den GoB fort zuschreiben oder zurück zurechnen. Die Fortschreibung oder Rückrechnung muss in erster Linie nur wertmäßig vorgenommen werden, d.h. Art und Menge der Bestände können unberücksichtigt bleiben[35]. Aufgrund der Anwendung von Bewertungsvorschriften (Niederstwertprinzip, Inanspruchnahme steuerlicher Vergünstigungen) am Bilanzstichtag kann es hierbei allerdings zu Schwierigkeiten kommen, so dass ggf. doch Informationen über Art, Menge und Beschaffenheit der Bestandspositionen benötigt werden[36].

Aus diesem Grund empfiehlt das IDW, die Fortschreibung bzw. Rückrechnung nicht nur wertmäßig, sondern auch art- und mengenmäßig durchzuführen[37].

Die nachfolgende Abbildung erläutert das Prinzip der vor- oder nachverlegten Stichtagsinventur mit der jeweils durchzuführenden Wertfortschreibung oder -rückrechnung:


In Anlehnung an [Stue05, S. 59]

Abbildung 3: Prinzip der vor-/nachverlegten Stichtagsinventur


2.4.2.2 Permanente Inventur

Bei der permanenten Inventur handelt es sich um ein Inventurvereinfachungsverfahren, bei welchem der Bestand der Vermögensgegenstände nach Art, Menge und Wert ohne körperliche Bestandsaufnahme zum Bilanzstichtag festgestellt werden kann[38]. Dieses Verfahren ist dadurch gekennzeichnet, dass kein einheitlicher Inventurstichtag existiert, die Bestandsaufnahme kann zu unterschiedlichen Zeitpunkten innerhalb des Geschäftsjahres erfolgen[39]. Zum Bilanzstichtag werden die Bestände dann in der Regel nur aufgrund der Lagerbuchführung erfasst[40]. Somit handelt es sich bei der permanenten Inventur um eine Kombination aus einer buchmäßiger Erfassung zum Bilanzstichtag und einer körperliche Aufnahme, die sich über den gesamten dem Bilanzstichtag vorhergehenden Abrechnungszeitraum erstreckt[41].

Die Durchführung einer permanenten Inventur ist an folgende Bedingungen geknüpft:

  • Die Bestände dürfen keinen unkontrollierbaren Schwund unterliegen oder besonders wertvoll sein[42], da für diese Bestände die Bestandsaufnahme im Rahmen einer Stichtagsinventur erfolgen muss[43].
  • Die Lagerbuchführung muss ordnungsgemäß sein[44], d.h. alle Bestände, Zugänge sowie Abgänge müssen einzeln nach Tag, Art und Menge erfasst werden. Die Eintragungen müssen belegmäßig nachgewiesen werden[45].
  • Die Richtigkeit der Lagerbuchführung muss mindestens einmal pro Geschäftsjahr durch körperliche Aufnahme überprüft werden[46].
  • Die körperliche Bestandsaufnahme muss unter Angabe des Zeitpunkts und des Ergebnisses dokumentiert werden[47]. Da die Aufzeichnungen Inventurunterlagen darstellen und müssen als solche wie Handelsbücher zehn Jahre aufbewahrt werden[48].
  • Die Lagerbuchführung muss nach den Ergebnissen der körperlichen Bestandsaufnahme korrigiert werden[49].

2.4.2.3 Einlagerungsinventur

Bei der Einlagerungsinventur handelt es sich um eine Sonderform der permanenten Inventur, welche die Gegebenheiten vollautomatischer Lagersysteme berücksichtigt. Solche Lager zeichnen sich dadurch aus, dass alle Warenbewegungen vom Wareneingang bis zum Warenausgang durch automatische Arbeitsgeräte besorgt werden[50]. Herkömmliche Inventurformen können in einem solchen Lager nicht angewendet werden können, ohne den laufenden Betrieb zu blockieren[51]. Zudem sind die Bestände meist schwer zugänglich (Beispiel: vollautomatisches Hochregallager). Aus diesen Gründen kann bei einem vollautomatischen Lagersystem die körperliche Bestandsaufnahme im Rahmen der Einlagerung erfolgen, falls nachfolgende Voraussetzungen erfüllt sind[52]:

  • Das Lager ist im laufenden Betrieb nicht begehbar und Unbefugten nicht zugänglich.
  • Es besteht keine Zugriffsmöglichkeit vom Eingang ins Lager bis zum Lagerplatz
  • Jede Ein- bzw. Auslagerung muss automatisch in der Bestandsfortschreibung erfasst werden.
  • Bei jeder Auslagerung erfolgt eine vollständige Entleerung des Lagerplatzes
  • Bei jeder Einlagerung muss eine Leerplatzkontrolle erfolgen um Mehrfachbelegungen zu vermeiden
  • Bei jeder Einlagerung erfolgt eine körperliche Bestandsaufnahme entsprechend der GoI.
  • Zum Bilanzstichtag müssen Bestände, die innerhalb des Geschäftsjahres nicht bewegt wurden, aufgenommen werden.
  • Der gesamte Bestand muss zum Bilanzstichtag dokumentiert sein. Die Einlagerungsbelege gelten als Inventurunterlagen.

2.4.2.4 Systemgestützte Werkstattinventur

Bei der sog. systemgestützten Werkstattinventur handelt es sich um eine vereinfachte Form der Inventur, die in durch Datenverarbeitung gesteuerte Fertigungsabläufe (sog. PPS-Systeme) eingesetzt werden kann[53]. Unterstützen diese Systeme die mengenmäßige Erfassung der produzierten Teile auf Basis von Rückmeldungen, so kann auf eine körperliche Aufnahme zum Inventurstichtag verzichtet werden[54]. Stattdessen muss das PPS-System jedoch mindestens folgende Inventurdaten zur Verfügung stellen können: Artikelnummer, Auftragsnummer, Auftragseröffnungsdatum, zu produzierende Menge, bereits produzierte Menge (ohne Ausschuss), Rückmeldepunkte, Auftragsfortschritt entsprechend der Rückmeldung, außerplanmäßig fehlende Bauteile oder Stoffe[55].


Des weiteren muss die Bestandszuverlässigkeit des PPS-Systems durch umfangreiche interne Kontrollen sichergestellt werden. Die Kontrollen müssen sich dabei u.a. auf Zugriffsberechtigungen, Datensicherung, Überwachung von außerplanmäßigen Eingriffen und Überwachungsmaßnahmen bei Ausfall und Wiederanlauf des Systems beziehen[56].

Die systemgestützte Werkstattinventur und ihre Ergebnisse sind so dokumentieren, dass sie einem sachverständigen Dritten innerhalb einer angemessenen Zeit einen vollständigen Einblick in das angewendete Verfahren, Erkenntnisse über die Wirksamkeit der internen Kontrollen sowie über die Art, die Mengen und über die Beschaffenheit der mit Hilfe des Systems erfassten Bestände vermitteln kann[57]. Die entsprechenden Unterlagen sind Bücher im Sinne des HGB und damit den Inventurunterlagen beizufügen[58]. Für die Inventurzwecke reicht die Dokumentation der zum Inventurstichtag vorhandenen Aufträge aus[59].

2.4.2.5 Beurteilung der vereinfachten Formen der Inventur

Die bisher vorgestellten vereinfachten Formen der Inventur führen im Vergleich zur Stichtagsinventur lediglich zu einer zeitlichen Erleichterung der vollständigen Bestandsaufnahme, indem die Aufnahmearbeiten über einen längeren Zeitraum verteilt werden[60]. Hieraus resultiert in der Summe aber keine Reduktion der tatsächlich vorzunehmenden Inventurarbeiten[61]. Respektive werden durch die Anwendung der vereinfachten Inventurformen nur die in Abschnitt 2.4.2 dargestellten progressiven Kosten der Stichtagsinventur reduziert[62]. In diesem Zusammenhang stellt das Inventurverfahren der Stichprobeninventur ein Verfahren dar, das es erlaubt, die Inventur auf einen Teilbestand der Vermögensgegenstände zu beschränken[63]. In Folge der deutlich verringerten Anzahl an aufzunehmenden Positionen (maximal ca. 10 % aller Positionen der Grundgesamtheit[64]) lassen sich somit bei Anwendung der Stichprobeninventur erhebliche Einsparpotentiale realisieren.

So gaben im Rahmen einer empirischen Untersuchung 12 von 16 Unternehmen, die Stichprobeninventurverfahren im Unternehmen einsetzen, als Hauptgründe für den Einsatz eines solchen Verfahrens die Zeitersparnis (bis zu 50% bei der Inventuraufnahme) sowie die Personaleinsparungen (zwischen 50% und 70% Einsparung bei 10000 Lagerpositionen) an[65].

Die einer Stichprobeninventur zugrunde liegenden Anforderungen und Verfahren sind Teil der Grundlage des Konzepts der Stichprobeninventur auf Basis maschineller Lernverfahren (Kapitel 5). Aus diesem Grund erfolgt im folgenden Kapitel zunächst eine detaillierte Darstellung der Stichprobeninventur.


3 Stichprobeninventur

Bei der Stichprobeninventur wird die die vollständige körperliche Bestandsaufnahme durch eine teilweise körperliche Bestandsaufnahme ersetzt, da nur die Vermögensgegenstände aufgenommen werden, die Teil der Stichprobe sind. Dabei ist das Untersuchungsziel der Stichprobeninventur die Ermittlung eines Gesamtwertes einer Menge von Vermögensgegenständen unter Einhaltung vorgegebener Sicherheit und Genauigkeit. Dies kann zum einen durch Schätzung oder durch Test der Lagerbuchführung auf Ordnungsmäßigkeit erfolgen.

Der Einsatz eines Stichprobeninventurverfahrens ist an gesetzliche Voraussetzungen geknüpft, die durch Stellungnahmen des HFA des IDW ergänzt und konkretisiert werden. Aus diesem Grund werden zunächst die sich aus den gesetzlichen Vorgaben ergebenden Anforderungen an eine Stichprobeninventur dargestellt. Anschließend erfolgt eine Darstellung ausgewählter Stichprobenverfahren.

3.1 Anforderungen an die Stichprobeninventur

Die gesetzliche Grundlage der Stichprobeninventur ist in § 241 Abs. 1 HGB verankert:

„(1) Bei der Aufstellung des Inventars darf der Bestand der Vermögensgegenstände nach Art, Menge und Wert auch mit Hilfe anerkannter mathematisch-statistischer Methoden auf Grund von Stichproben ermittelt werden. Das Verfahren muss den Grundsätzen ordnungsmäßiger Buchführung entsprechen. Der Aussagewert des auf diese Weise aufgestellten Inventars muss dem Aussagewert eines auf Grund einer körperlichen Bestandsaufnahme aufgestellten Inventars gleichkommen.“

Hieraus lassen sich drei Anforderungen an die Stichprobeninventur ableiten:

  • Die Stichprobeninventur muss den Grundsätzen ordnungsgemäßer Inventur entsprechen.
  • Es müssen anerkannte mathematisch-statistische Methoden zum Einsatz kommen
  • Der Aussagewert einer Stichprobeninventur muss dem Aussagewert einer vollständigen körperliche Bestandsaufnahme gleichkommen (Aussageäquivalenz).

Diese drei Anforderungen haben im Schrifttum zu einer regen Diskussion darüber geführt[66],

  • wie die GoI der traditionellen Inventur auf die Stichprobeninventur übertragen werden können.
  • welche mathematisch-statistischen Methoden als anerkannt gelten
  • wie die Aussageäquivalenz herbeigeführt werden kann

Da die Anerkennung einer durchgeführten Stichprobeninventur durch die Finanzbehörde i.d.R. von der Einhaltung der Empfehlungen des HFA des IDW abhängt, erfolgt die weitere Beschreibung dieser Anforderungen im wesentlichen unter Berücksichtigung der Stellungnahmen dieser Institution.

Darüber hinaus ergeben sich weitere Anforderungen als Konsequenz aus der Anwendung mathematisch-statistischer Verfahren. Hierzu gehören Anforderungen

  • an die Grundgesamtheit
  • an die Definition der Stichprobenelemente

3.1.1 Vereinbarkeit mit den Grundsätzen ordnungs-gemäßer Inventur

Die Stichprobeninventur muss den Grundsätzen ordnungsgemäßer Buchführung genügen. Für die Durchführung der Inventur gelten die bereits in Abschnitt 2.2 diskutierten Grundsätze ordnungsgemäßer Inventur. Diese traditionelle Interpretation der Grundsätze ist unter Berücksichtigung der Besonderheiten der Stichprobeninventur entsprechend zu modifizieren:

  1. Vollständigkeit der Bestandsaufnahme

Aufgrund der Tatsache, dass bei einer Stichprobeninventur nur ein Teil des Vorratsvermögens körperlich aufgenommen wird, kann dieser Grundsatz nicht eingehalten werden. Im Bezug auf die Stichprobeninventur gilt die Bestandsaufnahme dann als vollständig, wenn alle Positionen der Grundgesamtheit die gleiche Chance besitzen, in die Stichprobe zu gelangen[67].

Des weiteren müssen alle Elemente der Stichprobe vollständig aufgenommen und ausgewertet werden. Die Auswertung aller dieser Elemente muss in das Stichprobenergebnis eingehen[68].# Richtigkeit der Bestandsaufnahme

Aufgrund der insgesamt weniger aufzunehmenden Positionen ist es sehr wahrscheinlich, dass die körperliche Aufnahme mit einer größeren Sorgfalt vorgenommen wird[69]. Im Ergebnis reduziert sich hierdurch die Wahrscheinlichkeit von Aufnahmefehlern, so dass die Forderung nach einem korrekten Ausweis der Positionen nach Art, Menge und Wert in Bezug auf die Stichprobenpositionen gegeben ist.# Einzelerfassung der Bestände

Ein Einzelnachweis kann nur für die körperlich aufgenommenen Stichprobenelemente erbracht werden. Da aber bei der Aufstellung des Inventars sämtliche Positionen nach Art , Menge und Wert einzubeziehen sind, können diese Informationen nur einer bestandszuverlässigen Lagerbuchführung entnommen werden[70].

Nach Ansicht des HFA des IDW ist die Bestandszuverlässigkeit gegeben, wenn die saldierte Gesamtabweichung zwischen dem Gesamtbuchwert der Lagerbuchführung und dem aufgrund der Stichprobe hoch gerechneten Gesamtinventurwert 2% des Gesamtbuchwertes nicht überschreitet[71].# Nachprüfbarkeit der Bestandsaufnahme
Die Dokumentation muss einen sachverständigen Dritten in die Lage versetzen, die aus der Stichprobeninventur resultierenden Bilanzansätze innerhalb eines vertretbaren Zeitraums und ohne große Mühe nachvollziehen zu können. Aus diesem Grund muss die Dokumentation folgende Punkte umfassen[72]:

  • angewendetes mathematisch-statistisches Verfahren
  • Definition der Grundgesamtheit
  • Auswahlverfahren zur Stichprobenziehung
  • Überleitung zum Bilanzansatz

3.1.2 Anerkannte mathematisch - statistische Verfahren

Als anerkanntes mathematisch-statistisches Verfahren kommt grundsätzlich jedes Stichprobenverfahren in Betracht, bei dem es sich um ein Zufallsstichprobenverfahren im Sinne der statistische Methodenlehre handelt[73]. Das Verfahren muss des weiteren den Grundsätzen ordnungsgemäßer Inventur genügen[74].

Die folgende Abbildung gibt einen Überblick über mögliche anerkannte Stichprobenverfahren:


Quelle: eigene Darstellung

Abbildung 4: Mögliche Stichprobenverfahren


3.1.2.1 Schätzverfahren

Mit Hilfe eines Schätzverfahrens wird der Gesamtwert der Grundgesamtheit auf Basis einer Stichprobe geschätzt. Dabei ist es möglich, die Genauigkeit des geschätzten wahren Inventurwertes mit Hilfe wahrscheinlichkeitstheoretischer Methoden der Intervallschätzung anzugeben[75].

Schätzverfahren können auf einfache, geschichtete oder größenproportionale Zufallsstichproben angewendet werden[76].

Bei der einfachen Zufallsstichprobe hat jedes Element der Grundgesamtheit die gleiche, angebbare, von Null verschiedene Wahrscheinlichkeit in die Stichprobe zu gelangen[77]. Bei einer geschichteten Zufallsstichprobe wird die Grundgesamtheit zunächst in mehrere Teilbereiche (Schichten) zerlegt[78]. Anschließend wird aus jeder Schicht eine Stichprobe entnommen. Damit hat jedes Element der Grundgesamtheit eine angebbare von Null verschiedene, allerdings nicht notwendigerweise gleiche Wahrscheinlichkeit in die Stichprobe zu gelangen[79]. Bei größenproportionalen Stichproben erfolgt die Auswahl der Elemente proportional zu ihrem Wert, vorausgesetzt, es liegen Informationen über die Größenproportionen der Elemente vor[80].

Die Einteilung in freie und gebundene Verfahren bringt die unterschiedliche Vorgehensweise bei der Schätzung bzw. Hochrechnung zum Ausdruck[81]. Bei den freien Verfahren werden nur die Inventurwerte der vollständig erhobenen Stichprobenelemente bei der Schätzung berücksichtigt. Bei den gebundenen Verfahren werden zusätzlich noch die dazugehörigen Buchwerte mit einbezogen[82].

3.1.2.2 Testverfahren

Mathematisch-statistische Testverfahren werden dazu angewendet, um anhand von Stichproben Hypothesen über die tatsächlichen Parameter (wie z.b. Inventurgesamtheit, mittlere Inventurdifferenz) einer Grundgesamtheit zu testen.

Dabei können sie sowohl bei homograder als auch bei heterograder Fragestellung zur Anwendung kommen. Bei homograder Betrachtung werden sich ausschließende qualitative, nominal skalierte Merkmalsausprägungen untersucht (z.B. „richtig“ oder „falsch“). Die heterograde Fragestellung betrachtet hingegen kardinal skalierte Merkmalsausprägungen (z.B. Vorratswerte)[83].

Bei einem Hypothesentest wird die zu prüfende Ausgangshypothese als sog. Nullhypothese formuliert. Dabei muss die Nullhypothese bei allen Testverfahren so spezifiziert werden, dass sie die tatsächliche Fehlerwartung widerspiegelt, bei der im Falle der Stichprobeninventur die Lagerbuchführung noch als ordnungsgemäß akzeptiert werden kann[84]. Im Rahmen der Testentscheidung, die auf Basis einer zuvor bestimmten Stichprobe gefällt wird, wird diese Hypothese entweder verworfen oder angenommen.

Aufgrund des Zufallscharakters der Stichprobenziehung bestehen hinsichtlich der gefällten Testentscheidung grundsätzlich zwei Fehlerrisiken. Bei dem sog. Fehler erster Art (α-Fehler) wird die Nullhypothese irrtümlich verworfen, obwohl diese in Bezug auf die Grundgesamtheit tatsächlich richtig ist. Bei dem Fehler zweiter Art (β-Fehler) wird hingegen die Nullhypothese angenommen, obwohl sie tatsächlich falsch ist. Ein bei einer Stichprobeninventur begangener α-Fehler (die irrtümliche Ablehnung der Lagerbuchführung) wird durch die notwendigerweise durchzuführende Vollinventur aufgedeckt.

Der β-Fehler (die fälschliche Annahme der Lagerbuchführung) wiegt hingegen für das Unternehmen schwerer, da die Aufdeckung dieses Fehlers nicht ohne weiteres möglich ist[85].

Bei dem Sequentialtest erfolgt die Testentscheidung im Gegensatz zum Hypothesentest nicht aufgrund eines zuvor bestimmten Stichprobenumfanges, sondern die ausgewählten Stichprobenelemente werden sukzessive in die Urteilsgewinnung mit einbezogen. Das heißt, nach jeder Entnahme eines Elementes wird eine der drei nachstehenden Entscheidungen getroffen:

  1. Die Nullhypothese „Lagerbuchführung ist ordnungsmäßig“ ist zu verwerfen
  2. Die Nullhypothese „Lagerbuchführung ist ordnungsmäßig“ ist anzunehmen
  3. Der Stichprobenumfang ist für ein hinreichend sicheres Urteil noch nicht ausreichend, so dass ein weiteres Stichprobenelement entnommen werden muss.

3.1.3 Aussageäquivalenz

Nach § 241 Abs. 1 HGB muss der Aussagewert eines mit Hilfe mathematisch-statistischer Verfahren aufgestellten Inventars dem Aussagewert des Inventars gleichkommen, dass aufgrund einer vollständigen körperlichen Bestandsaufnahme aufgestellt wurde. Dabei ist mit dieser Bestandsaufnahme die lückenlose körperliche Bestandsaufnahme im Sinne des § 240 HGB, also eine Vollinventur gemeint.

Aus diesem Sachverhalt leitet das IDW folgende Anforderungen an die Stichprobenverfahren sowie an die Lagerbuchführung ab:

  1. Aussageäquivalenz hinsichtlich des Inventurgesamtwertes
    Nach der Stellungnahme des IDW ist die Aussageäquivalenz bezogen auf den Gesamtwert für die Schätzverfahren gegeben, wenn ein Sicherheitsgrad von mindestens 95 % vorliegt und ein relativer Stichprobenfehler (absolute Differenz aus Schätzwert und wahrem Inventurgesamtwert im Verhältnis zum wahren Inventurgesamtwert) von 1 % nicht überschritten wird[86].

Für die Testverfahren ist die Aussageäquivalenz erfüllt, wenn die Ordnungsmäßigkeit der Lagerbuchführung mit einer Wahrscheinlichkeit von 95 % (α-Fehler = 5 %) für eine wahre Gesamtinventurdifferenz von ± 1 % des Gesamtbuchwerts bestätigt und für eine wahre Gesamtinventurdifferenz von ± 3 % des Gesamtbuchwerts mit einer Wahrscheinlichkeit von 95 % ( β-Fehler = 5 %) abgelehnt wird[87].

  1. Aussageäquivalenz hinsichtlich des Einzelnachweises
    Auch bei einer Stichprobeninventur muss ein vollständiges Inventar nach Art, Menge und Wert aufgestellt werden. Aufgrund der Stichprobenerhebung kann dieses aber nur mit Hilfe einer Lagerbuchführung vorgenommen werden. Aus diesem Grund muss die Lagerbuchführung hohen qualitativen Anforderungen genügen und bestandszuverlässig sein[88]. Der HFA empfiehlt die Annahme der Lagerbuchführung, wenn Buch- und Schätzwert nicht mehr als 2 % voneinander abweichen, sofern Höhe und Anzahl der gefundenen Einzelabweichungen dem nicht entgegenstehen[89].

3.1.4 Anforderungen an die Grundgesamtheit

Der Ausgangspunkt für die Stichprobeninventur bildet die Definition der Grundgesamtheit, aus der jeweils Elemente erhoben und ausgewertet werden können[90]. Damit mathematisch-statistische Verfahren angewendet werden können, muss die Grundgesamtheit nach sachlichen, örtlichen und zeitlichen Kriterien eindeutig abgegrenzt werden, so dass für jedes Element genau festgestellt werden kann, ob es Bestandteil der Grundgesamtheit ist oder nicht.

Bezüglich der sachlichen Abgrenzung lässt sich nach § 241 Abs. 1 HGB feststellen, dass die Stichprobenverfahren grundsätzlich auf alle Vermögensgegenstände anwendbar sind[91]. Da sich die Stellungnahme HFA 1/1981 des IDW ausdrücklich auf Stichprobenverfahren für die Vorratsinventur bezieht[92], soll für die weitere Betrachtung ebenfalls das Vorratsvermögen als abzugrenzender Bereich angesehen werden.

Von dem Vorratsvermögen sind diejenigen Elemente auszuschließen, die durch andere Bewertungsvereinfachungsverfahren aufgenommen werden sollen oder die aufgrund ihrer Eigenschaften stets vollständig aufgenommen werden sollten[93]. Hierunter fallen:

  • leicht verderbliche Gegenstände
  • besonders wertvolle Gegenstände
  • Gegenstände mit Neigung zum unkontrollierten Schwund
  • Positionen mit negativem Buchwert
  • Positionen, die nicht wenigstens einmal im Jahr bewegt wurden

Des weiteren sind die Elemente auszuschließen, die als sog. Scheinpositionen zwar in der Lagerbuchführung verzeichnet sind, aber nicht mehr oder noch nicht gelagert werden[94].

Als Ergebnis der bisherigen Abgrenzung erhält man die sog. Lagergrundgesamtheit, die auch als Grundgesamtheit oder Lagerkollektiv bezeichnet wird. Diese Grundgesamtheiten zeichnen sich in der Praxis i. a. durch das sog. „Lagerphänomen“ aus. Dieses Phänomen besagt, dass ca. 20 % der Lagerpositionen 80 % des Lagergesamtwertes auf sich vereinigen. Ob dieses Phänomen auf eine spezifische Lagergrundgesamtheit zutrifft, lässt sich im Rahmen einer Lagerstrukturanalyse überprüfen. Die grafische Darstellung der Lagerstruktur kann mit Hilfe eines Histogramms, welches die Anzahl der Lagerpositionen je Wertklasse bezogen auf den Artikelbuchwert darstellt, sowie dem Konzentrationsmaß der Lorenzkurve erfolgen.

Beispielhaft sei hier die Lagerstruktur eines Industrieunternehmens aus dem Bereich der Zerspanungsindustrie dargestellt:

Die Lagergrundgesamtheit des betrachteten Unternehmens umfasst ca. 4229 Positionen. Diese Lagergrundgesamtheit wurde in 21 Klassen unterteilt, die die Artikelbuchwerte von 50 EUR – 1000 EUR umfassen. Zu diesen Klassen wurde jeweils die entsprechenden absoluten Häufigkeiten der Lagerpositionen ermittelt. Damit ergibt sich folgendes Histogramm:

[[Image:|thumb|Quelle: eigene Darstellung Abbildung 5: Häufigkeitsverteilung von Artikelbuchwerten]][[Image:|thumb|Quelle: eigene Darstellung Abbildung 6: Lorenzdiagramm von Artikelbuchwerten ]]Wie man dem Histogramm entnehmen kann, weisen ca. 3300 Positionen (ca. 78 %) einen Artikelbuchwert von weniger als 300 EUR aus. In dem dazugehörigen Lorenzdiagramm wird das Verhältnis der kumulierten relativen Häufigkeiten am Lagergesamtwert in % zu den kumulierten relativen Häufigkeiten der Gesamtanzahl an Artikel in % abgebildet:


Wie man der Lorenzkurve entnehmen kann, fallen ca. 50% des Lagergesamtwertes auf lediglich ca. 2,5% der Positionen. Weniger als 10% (genau 8,84%) der Positionen umfassen ca. 80% des Lagergesamtwertes. Das heißt, würde man diese 355 Positionen vollständig körperlich aufnehmen, so hätte man bereits 80% des Lagergesamtwertes geprüft. Die restlichen 20% des Lagerwertes könnten dann mit Hilfe eines mathematisch-statistisch anerkannten Verfahren geprüft werden. Durch diese Vorgehensweise erhält man eine hohe Bestandssicherheit bei den höherwertigen Lagerpositionen, was auch im Hinblick auf das aufzustellende Inventar von Vorteil ist. Entsprechend empfiehlt auch das IDW die Bildung einer sog. Vollerhebungsschicht, die ca. 45-50% des Lagergesamtwertes abdeckt. Hierzu sind nach Angabe des IDW im allgemeinen aufgrund des dargestellten Lagerphänomens lediglich ein Anteil von 3 bis 5% der Lagerpositionen notwendig[95].

Zusammenfassend lässt sich also feststellen, dass die Positionen der abgegrenzten Lagergrundgesamtheit aufgrund des Lagerphänomens weiter in eine Vollerhebungsschicht und eine Stichprobenschicht abgegrenzt werden können. Die Stichprobenschicht umfasst dabei die Positionen, die im Rahmen der Stichprobeninventur mit Hilfe eines anerkannten mathematisch-statistischen Verfahrens überprüft werden.

Das zeitliche Kriterium zur Abgrenzung der Grundgesamtheit dient der Entscheidung, ob die Elemente der Grundgesamtheit zum Zeitpunkt der Inventur als vorhanden oder nicht vorhanden anzusehen sind[96]. Räumliche Abgrenzungskriterien stellen auf den Lagerort der Elemente ab. So lassen sich einzelne Lagerbereiche eines Lagers angeben. Ebenso können mehrere Lagerhäuser als Ganzes in Betracht kommen.

In der Praxis erfolgt die Abgrenzung der Grundgesamtheit in der Regel mit Hilfe einer EDV – gestützten Lagerbuchführung, wie sie z.B. als Komponente in ERP – Systemen oder in Lagerverwaltungssystemen vorzufinden ist. Diese Systeme stellen i.d.R alle zur Abgrenzung benötigten Informationen zur Verfügung, wie z.B.

  • Art des Artikels
  • Lagerort, Bestand, Buchwert
  • Datum der letzten Bewegung etc.

3.1.5 Anforderungen an die Stichprobenerhebung

Voraussetzung für die Anwendung mathematisch-statistischer Methoden ist es, dass die einzelnen Elemente einer Stichprobe zufallsgesteuert aus einer genau abgegrenzten Grundgesamtheit ausgewählt werden[97]. Hierzu existieren verschiedene Verfahren[98]. In der Praxis erfolgt die Durchführung einer Stichprobeninventur i.d.R. unter Einsatz von entsprechender Software, die die Auswahl der Elemente auf Basis von computergenerierten Zufallszahlen trifft.

3.1.6 Anforderungen an die Definition der Stichproben-elemente

Die Stichprobeninventur soll eine Schätzung des Gesamtwertes einer sachlichen, örtlich und zeitlich abgegrenzten Grundgesamtheit liefern. Die Stichprobenerhebung setzt voraus, dass die Grundgesamtheit in einzelne Elemente zerlegt wird[99]. Dabei muss die Summe aller Elemente dem Umfang der Grundgesamtheit entsprechen[100]. Elemente der Grundgesamtheit sind entweder einzelne Vermögensgegenstände (Stück) oder eine abgrenzbare Anzahl gleichartiger, zusammengefasster Vermögensgegenstände (Artikel/Positionen). Im allgemeinen wird bei der Stichprobeninventur der Artikel als Element der Grundgesamtheit definiert[101]. In diesem Fall wäre das Untersuchungsmerkmal der Wert des Artikels (Anzahl vorhandener Mengeneinheiten * Preis pro Mengeneinheit)[102], wobei die Bepreisung durch die Anschaffungskosten bzw. Herstellkosten determiniert wird. Sollte eine zuverlässige lagerfachweise Bestandsführung vorliegen, in der die Artikel über eine entsprechende Kennzeichnung den Lagerfächern zugeordnet werden können, so kann als Erhebungs- und Auswertungseinheit das Lagerfach in Betracht kommen[103].


3.2 Darstellung ausgewählter Stichprobenverfahren

Die zu erstellende Anwendung zur Abwicklung einer Stichprobeninventur auf der Basis maschineller Lernverfahren setzt zur Überprüfung der Ordnungsmäßigkeit der Lagerbuchführung den Sequentialdifferenzentest ein. Bei diesem Testverfahren handelt es sich um ein anerkanntes mathematisch-statistisches Verfahren im Sinne des § 241 HGB, das somit für den Einsatz im Rahmen einer Stichprobeninventur zugelassen ist. Zum besseren Verständnis dieses Verfahrens wird in Abschnitt 3.2.2.1 zunächst der von Abrahm Wald entwickelte Sequentialtest dargestellt. In Abschnitt 3.2.2.2 erfolgt die Darstellung des auf den einfachen Sequentialtest aufbauenden Drei-Hypothesentests, aus dem dann der Sequentialdifferenzentest abgeleitet wird. Für eine detaillierte Darstellung der in der Praxis häufig anzutreffenden Schätzverfahren sei an dieser Stelle auf die weiterführende Literatur verwiesen[104].


3.2.1 Begriffsbestimmungen

Unter „Grundgesamtheit“ versteht man die Gesamtheit der Einheiten, über die im Rahmen einer statistischen Untersuchung eine Aussage getroffen werden soll. Die einzelnen Elemente der Grundgesamtheit werden Untersuchungseinheiten, statistische Einheiten oder Merkmalsträger genannt. Die in einer Grundgesamtheit enthaltene Anzahl an Merkmalsträgern wird als „Umfang der Grundgesamtheit“ bezeichnet .

Unter einem Merkmal versteht man eine Eigenschaft der Merkmalsträger, die statistisch untersucht wird. Die dabei beobachteten konkreten Werte eines Merkmals werden als „Merkmalsausprägung“ bezeichnet.

Mit dem Begriff der „Stichprobe“ bezeichnet man eine tatsächlich untersuchte Teilmenge der Grundgesamtheit. Die Elemente einer Stichprobe werden auch Erhebungseinheiten oder Stichprobenelemente genannt. Der Begriff „Stichprobenumfang“ beschreibt die Anzahl der in einer Stichprobe enthaltenen Stichprobenelemente.

Im folgenden wird unter dem Begriff „abgegrenzte Grundgesamtheit“ die Gesamtheit aller Artikel (=Merkmalsträger) eines oder mehrerer Lager verstanden.


3.2.2 Testverfahren

Bei den Testverfahren wird das Ergebnis der Lagerbuchführung bei befriedigendem Testergebnis als ordnungsmäßig „angenommen“. Hierzu werden die stichprobenweisen körperlichen Aufnahmen der Artikel für eine Bestätigung der Lagerbuchführung verwendet. Bei den klassischen auf die Stichprobeninventur bezogenen Hypothesentests wird die Ausgangshypothese (Nulllhypothese H0) „Lagerbuchführung ordnungsmäßig“ gegen die Alternativhypothese H1 „Lagerbuchführung nicht ordnungsmäßig“ mit Hilfe einer Zufallsstichprobe geprüft. Aufgrund des Zufallscharakters der Stichprobenziehung können die getroffenen Aussagen wahr oder falsch sein. Der Fehler 1. Art (α – Fehler) beschreibt die irrtümliche Ablehnung einer in Wahrheit zutreffenden Nullhypothese, der Fehler 2. Art (β – Fehler) die irrtümliche Annahme einer in Wahrheit unzutreffenden Nullhypothese[105].


3.2.2.1 Sequentialtest

Bei dem im folgenden dargestellten homograden Sequentialtest wird versucht, die Nullhypothese durch Prüfung von Fehleranteilen zu bestätigen oder zu widerlegen. Er zielt somit primär nicht auf die Prüfung von Bestandswerten sondern auf Mengen[106].

Vor der Stichprobenziehung werden Fehlergrenzen für einen tolerablen Fehler- anteil (p0) und einen nicht tolerablen Fehleranteil (p1) festgelegt. Diese Grenzen sind so zu bestimmen, dass bei Unterschreitung des akzeptablen Fehleranteils die Lagerbuchführung als richtig angenommen wird und bei Überschreitung des akzeptablen Fehleranteils die Lagerbuchführung als nicht ausreichend bestandszuverlässig abgelehnt werden muss. Liegt der Fehleranteil zwischen diesen Grenzen (p0 < p < p1), so muss das Verfahren durch das Ziehen weiterer Stichprobenelemente fortgesetzt werden. Dabei müssen die Fehlergrenzen nach jeder Aufnahme eines weiteren Stichprobenelements neu berechnet werden[107].

Die Nullhypothese lautet bei dem Sequentialtest entsprechend: „Der wahre Anteil fehlerhafte Elemente in der Lagerbuchführung beträgt höchstens p0“.

Als Alternativhypothese wird unterstellt, dass der Fehleranteil mindestens p1 beträgt. Es sei p der wahre Fehleranteil, dann lassen sich die Hypothesen wie folgt formulieren[108]:

{H}_{0}\colon p\le {p}_{0}
{H}_{1}\colon p\ge {p}_{1}

Die Werte für das α – und β – Risiko werden vor Durchführung des statistischen Tests festgelegt. Dabei ist bei der Abschlussprüfung das β – Risiko (irrtümliche Annahme der Lagerbuchführung als ordnungsgemäß) enger zu begrenzen als das α – Risiko[109].

Der Sequentialtest wurde mathematisch theoretisch von Abraham Wald[110] entwickelt und basiert im Kern auf einem Wahrscheinlichkeitsvergleich: ist die Wahrscheinlichkeit dafür, dass die beobachtete Stichprobe bei Gültigkeit von H0 vorliegt, im Vergleich zu der, die sich bei der Gültigkeit von H1 ergibt, groß, so entscheidet man sich für H0. In der umgekehrten Situation hingegen entscheidet man sich für H1. Sind allerdings beide Wahrscheinlichkeiten ungefähr gleich, so muss noch weiter beobachtet werden.

Hierzu wird bei dem auch als sequentiellen Quotiententest bezeichneten Verfahren das Verhältnis der Wahrscheinlichkeiten für die Richtigkeit der beiden Hypothesen betrachtet:

Sei P1N die Wahrscheinlichkeit dafür, die konkreten Stichprobenwerte y1,...,yn zu erhalten für den Fall, dass die Alternativhypothese richtig ist. P0N bezeichnet entsprechend die Wahrscheinlichkeit dafür, dass man die konkreten Stichprobenwerte y1,...,ynerhält, wenn die Nullhypothese richtig ist.

Werden die beiden Wahrscheinlichkeiten zu einander in Verhältnis gesetzt, so können folgende Fallunterscheidungen getroffen werden[111]:

  1. Es ist \frac{{P}_{\mathrm{1N}}}{{P}_{\mathrm{0N}}}\ge A
    In diesem Fall wird die Nullhypothese abgelehnt und die Alternativhypothese angenommen.
  2. Es ist \frac{{P}_{\mathrm{1N}}}{{P}_{\mathrm{0N}}}\le B
    Die Nullhypothese wird angenommen und die Alternativhypothese abgelehnt.
  3. Es ist B< \frac{{P}_{\mathrm{1N}}}{{P}_{\mathrm{0N}}}< A
    In diesem Fall muss weiter geprüft werden, d.h. es ist ein weiteres Stichprobenelement zu ziehen.

Die Umsetzung der Theorie des Sequentialtests nach Wald auf die Stichproben-inventur basiert auf der Annahme einer Binomialverteilung[112]:

Sei P1 die Wahrscheinlichkeit dafür, dass ein Stichprobenelement fehlerhaft ist, dann bezeichnet (1 − P1) dafür, dass ein Element nicht fehlerhaft ist. Wurden aus einer Grundgesamtheit n Elemente entnommen, so ist die Gesamtwahrscheinlichkeit dafür, dass sich hierunter x fehlerhafte und (nx) nicht fehlerhafte Elemente befinden, gegeben durch:

{P}_{\mathrm{1N}}={P}_{1}^{x}\cdot {(1-{P}_{1})}^{(n-x)}

Für die Wahrscheinlichkeit P0N folgt analog:

{P}_{\mathrm{0N}}={P}_{0}^{x}\cdot {(1-{P}_{0})}^{(n-x)}

Daraus ergibt sich für den sequentielle Wahrscheinlichkeitskoeffizient:

\frac{{P}_{\mathrm{1N}}}{{P}_{10}}=\frac{{P}_{1}^{x}\cdot {(1-{P}_{1})}^{(n-x)}}{{P}_{0}^{x}\cdot {(1-{P}_{0})}^{(n-x)}}

Dieser Ausdruck wird zur einfacheren mathematischen Behandlung logarithmiert und man erhält:

\ln \left(\frac{{P}_{\mathrm{1N}}}{{P}_{10}}\right)=x\cdot \ln \left(\frac{{P}_{1}}{{P}_{0}}\right)-(n-x)\cdot \ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)=x\cdot \ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)-n\cdot \ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)

Die Vergleichsgrößen A und B können näherungsweise wie folgt beschrieben werden:

\begin{array}{c}A=\frac{1-\beta }{\alpha }\\ 
\\ 
B=\frac{\beta }{1-\alpha }\end{array}

Daraus ergibt sich für die eingangs erwähnten Testungleichungen[113]:

  1. Die Nullhypothese wird abgelehnt bei:
    1. x\cdot \ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)-n\cdot \ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)\ge \ln \left(\frac{1-\beta }{\alpha }\right)
  2. Die Nullhypothese wird angenommen bei:
    1. x\cdot \ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)-n\cdot \ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)\ge \ln \left(\frac{\beta }{1-\alpha }\right)
  3. Es muss ein weiteres Stichprobenelement erhoben werden, falls gilt:
    \ln \left(\frac{\beta }{1-\alpha }\right)\le x\cdot \ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)-n\cdot \ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)\le \ln \left(\frac{1-\beta }{\alpha }\right)

Aus den beiden Ungleichungen in 1. und 2. lassen sich durch Auflösen nach x die Rückweisungsgrenze xrn sowie die Annahmegrenze xan bestimmen[114]:

{x}_{rn}=\frac{\ln \left(\frac{1-\beta }{\alpha }\right)}{\ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)}+n\cdot \frac{\ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)}{\ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)}
{x}_{\mathrm{an}}=\frac{\ln \left(\frac{\beta }{1-\alpha }\right)}{\ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)}+n\cdot \frac{\ln \left(\frac{1-{P}_{0}}{1-{P}_{1}}\right)}{\ln \left(\frac{{P}_{1}(1-{P}_{0})}{{P}_{0}(1-{P}_{1})}\right)}

Rückweisungsgrenze und Annahmegrenze sind lineare Funktionen des Stichprobenumfanges n und lassen sich als parallel verlaufende Geraden mit gleicher Steigung wie folgt darstellen[115]:

In Anlehnung an [Neub97, S. 56]

Abbildung 7: Grafische Darstellung des Sequentialtests


Bei der grafischen Durchführung des Tests wird bei jedem Stichprobenelement um eine Einheit nach rechts, bei fehlerhaften Elementen zusätzlich um eine Einheit nach oben gegangen (Treppenverlauf). Der Test bricht mit der Annahme bzw. Ablehnung der Nullhypothese ab, wenn die „Treppenkurve“ die jeweils entsprechende Gerade kreuzt[116].

Der homograde Sequentialtest erfasst lediglich das Auftreten eines Fehlers, das Fehlerausmaß wird bei der Entscheidung nicht berücksichtigt. Da die Stichprobeninventur zur Festlegung eines Wertansatzes dient, muss über die Einführung von Nebenbedingungen der wertmäßige Fehler aus der Testentscheidung abgeleitet werden. Dazu gehört die Abgrenzung einer Vollaufnahmeschicht (Mindeststichprobenumfang ≥ 200, Fehler von 0,5 %) aus der Grundgesamtheit, wobei deren Elemente einer vollständigen körperlichen Aufnahme unterzogen werden müssen. Aus dem Anteil der Vollaufnahmeschicht am Gesamtlagerwert muss dann ein Fehlergewicht ermittelt werden, aus dem der maximal tolerable Fehleranteil abgeleitet wird, der allerdings 10 – 20 % nicht überschreiten darf[117].

Insgesamt ergibt sich somit folgender Ablauf bei der Durchführung einer Stichprobeninventur auf Basis eines Sequentialtests[118]:


  • Bilden einer Vollaufnahmeschicht (Umfang n ≥ 200)
  • Herleitung des Fehlergewichts, dabei soll das Fehlergewicht die tatsächlichen Verhältnisse hinreichend zuverlässig wiedergeben (Obergrenze 5 %)
  • Festlegen der Fehlergrenzen p0,p1, sowie der Grenzen für das α – und β – Risiko (nach IDW: α = 5%, β = 3%)
  • Bestimmung der Annahmegrenze xan sowie der Rückweisungsgrenze xrn für den jeweiligen Stichprobenumfang n.
  • Ziehen und Auswerten eines Stichprobenelementes
  • Solange die erreichte Fehleranzahl größer als die Annahmegrenze und kleiner als die Rückweisungsgrenze ist, muss ein weiteres Stichprobenelement gezogen und ausgewertet werden.
  • Ist die erreichte Fehleranzahl kleiner als die Annahmegrenze, so kann die Nullhypothese und damit die Ordnungsmäßigkeit der Lagerbuchführung angenommen werden. Sollte sie jedoch die Rückweisungsgrenze überschreiten, so muss die Lagerbuchführung als nicht ordnungsmäßig abgelehnt werden.

Für die Planung einer Stichprobeninventur ist die Kenntnis des bis zu einer Testentscheidung benötigten Stichprobenumfangs wünschenswert. Während sich bei den Schätzverfahren eine untere Grenze für den benötigten Stichprobenumfang berechnen lässt[119], lässt sich diese Größe jedoch bei der Anwendung des Sequentialtests aufgrund der sequentiellen Vorgehensweise ex ante nicht bestimmen. Obwohl sich nachweisen lässt, dass zu gegebenen Testparametern kein anderes Stichprobenverfahren existiert, welches geringere durchschnittliche Stichprobenumfänge benötigt wie der Sequentialtest, kann bei ungünstigen Konstellationen ein überdurchschnittlicher Stichprobenumfang zur Entscheidungs-findung notwendig sein. Dies ist z.B. dann der Fall, wenn der wahre Fehleranteil etwa in der Mitte zwischen P0 und P1 liegt. Bei der Planung einer Stichprobeninventur auf Basis eines Sequentialtests muss dieser Sachverhalt entsprechend berücksichtigt werden.


3.2.2.2 Sequentialdifferenzentest

Bei dem Sequentialdifferenzentest, der Gegenstand der Implementierung der Stichprobeninventur auf Basis maschineller Lernverfahren ist, handelt es sich um eine Variante des von Sobel und Wald entwickelten Drei-Hypothesentests. Der Grundgedanke des Verfahrens basiert darauf, eine Hypothese auf Basis von Stichprobenbeobachtungen aus drei sich gegenseitig ausschließenden Hypothesen auszuwählen. Das Verfahren wurde von Sobel-Wald wie folgt beschrieben[120]:

Gegeben sei eine normalverteilte Zufallsvariable mit bekannter Varianz σ2aber unbekannten Mittelwert μund zwei reellen Zahlen a1 < a2, gegen die folgende Testentscheidungen zu treffen sind:

H1:μ < a1{H}_{2}\colon {a}_{1}\le \mu \le {a}_{2}H3:μ > a2

Hiernach lässt sich die Grundgesamtheit in fünf sich gegenseitig ausschließende Bereiche aufteilen, die die Entscheidungsfindung wie folgt beeinflussen:

Quelle: eigene Darstellung

Abbildung 8: Entscheidungsbereiche des Drei-Hypothesentest


In einem gewissen Intervall 12) um a1 ist die Präferenz H3 abzulehnen stärker als die Präferenz, die Hypothesen H1,H2 anzunehmen. Ebenso ist man in einem gewissen Intervall 34) um a2 näher geneigt, H1 abzulehnen, als die Hypothesen H2,H3 anzunehmen.

Dies ist darin begründet, dass die Entscheidung zugunsten einer der beiden Hypothesen H2,H3 „schwerer“ zu fällen ist, als die augenscheinliche Entscheidung, dass H1 auf keinen Fall angenommen werden kann. Man ist also in den Intervallen 12) und 34)indifferent bezüglich der zu treffenden Entscheidungen.

Für diese beiden Indifferenzbereiche werden nun folgende Annahmen getroffen:

  1. {\mu }_{1}< {a}_{1}< {\mu }_{2}\le {\mu }_{3}< {a}_{2}< {\mu }_{4}
  2. {\mu }_{1}+{\mu }_{2}=2\cdot {a}_{1};{\mu }_{3}+{\mu }_{4}=2\cdot {a}_{2};
  3. μ1 − μ2 = μ3 − μ4 = Δ

Um nun eine Testentscheidung herbeiführen zu können, werden bezüglich der beiden Indifferenzbereiche zwei Sequentialtests S1,S2 gleichzeitig durchgeführt. Dabei werden für beide Tests die gleichen Werte bezüglich des α – und β – Risiko verwendet:

Bei dem ersten Sequentialtest S1 wird die NullhypotheseH0:μ = μ1gegen die Hypothese H1:μ = μ2 geprüft. Der zweite Sequentialtest S2 testet die NullhypotheseH0:μ = μ3 gegen die Hypothese H1:μ = μ4. Sollte sich während der gleichzeitigen Durchführung der Tests herausstellen, dass einer der beiden Tests vor dem anderen Test zu einer Entscheidung geführt hat, dann wird die Durchführung des ersteren Tests gestoppt und letzterer solange weiter fortgeführt, bis dieser zu einer Entscheidung führt. Sollten hingegen beide Tests gleichzeitig zu einer Entscheidung führen, so werden beide Tests gestoppt.

Je nachdem, wie die Testentscheidung der beiden Tests ausfiel, ist folgende Entscheidung hinsichtlich der drei Ausgangshypothesen H1,H2,H3zu treffen:

[[Image:|thumb|{| style="border-spacing:0;" | style="border-top:0.002cm solid #000000;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
Testentscheidung
S1
| style="border-top:0.002cm solid #000000;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
Testentscheidung
S2
| style="border:0.002cm solid #000000;padding:0.097cm;"|
Testentscheidung
Gesamt
|- | style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
μ1
| style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
μ3
| style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:0.002cm solid #000000;padding:0.097cm;"|
H1
|- | style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
μ2
| style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
μ3
| style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:0.002cm solid #000000;padding:0.097cm;"|
H2
|- | style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
μ2
| style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:none;padding:0.097cm;"|
μ4
| style="border-top:none;border-bottom:0.002cm solid #000000;border-left:0.002cm solid #000000;border-right:0.002cm solid #000000;padding:0.097cm;"|
H3
|} Tabelle 1: Testentscheidung beim sequentiellen Drei-Hypothesentest]]


Bei diesem Verfahren ist eine Testentscheidung des Tests S1 für μ1 und eine Entscheidung für μ2 im Test S2 nicht möglich[121].

Für die Durchführung der beiden Sequentialtests müssen wie bei dem einfachen Sequentialtest zunächst die Annahmegrenze und Rückweisungsgrenze je Sequentialtest ermittelt werden. Für den Sequentialtest S1 lauten die beiden Gleichungen[122]:

Annahmegrenze:{\mathrm{an}}_{1}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{\beta }{1-\alpha }\right)+n\cdot \frac{{\mu }_{1}+{\mu }_{2}}{2}

Rückweisungsgrenze:{\mathrm{rn}}_{1}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{1-\beta }{\alpha }\right)+n\cdot \frac{{\mu }_{1}+{\mu }_{2}}{2}

Und für den Sequentialtest S2 [123]:

Annahmegrenze:{\mathrm{an}}_{2}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{\beta }{1-\alpha }\right)+n\cdot \frac{{\mu }_{3}+{\mu }_{4}}{2}

Rückweisungsgrenze:{\mathrm{rn}}_{2}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{1-\beta }{\alpha }\right)+n\cdot \frac{{\mu }_{3}+{\mu }_{4}}{2}



In Anlehnung an [Stue05, S. 172]

Abbildung 9: Sequentieller Drei-HypothesentestDie beiden Geraden für Annahmegrenze und Rückweisungsgrenze je Sequentialtest sowie der Indifferenzenbereich sind in nachfolgender Grafik dargestellt:


Somit gestaltet sich die Durchführung des sequentiellen Drei-Hypothesentests wie folgt:

  1. Solange man sich innerhalb des Indifferenzenbereiches bewegt, müssen weitere Stichprobenelemente gezogen werden:
    {\mathrm{rn}}_{2}> \sum _{i=1}^{n}{y}_{i}> {\mathrm{an}}_{2}\vee {\mathrm{rn}}_{1}> \sum _{i=1}^{n}{y}_{i}> {\mathrm{an}}_{1}
  2. H1 wird angenommen, sobald die Gerade an1 geschnitten wurde:
    \sum _{i=1}^{n}{y}_{i}< {\mathrm{an}}_{1}
  3. H2 wird angenommen, sobald die Geraden rn1 und an2 geschnitten wurden:
    {\mathrm{an}}_{2}> \sum _{i=1}^{n}{y}_{i}> r{n}_{1}
  4. H3 wird angenommen, sobald die Gerade ab2 geschnitten wurde:
    \sum _{i=1}^{n}{y}_{i}> {\mathrm{ab}}_{2}

Die grundlegende Idee des seqentiellen Drei-Hypothesentest wurde nun von Stuers wie folgt auf den Sequentialdifferenzentest übertragen[124]:

Anstelle mit Hilfe eines sequentiellen Drei-Hypothesentest eine Aussage über den Mittelwert des wahren Inventurgesamtwertes einer Grundgesamtheit zu gewinnen, werden stattdessen die mittleren Inventurdifferenzen betrachtet. Hierzu werden sowohl die Inventur- als auch die Buchwerte mit einbezogen. Die mittleren Inventurdifferenzen zwischen Inventurwert (yi) und Buchwert (xi) einer Grundgesamtheit vom UmfangN sind gegeben durch:

\bar{d}=\frac{1}{N}\sum _{1}^{N}({y}_{i}-{x}_{i})


Stuers sieht in dieser Betrachtungsweise folgenden entscheidenden Vorteil:

Hauptkritikpunkt bei der Anwendung des Drei-Hypothesentests im Rahmen einer Stichprobeninventur ist die in Untersuchungen festgestellte Tatsache, dass der auf den Mittelwert gerichtete Drei-Hypothesentest bis zu seiner endgültigen Testentscheidung sehr hohe Stichprobenumfänge benötigt[125]. Aufgrund der Tatsache, dass die gebundenen Stichprobenverfahren einen wesentlich niedrigeren Stichprobenumfang benötigen als die freien Stichprobenverfahren, kann bei der Anwendung des Sequentialdifferenzentests ebenfalls ein geringerer Stichprobenumfang erwartet werden[126]. Dennoch muss an dieser Stelle betont werden, dass wie beim einfachen Sequentialtest ex ante keine Aussage darüber getroffen werden kann, wie hoch der benötigte Stichprobenumfang insgesamt tatsächlich ausfallen wird.

Bei der Anwendung des Sequentialdifferenzentests wird für die Berechnung der Annahmegrenzen sowie Rückweisungsgrenzen die tatsächliche Varianz (in diesem Fall die Varianz der Differenzen) benötigt. Da diese vor der Durchführung des Verfahrens nicht bekannt ist, muss diese mit Hilfe einer Vorstichprobe geschätzt werden[127]:

  • Zunächst wird eine Stichprobe vom Umfang n aus der Grundgesamtheit entnommen
  • Anschließend wird die Varianz wie folgt geschätzt:
    Mittelwert der Differenzen in der Stichprobe: \bar{d}=\frac{1}{n}\sum _{1}^{n}({y}_{i}-{x}_{i})
    Daraus resultierende geschätzte Varianz: {S}^{2}=\frac{1}{n-1}\cdot \sum _{i=1}^{n}{(({y}_{i}-{x}_{i})-\bar{d})}^{2}

Nach den Vorgaben des IDW kann eine Lagerbuchführung als ordnungsmäßig angenommen werden, wenn mit einer Wahrscheinlichkeit von mindestens 95 % (α-Risiko = 5%) die wahre Gesamtinventurdifferenz nicht mehr als ± 1% vom Gesamtbuchwert beträgt. Eine Lagerbuchführung ist hingegen als nicht ordnungsmäßig abzulehnen, wenn mit einer Wahrscheinlichkeit von mindestens 95 % (β-Risiko = 0,05) die wahre Gesamtinventurdifferenz mehr als ± 3 % vom Gesamtbuchwert beträgt. Der Entscheidungsbereich für die Grundgesamtheit lässt sich damit wie folgt grafisch darstellen:

'a1'a2'd2'H1'H2'H3'd0=0'd1'd3'd4


Abbildung 10: Entscheidungsbereiche Sequentialdifferenzentest


Bei vollkommener Übereinstimmung der Inventurwerte mit den Buchwerten ist die mittlere Inventurdifferenz gleich Null. Die weiten Grenzen d1,d2,d3,d4 können mit den oben aufgeführten Angaben des IDW wie folgt bestimmt werden:

Parser-Fehler ('Lexing'-Fehler): {d}_{1}=-3\text{\%}\cdot \overline{X},{d}_{2}=-1\text{\%}\cdot \overline{X},{d}_{3}=1\text{\%}\cdot \overline{X},{d}_{4}=3\text{\%}\cdot \overline{X}(\overline{X}=\mathrm{mittlerer}\mathrm{Buchwert})

Damit lassen sich die drei Hypothesen wie folgt formulieren:

{H}_{1}\colon \bar{d}< {d}_{1}{H}_{2}\colon {d}_{2}\le \bar{d}\le {d}_{3}{H}_{3}\colon \bar{d}> {d}_{4}

Die Lagerbuchführung gilt als ordnungsmäßig, falls die Hypothese H2 nicht widerlegt werden kann.

Die Testentscheidung erfolgt mit Hilfe zweier gleichzeitig durchgeführter Sequentialtests, deren Annahmegrenzen und Rückweisungsgrenzen wie folgt berechnet werden:

Es ist: Parser-Fehler ('Lexing'-Fehler): {d}_{2}-{d}_{1}={d}_{4}-{d}_{3}=\Delta =2\text{\%}\cdot \overline{X}


Für den Sequentialtest S1 lauten die beiden Gleichungen:

Annahmegrenze:{\mathrm{an}}_{1}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{\beta }{1-\alpha }\right)+n\cdot \frac{{d}_{1}+{d}_{2}}{2}

Rückweisungsgrenze:{\mathrm{rn}}_{1}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{1-\beta }{\alpha }\right)+n\cdot \frac{{d}_{1}+{d}_{2}}{2}


Und für den Sequentialtest S2:

Annahmegrenze:{\mathrm{an}}_{2}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{\beta }{1-\alpha }\right)+n\cdot \frac{{d}_{3}+{d}_{4}}{2}

Rückweisungsgrenze:{\mathrm{rn}}_{2}=\frac{{\sigma }^{2}}{\Delta }\cdot \ln \left(\frac{1-\beta }{\alpha }\right)+n\cdot \frac{{d}_{3}+{d}_{4}}{2}

Somit gestaltet sich die weitere Durchführung einer Stichprobeninventur auf Basis des Sequentialdifferenzentests wie folgt[128]:

  1. Zufallsauswahl der zu ziehenden Stichprobenelemente
  2. Ermittlung der kumulierten Inventurdifferenzen in der Stichprobe
    \sum _{i=1}^{n}{d}_{i}
  3. Optional: Aktualisierung der Schätzung der Varianz S2 auf Basis der gezogenen Stichprobenelemente
  4. Falls {\mathrm{rn}}_{2}> \sum _{i=1}^{n}{d}_{i}> {\mathrm{an}}_{2}\vee {\mathrm{rn}}_{1}> \sum _{i=1}^{n}{d}_{i}> {\mathrm{an}}_{1} müssen weitere Stichprobenelemente gezogen werden: gehe zu a)
  5. Falls \sum _{i=1}^{n}{d}_{i}> {\mathrm{rn}}_{2}: Annahme der Gegenhypothese H3 „Lagerbuchführung ist nicht ordnungsmäßig“ und Durchführung einer Vollinventur.
  6. Falls\sum _{i=1}^{n}{d}_{i}< {\mathrm{an}}_{1}: Annahme der Gegenhypothese H1 „Lagerbuchführung ist nicht ordnungsmäßig“ und Durchführung einer Vollinventur.
  7. Annahme der Hypothese H2 „Lagerbuchführung ist ordnungsmäßig“ und Einzelkorrektur der aufgedeckten Differenzen in der Lagerbuchführung.

4 Grundlagen maschineller Lernverfahren

In diesem Kapitel werden die wesentlichen Grundlagen maschineller Lernverfahren erörtert, die für die Konzeption einer Stichprobeninventur auf Basis maschineller Lernverfahren benötigt werden.


4.1 Grundbegriffe

Eine Vielzahl der in den folgenden Abschnitten verwendeten Begriffe und Verfahren werden im allgemeinen Sprachgebrauch unter dem Begriff „Data Mining“ zusammengefasst, so dass an dieser Stelle eine genauere Abgrenzung der beiden Begriffe „Data Mining“ und „maschinelle Lernverfahren“ erfolgt.


4.1.1 Abgrenzung Data Mining - Maschinelle Lernverfahren

Betrachtet man die Entwicklung von Informationssystemen innerhalb der letzten 50 Jahre, so lässt sich feststellen, dass die fortlaufende Verbesserung der Datenhaltungssysteme sowie der kontinuierliche Preisverfall von Speichermedien bei gleichzeitiger Zunahme der Speicherkapazitäten zu einer wahren Datenexplosion führten: tagtäglich werden unvorstellbare Mengen an Daten in den unterschiedlichsten Informationssystemen wie z.B. Satellitensysteme, Medizinische Messsysteme, Bankautomaten, ERP – Systeme, Web-Server, Kassensysteme etc. erhoben und gespeichert. Im Zuge dieser Entwicklung erkannte man sehr bald, dass die gesammelten Daten potentiell wertvolle Informationen verbergen könnten, deren Kenntnis z.B. Aussagen über die wirtschaftliche Entwicklung von Unternehmungen erlauben, die möglicherweise entscheidende Hinweise für wissenschaftliche Entdeckungen beinhalten oder mit deren Hilfe sich Naturkatastrophen genauer vorhersagen lassen. Aus dem Bedürfnis heraus, aus den riesigen Datenmengen wertvolle Schlüsse ableiten zu können, entwickelte sich innerhalb der Informationstechnologie der Prozess der „Erkenntnisgewinnung aus Datenbeständen“(engl. Knowledge Discovery in Databases, kurz KDD). Dieser Prozess ist definiert als „das nicht-triviale Extrahieren von enthaltenen, zuvor unbekannten und potentiell nützlichen Informationen aus Daten“.

Im Einzelnen besteht der Prozess aus folgenden Teilschritten[129]:

  1. Datensäuberung (Entfernung unsauberer, inkonsistenter Daten)
  2. Datenintegration (Zusammenfassen von Daten aus verschiedenen Quellen)
  3. Datenauswahl (Auswahl der für die Analyse relevanten Daten)
  4. Datentransformation (Konsolidierung, Aggregation von Daten)
  5. Data Mining (Anwendung von intelligenten Verfahren zur Mustererkennung in den Daten)
  6. Auswertung der Muster (Identifizierung der in Bezug auf die Erkenntnisgewinnung tatsächlich interessanten Muster)
  7. Präsentation der Erkenntnisse (Visualisierung der Ergebnisse für den Benutzer)
    Gemäß obiger Prozessdarstellung stellt das Data – Mining lediglich einen – wenn auch zentralen – Bestandteil des Prozesses zur Erkenntnisgewinnung aus Daten dar. Dabei besteht die Hauptaufgabe des Data Minings darin, in Datenbeständen nach Mustern zu suchen und diese zu erkennen. Hierzu bedient sich das Data Mining Verfahren des maschinellen Lernens.

4.1.2 Instanzen und Attribute

Die Daten, die von einem maschinellen Lernverfahren im Rahmen des Data Minings verarbeitet werden, werden Instanzen genannt. Eine Instanz kann mehrere Eigenschaften besitzen, die als Attribute bezeichnet werden. Abhängig davon, welchen Wert ein Attribut annehmen kann und wie sich diese Werte anordnen lassen, können Attribute einem der drei folgenden Attributtypen zugeordnet werden[130]:


Typ Beschreibung Beispiel
Nominal Diskrete Werte ohne natürliche Reihenfolge Augenfarbe, Geschlecht
Ordinal Diskrete Werte mit natürlicher Reihenfolge Größeneinschätzungen (klein, mittel, groß)
Metrisch Numerische Werte, die sich aufgrund ihres Wertes anordnen lassen und deren Abstand messbar ist Alter, Temperatur, Geschwindigkeit

Tabelle 2: Attributtypen

Maschinelle Lernverfahren operieren entweder auf Attributen metrischen Typs oder aber auf Attributen nominalen/ordinalen Typs. Je nach angewendetem Lernverfahren müssen die Attributwerte ggf. zuvor in den entsprechend unterstützen Typ umgewandelt werden.


4.2 Einsatzgebiete maschineller Lernverfahren

Im wesentlichen können im Bereich des Data Minings drei unterschiedliche Arten der Anwendung von maschinellen Lernverfahren unterschieden werden:

4.2.1 Klassenbildung

Quelle: eigene Darstellung

Abbildung 11: Klassenbildung in einem zwei-dimensionalen AttributraumUnter Klassenbildung wird die Einteilung von Instanzen in Klassen verstanden. Eine Klasse umfasst dabei eine Ansammlung von Instanzen, die sich innerhalb ihrer Klassen ähneln, die aber zu Instanzen einer anderen Klassen Unterschiede aufweisen[131]. Aufgabe maschineller Lernverfahren im Bereich der Klassenbildung ist es, Instanzen automatisch anhand ihrer Attribute in Klassen einzuteilen. Dieser Vorgang wird auch als „unüberwachtes Lernen“ bezeichnet[132]:


Beispiele für die Anwendung maschineller Lernverfahren zur Klassenbildung:

  • Klassifizierung des Kaufverhaltens von Kunden
  • Klassifizierung des Zahlungsverhalten von Debitoren
  • Klassifizierung von Textdokumenten, die einen ähnlichen Inhalt aufweisen

4.2.2 Assoziationsanalyse

Ziel der Assoziationsanalyse ist es, Abhängigkeiten zwischen den Attributen oder deren Werten eines Datenbestandes zu ermitteln und diese in Form von Assoziationsregeln zu formulieren[133]. Ein klassisches Beispiel der Assoziationsanalyse stellt die Warenkorbanalyse dar: hierbei wird versucht, anhand der Zusammenstellung der Warenkörbe unterschiedlicher Kunden zu ermitteln, welche Produkte häufig zusammengekauft werden, um so die Anordnung der Sortimente besser steuern zu können[134]. Da aus einem Datenbestand meistens mehrere Abhängigkeiten abgeleitet werden können, deren Aussagekraft hinsichtlich der Erkenntnisgewinnung von unterschiedlicher Güte ist, werden die ermittelten Assoziationsregeln häufig mit weiteren Informationen versehen, wie z.B. mit ihrer Eintrittswahrscheinlichkeit[135]. Die maschinellen Lernverfahren zur Assoziationsanalyse gehören ebenfalls zu der Kategorie des „unüberwachten Lernens“.

4.2.3 Klassifizierung

Bei den maschinellen Lernverfahren zur Klassifizierung von Daten liegt im Gegensatz zu den Verfahren zur Klassenbildung die Information über die Zugehörigkeit einer Instanz zu einer Klasse bereits vor. Mit Hilfe maschineller Lernverfahren soll nun aus den vorliegenden Informationen ein mathematisches Modell abgeleitet werden, das es erlaubt, neue, noch unbekannte Instanzen zu klassifizieren[136]:

Quelle:eigene Darstellung

Abbildung 12: Klassifizierung durch Vorhersage


Dieser Sachverhalt lässt sich beispielhaft wie folgt auf den Bereich der Inventur übertragen: aus vergangenen Inventuren liegen Informationen darüber vor, bei welchen Artikeln eine Inventurdifferenz auftrat bzw. bei welchen Artikeln keine Inventurdifferenz aufgedeckt wurde. Die Artikel lassen sich somit in die Klassen „fehlerhaft“ bzw. „nicht fehlerhaft“ einteilen. Untersucht man nun Eigenschaften (sprich die Attribute) der Artikel mit Hilfe maschineller Lernverfahren, so lässt sich eventuell eine Aussage darüber gewinnen, welche Artikel - Eigenschaften zu der Klassifikation „fehlerhaft“ bzw. als nicht „fehlerhaft“ führen. Auf Basis dieser Erkenntnisse können dann für zukünftige Inventuren die Artikel bestimmt werden, die wahrscheinlich zur Klasse der „fehlerhaften“ Artikel gehören.

In Bezug auf die Praxis ist die Anwendung eines maschinellen Lernverfahrens zur Klassifikation von Daten an folgende Anforderungen geknüpft:

  1. Es müssen „Trainingsdaten“ vorliegen, die sowohl die Attribute und Attributwerte der Instanzen als auch deren Klassenzugehörigkeit umfassen.
  2. Mit Hilfe dieser Daten muss ein ausgewähltes Klassifikationsverfahren „trainiert“ werden. Während dieser Phase des Lernens versucht das Verfahren aus den Attributen der Instanzen ein Modell abzuleiten, dass den Zusammenhang zwischen den Attributwerten der Instanzen und ihrer Klassenzugehörigkeit beschreibt.
  3. Nach erfolgter Lernphase muss sorgfältig geprüft werden, in wie weit das von dem ausgewählten Verfahren erlernte Modell in der Lage ist, zutreffende Vorhersagen liefern zu können (siehe hierzu Abschnitt 4.2.3.2 Güte von Klassifikationsverfahren). Sollte sich hierbei herausstellen, dass die auf Basis des Modells getroffenen Vorhersagen von geringer Qualität oder gar gänzlich unbrauchbar sind, so muss zunächst überprüft werden, ob eventuell ein anderes Klassifikationsverfahren bessere Vorhersage - Ergebnisse erzielt. Ist dies nicht der Fall, so müssen die für die Klassifikation ausgewählten Attribute im Hinblick auf ihre Tauglichkeit zur Klassifikation der Daten untersucht werden. Gegebenenfalls muss die Struktur der Trainingsdaten vollständig überarbeitet werden, so dass die Schritte zwei und drei wiederholt werden müssen.


4.2.3.1 Darstellung ausgewählter Klassifikationsverfahren

Im Bereich des maschinellen Lernens existieren eine Vielzahl unterschiedlicher Algorithmen zur Klassifikation von Daten. Diese Algorithmen basieren in weiten Teilen auf Erkenntnissen der Statistik bzw. der Stochastik, aber auch auf Erkenntnissen der Informationstechnologie[137], wie die folgende Darstellung ausgewählter Klassifikationsverfahren zeigt.

4.2.3.1.1 Naiver Bayes Klassifikator

Der Naive Bayes Klassifikator ist ein Klassifikationsverfahren, welches die Entscheidung, ob eine Instanz zu einer bestimmten Klasse gehört, mit Hilfe von Wahrscheinlichkeiten trifft. Das Verfahren basiert auf dem Theorem von Bayes, welches wie folgt lautet[138]:

P(\mathrm{KL}|K)=\frac{P(K|\mathrm{KL})P(\mathrm{KL})}{P(K)}

Anhand eines Beispiels wird im folgenden erläutert, wie die einzelnen Bestandteile der Formel in Bezug auf die Klassifikation von Instanzen zu interpretieren sind[139]:

Gegeben ist eine Menge von Kunden (= Instanzen). Jeder Kunde K umfasst die Attribute Alter und Einkommen. Die Kunden sollen in die Klassen KL1 „kauft einen Computer“ und KL2 „kauft keinen Computer“ klassifiziert werden. In diesem Zusammenhang ist P(KL1 | K) die Wahrscheinlichkeit dafür, dass ein Kunde mit einem bestimmten Alter und Einkommen (z.B. 35 Jahre, 40.000 EUR) der Klasse „kauft einen Computer“ angehört. P(K | KL1) beschreibt hingegen, wie wahrscheinlich es ist, dass ein Kunde, der der Klasse „kauft einen Computer“ angehört, ein bestimmtes Alter und Einkommen aufweist. P(KL1) ist die Wahrscheinlichkeit dafür, dass überhaupt irgendein Kunde einen Computer kauft. P(K) ist die Wahrscheinlichkeit für das Auftreten eines Kunden mit einem bestimmten Alter bzw. Einkommen. Um nun einen Kunden, dessen Alter und Einkommen bekannt sind, zu klassifizieren, müssen für beide möglichen Klassenzuordnungen KL1 „kauft einen Computer“ und KL2 “kauft keinen Computer“ jeweils die Wahrscheinlichkeiten P(KL1 | K) bzw. P(KL2 | K) berechnet werden. Der Kunde wird der Klasse zugeordnet, deren entsprechende Wahrscheinlichkeit am größten ist.

Auf Basis dieser Überlegungen erfolgt nun die Überleitung zu der verallgemeinerten Darstellung des Verfahrens[140]:

  1. Gegeben ist eine MengeIvon Instanzen sowie eine MengeAmit nAttributen. Jedes Attribut weist eine Menge von möglichen Attributwerten aw auf. In jeder Instanz kommt jedes Attribut genau einmal vor, dabei nimmt jedes Attribut genau einen Attributwert aus der Menge der für das jeweilige Attribut möglichen Attributwerte an.
  1. Angenommen, es existieren m mögliche Klassen {K}_{1},{K}_{2},\dots ,{K}_{m}. Der Klassifikator weist nun einer konkreten Instanz Inst die Klasse Ki zu, die die größte Wahrscheinlichkeit P(Ki | Inst)aufweist:
    P({K}_{i}|\mathrm{Inst})> P({K}_{j}|\mathrm{Inst}),\mathrm{mit}1\le j\le m

    P(Ki | Inst) wird gemäß dem Theorem von Bayes wie folgt berechnet:
    P({K}_{i}|\mathrm{Inst})=\frac{P(\mathrm{Inst}|{K}_{i})P({K}_{i})}{P(\mathrm{Inst})}
  1. Da P(Inst) für alle Klassen konstant ist, reduziert sich die Berechnung auf das Bestimmen der Wahrscheinlichkeit P(Inst | Ki)P(Ki).Falls die Wahrscheinlich-keiten P(Ki) nicht bekannt sind, wird im allgemeinen angenommen, dass diese Wahrscheinlichkeit für alle Klassen gleich ist, in diesem Fall muss nur die Wahrscheinlichkeiten P(Inst | Ki) ermittelt werden. In der Regel werden jedoch die Wahrscheinlichkeiten P(Ki) mit Hilfe der relativen Häufigkeiten auf Basis der vorliegenden Menge von Instanzen geschätzt::
    P({K}_{i})=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{Instanzen},\mathrm{die}{K}_{i}\mathrm{angeh\ddot{o}ren}}{\mathrm{Anzahl}\mathrm{der}\mathrm{Instanzen}}
  1. Für die Berechnung vonP(Inst | Ki)müssten die Wahrscheinlichkeiten für alle theoretisch möglichen Attributwerte, die die Attribute einer Instanz annehmen könnten, berechnet werden. Da diese Berechnung mit einer steigenden Anzahl von Attributen/Attributwerten sehr rechenintensiv sein kann, wird vereinfachend angenommen, dass die einzelnen Attribute in Bezug auf die Klasse Ki untereinander stochastisch unabhängig sind.
    Damit ergibt sich die Wahrscheinlichkeit P(Inst | Ki) als Produkt aus den Wahrscheinlichkeiten der möglichen Attributwerte aw, die eine Instanz bei einer gegebenen Klasse annehmen kann:
    P(\mathrm{Inst}|{K}_{i})=\prod _{k=1}^{n}P({\mathrm{aw}}_{k}|{K}_{i})

    Bei der Ermittlung der Wahrscheinlichkeiten pro Attributwert muss folgende Fallunterscheidung getroffen werden:
    1. Die Attributwerte awk sind nominalen/ordinalen Attributtyps:
      P({\mathrm{aw}}_{k}|{K}_{i})=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{Instanzen}\mathrm{der}\mathrm{Klasse}{K}_{i}\mathrm{mit}\mathrm{Wert}{\mathrm{aw}}_{k}}{\mathrm{Anzahl}\mathrm{der}\mathrm{Instanzen}\mathrm{der}\mathrm{Klasse}{K}_{i}}
    1. Die Attributwerte awk sind metrischen Attributtyps:
      Für diesen Fall wird angenommen, dass die Attribute einer Normalverteilung unterliegen, so dass sich die Wahrscheinlichkeit wie folgt berechnen lässt:
      P({\mathrm{aw}}_{k}|{K}_{i})=\frac{1}{\sqrt{2\Pi {\sigma }_{{K}_{i}}}}{e}^{-\frac{{({\mathrm{aw}}_{k}-{\mu }_{{K}_{i}})}^{2}}{2{\sigma }_{{K}_{i}}^{2}}}
      Dabei stellen und {\mu }_{{K}_{i}} die Standardabweichung bzw. den Mittelwert der Attributwerte der Instanzen einer Klasse Kidar.
  1. Um die Klasse einer Instanz bestimmen zu können, wird nun für jede Klasse Kidie Wahrscheinlichkeit P(Inst | Ki)P(Ki) berechnet. Die Instanz Inst wird der Klasse mit der höchsten Wahrscheinlichkeit zugeordnet.

Abschließend wird die Funktionsweise des Naiven Bayes Klassifikator an Hand eines fiktiven Beispiels erläutert[141]:

Im Rahmen einer Untersuchung wurde beobachtet, bei welchen Wetterbedingungen der untersuchte Personenkreis einen Spaziergang unternahm und bei welchen Bedingungen auf einen Spaziergang verzichtet wurde. Die beobachteten Daten umfassen folgende Attribute: Wetterlage, Temperatur, Luftfeuchtigkeit, Windig und Aktion.

Die Attribute sind allesamt nominalen Typs und können folgende Werte annehmen:

Wetterlage sonnig, bedeckt, regnerisch

Temperaturheiß, kühl, mild

WindigJa, Nein

Luftfeuchtigkeithoch, normal

AktionSpazieren gehen, Nicht spazieren gehen

Die beobachteten Daten wurden in einer Tabelle zusammengestellt:


Wetterlage Temperatur Luftfeuchtigkeit Windig Aktion
sonnig heiß hoch Nein Nicht spazieren
sonnig heiß hoch Ja Nicht spazieren
bedeckt heiß hoch Nein Spazieren
regnerisch mild hoch Nein Spazieren
regnerisch kühl normal Nein Spazieren
regnerisch kühl normal Ja Nicht spazieren
bedeckt kühl normal Ja Spazieren
sonnig mild hoch Nein Nicht spazieren
sonnig kühl normal Nein Spazieren
regnerisch mild normal Nein Spazieren
sonnig mild normal Ja Spazieren
bedeckt mild hoch Ja Spazieren
bedeckt heiß normal Nein Spazieren
regnerisch mild hoch Ja Nicht spazieren

Tabelle 3: Wetterdaten


Auf Basis einer Wettervorhersage für den nächsten Tag soll entschieden werden, ob ein Spaziergang in Betracht gezogen werden soll oder nicht.


Die Vorhersage umfasst folgende Daten:


Wetterlage Temperatur Luftfeuchtigkeit Windig Aktion
sonnig kühl hoch Ja
?

Zunächst werden die Wahrscheinlichkeiten P(Ki) mit Hilfe der relativen Häufigkeiten je Klasse geschätzt:

Attributwert „Nicht spazieren“ \frac{5}{14}

Attributwert „Spazieren gehen“ \frac{9}{14}

Die Wahrscheinlichkeiten P(awk | Ki) werden ebenfalls über die relativen Häufigkeiten je Attributwert und Klassifikation geschätzt:

Tabelle 4: Relative Häufigkeit je Attributwert/Klassifikation Damit können die Wahrscheinlichkeiten P(Inst | Ki)P(Ki) berechnet werden, indem das Produkt aus den Wahrscheinlichkeiten der einzelnen Attributwerte der Wettervorhersage sowie der Wahrscheinlichkeit für die jeweilige Klasse gebildet wird : „Spazieren“: \begin{array}{c}P(\mathrm{sonnig}|\mathrm{Spazieren})\ast P(\mathrm{k\ddot{u}hl}|\mathrm{Spazieren})\ast P(\mathrm{hoch}|\mathrm{Spazieren})\ast \\ 
P(\mathrm{Ja}|\mathrm{Spazieren})\ast P(\mathrm{Spazieren})=\\ 
2/9\ast 3/9\ast 3/9\ast 3/9\ast 9/14=\\ 
\mathrm{0,0053}\end{array} „Nicht Spazieren“ \begin{array}{c}P(\mathrm{sonnig}|\mathrm{Nicht}\mathrm{spazieren})\ast P(\mathrm{k\ddot{u}hl}|\mathrm{Nicht}\mathrm{spazieren})\ast P(\mathrm{hoch}|\mathrm{Nicht}\mathrm{spazieren})\ast \\ 
P(\mathrm{Ja}|\mathrm{Nicht}\mathrm{spazieren})\ast P(\mathrm{Nicht}\mathrm{spazieren})=\\ 
3/5\ast 1/5\ast 4/5\ast 3/5\ast 5/14=\\ 
\mathrm{0,0206}\end{array} Der Naive Bayes Klassifikator klassifiziert die vorliegende Wettervorhersage somit in „Nicht spazieren“.
4.2.3.1.2 Entscheidungsbäume

In Anlehnung an [WiFr05, S. 101]

Abbildung 13: Entscheidungsbaum "Wetterdaten" Ein verbreitetes Verfahren zur Klassifikation von Instanzen stellen die sog. Entscheidungsbäume dar. Unter einem Entscheidungsbaum versteht man eine Baumstruktur, in welcher jeder innere Knoten einen Entscheidungstest beschreibt und die zum Knoten gehörenden Kanten mögliche Ergebnisse dieses Tests angeben[142]. Die Blätter des Baumes stellen die Klassifikation der Instanz dar. In Analogie zu dem Beispiel in Abschnitt 4.2.3.1.1 stellt die nachfolgende Abbildung einen einfachen Entscheidungsbaum dar, an Hand dessen die Vorhersage getroffen wird, ob aufgrund gegebener Wetterdaten ein Spaziergang in Betrachtung gezogen werden sollte oder nicht:


Die Klassifizierung einer unbekannten Instanz erfolgt nun dergestalt, dass die einzelnen Attributwerte der Instanz gegen den Entscheidungsbaum getestet werden. Als Ergebnis erhält man einen Pfad, der bei dem Wurzelknoten des Baumes beginnt und bei dem Blatt endet, welches die vorhergesagte Klasse für die Instanz angibt[143].

Ein Basis - Algorithmus zum Aufbau eines solchen Entscheidungsbaumes nach der Top-Down Methode kann wie folgt formuliert werden[144]:

Gegeben:

  • Eine Menge von Instanzen I, die bereits klassifiziert sind
  • Ein Liste AL der für die Erstellung des Baumes möglichen Attribute
  • Eine Methode M zur Bestimmung des „günstigsten“ Attributs im Hinblick auf den Aufbau des Baumes

Algorithmus:

  1. Erstelle einen Knoten N.
  2. Falls alle Instanzen der gleichen Klasse angehören, gebe N als Blattknoten unter Angabe der Klasse zurück.
  1. Falls die Instanzen keine weiteren Attribute außer dem Klassifikations – Attribut aufweisen, gebe N als Blattknoten unter Angabe der Klasse zurück, der die meisten Instanzen angehören.
  2. Ermittle durch Anwendung der Methode M das Attribut A aus den Attributen der Instanzen, welches für den weiteren Aufbau des Baumes das „günstigste“ ist.
  3. Weise N das gewählte Attribut A zu.
  4. Falls A nominale/diskrete Werte umfasst und Mehrfachteilungen erlaubt sind, reduziere AL um das gewählte Attribut A.
  5. Führe für jeden Attributwert AW von A die folgenden Schritte durch:
    1. Ermittle alle Instanzen I, die in dem Attribut A ebenfalls den Wert AW aufweisen.
    2. Enthält I keine Instanzen, erzeuge ein Blatt an N, welches die Klasse beinhaltet, der die meisten Instanzen angehören.
    3. Ansonsten erzeuge einen neuen Knoten N, indem dieser Algorithmus mit den in Schritt sieben ermittelten Instanzen I sowie der aktuellen Attributliste AL erneut durchlaufen wird.
  6. Gebe den Knoten N zurück

Problematisch bei dieser Vorgehensweise ist die Ausgestaltung der Methode M zur Bestimmung des „günstigsten“ Attributes in Schritt vier. Eine Vorgehensweise ist z.B. das Attribut so auswählen, dass die aus Schritt sieben resultierenden Teilmengen möglichst viele Instanzen einer Klasse umfassen, wodurch letztendlich die Tiefe des resultierenden Baumes möglichst gering gehalten wird. Um entscheiden zu können, welches Attribut auszuwählen ist, bietet es sich an, die einzelnen Attribute hinsichtlich dieser Forderung mit Hilfe eines geeigneten Maßes zu bewerten. Das Attribut, welches gemäß des festgelegten Maßes die höchste Bewertung erhält, wird dann für die weitere Bearbeitung ausgewählt. Beispielhaft sei an dieser Stelle das Maß „Informationsgewinn“ erläutert. Die Herleitung dieses Maßes basiert auf folgenden Überlegungen:

Die zu erwartende benötigte Information, eine zu einer Menge I gehörenden Instanz zu klassifizieren, ist gegeben durch:

\mathrm{Info}(I)=-\sum _{i=1}^{m}{p}_{i}{\log }_{2}({p}_{i})

Dabei sei pi die Wahrscheinlichkeit dafür, dass eine Instanz zu einer Klasse Kigehört. Diese wird im folgenden mit Hilfe der relativen Häufigkeit geschätzt:

{h}_{i}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{Instanzen}\mathrm{der}\mathrm{Klasse}{K}_{i}}{\mathrm{Anzahl}\mathrm{der}\mathrm{Instanzen}}

Sei A nun ein Attribut, das N mögliche Attributwerte annehmen kann. Die Menge der Instanzen I wird nun so unterteilt, dass die Instanzen einer Teilmenge in dem Attribut AS genau einen der N möglichen Attributwerte aufweisen. So ist z.B. die Teilmenge Ij eine Teilmenge von I, deren Instanzen in dem Attribut A mit dem j. Attributwert übereinstimmen (1\le j\le N). Bei den so gebildeten Teilmengen ist es sehr wahrscheinlich, dass eine Teilmenge Ij Instanzen umfasst, die unterschiedlichen Klassen angehören. Unter dem Gesichtspunkt der Klassenzugehörigkeit der Instanzen sind die Teilmengen also eher inhomogen. Da aber für die Klassifikation von Instanzen homogene Teilmengen wünschenswert wären, stellt sich die Frage, wie viel Information noch benötigt wird, um solche homogenen Teilmengen nach einer Aufteilung zu erhalten. Dieser Wert lässt sich wie folgt berechnen:

{\mathrm{Info}}_{A}(I)=\sum _{j=1}^{v}\frac{|{I}_{j}|}{|I|}\cdot \mathrm{Info}({I}_{j})

Es wird also pro Teilmenge Ij die zur Klassifikation einer Instanz zu erwartende benötigte Information berechnet, die wiederum mit einem Faktor gewichtet wird. Je kleiner der Wert von InfoA ist, um so mehr liegen diese Teilmengen bereits in homogener Form vor.

Der Informationsgewinn ist definiert als die Differenz aus der ursprünglich benötigten Information und der noch benötigten Information, die sich durch die Aufteilung der Instanzen nach Auswahl eines Attributs A ergibt:

Gewinn(A) = Info(I) − InfoA(I)

Je kleiner der Wert von InfoA(I) ist, umso größer ist der Informationsgewinn, der durch die Auswahl von AS entsteht. Demzufolge ist das Attribut A auszuwählen, für das der Informationsgewinn am größten ist.

Abschließend soll an Hand des Beispiels der Wetterdaten aus Abschnitt 4.2.3.1.1 die Erstellung eines Entscheidungsbaums unter Einsatz der Maßzahl „Informationsgewinn“ dargestellt werden[145]:

Relative Häufigkeit „Nicht spazieren“ : \frac{5}{14}

Relative Häufigkeit „Spazieren gehen“:\frac{9}{14}

Daraus resultiert folgende zu erwartende benötigte Information hinsichtlich der Klassifikation der Menge der Instanzen I:

\mathrm{Info}(I)=-\frac{5}{14}\ast {\log }_{2}\frac{5}{14}-\frac{9}{14}\ast {\log }_{2}\frac{9}{14}=\mathrm{0,940}\mathrm{bit}

In der nachfolgenden Tabelle ist die Berechnung des Informationsgewinns je Attribut dargestellt:

Attribut/ Attributwert
Spazieren
Nicht
Spazieren
InfoAS(I)
Wetterlage
Sonnig
2
3
\frac{5}{14}\left(-\frac{2}{5}{\log }_{2}\frac{2}{5}-\frac{3}{5}{\log}_{2}\frac{3}{5}\right)=\mathrm{0,346}\mathrm{bit}
Bedeckt
4
0
0,000bit
Regnerisch
3
2
\frac{5}{14}\left(-\frac{3}{5}{\log }_{2}\frac{3}{5}-\frac{2}{5}{\log }_{2}\frac{3}{5}\right)=\mathrm{0,346}\mathrm{bit}
Gewinn 0,940bit − 0,692bit = 0,248bit
Temperatur
Heiß
2
2
\frac{4}{14}\left(-\frac{2}{4}{\log }_{2}\frac{2}{4}-\frac{2}{4}{\log }_{2}\frac{2}{4}\right)=\mathrm{0,286}\mathrm{bit}
Mild
4
2
\frac{6}{14}\left(-\frac{4}{6}{\log }_{2}\frac{4}{6}-\frac{2}{6}{\log }_{2}\frac{2}{6}\right)=\mathrm{0,394}\mathrm{bit}
Kühl
3
1
\frac{4}{14}\left(-\frac{3}{4}{\log }_{2}\frac{3}{4}-\frac{1}{4}{\log }_{2}\frac{1}{4}\right)=\mathrm{0,232}\mathrm{bit}
Gewinn 0,940bit − 0,912bit = 0,028bit
Luftfeuchtigkeit
Hoch
3
4
\frac{7}{14}\left(-\frac{3}{7}{\log }_{2}\frac{3}{7}-\frac{4}{7}{\log }_{2}\frac{4}{7}\right)=\mathrm{0,493}\mathrm{bit}
Normal
6
1
\frac{7}{14}\left(-\frac{6}{7}{\log }_{2}\frac{6}{7}-\frac{1}{7}{\log }_{2}\frac{1}{7}\right)=\mathrm{0,296}\mathrm{bit}
Gewinn 0,940bit − 0,789bit = 0,151bit
Windig
Ja
3
3
\frac{6}{14}\left(-\frac{3}{6}{\log }_{2}\frac{3}{6}-\frac{3}{6}{\log }_{2}\frac{3}{6}\right)=\mathrm{0,429}\mathrm{bit}
Nein
6
2
\frac{8}{14}\left(-\frac{6}{8}{\log }_{2}\frac{6}{8}-\frac{2}{8}{\log }_{2}\frac{2}{8}\right)=\mathrm{0,464}\mathrm{bit}
Gewinn 0,940bit − 0,893bit = 0,047bit

Tabelle 5: Berechnung des Gewinns je Attribut

Wie man der Tabelle entnehmen kann, lässt sich bei dem Attribut „Wetterlage“ der größte Informationsgewinn feststellen. Somit würde dieses Attribut als Wurzel des Entscheidungsbaumes ausgewählt werden. In der Folge erfolgt nun eine Unterteilung der Instanzen analog zu den Attributwerten des Attributs „Wetterlage“:


Wetterlage Temperatur Luftfeuchtigkeit Windig Aktion
bedeckt heiß normal Nein Spazieren
bedeckt mild hoch Ja Spazieren
bedeckt kühl normal Ja Spazieren
bedeckt heiß hoch Nein Spazieren
regnerisch mild hoch Ja Nicht spazieren
regnerisch mild normal Nein Spazieren
regnerisch kühl normal Ja Nicht spazieren
regnerisch kühl normal Nein Spazieren
regnerisch mild hoch Nein Spazieren
sonnig mild normal Ja Spazieren
sonnig kühl normal Nein Spazieren
sonnig mild hoch Nein Nicht spazieren
sonnig heiß hoch Ja Nicht spazieren
sonnig heiß hoch Nein Nicht spazieren

Tabelle 6: Bildung von Teilmengen auf Basis des Attributwertes


Bei dem Attributwert „bedeckt“ liegt bereits eine homogene Teilmenge hinsichtlich der Klassifikation vor, da alle Instanzen die Klassifikation „Spazieren“ aufweisen. Somit erfolgt an dieser Stelle keine weitere Unterteilung der Instanzen. Bei dem Attributwert „sonnig“ fällt die Spalte „Luftfeuchtigkeit auf: durch dieses Attribut werden die Instanzen in zwei homogene Teilmengen aufgeteilt, somit ist dieses Attribut das günstigste von den verbleibenden drei Attributen, was sich auch in der Berechnung des Informationsgewinns widerspiegelt:

\begin{array}{c}\mathrm{Gewinn}(\mathrm{Windig})=\mathrm{0,020}\mathrm{bit}\\ 
\mathrm{Gewinn}(\mathrm{Temperatur})=\mathrm{0,571}\mathrm{bit}\\ 
\mathrm{Gewinn}(\mathrm{Luftfeuchtigkeit})=\mathrm{0,971}\mathrm{bit}\end{array}

Der gleiche Sachverhalt gilt für den Attributwert „regnerisch“: hier ist das günstigste Attribut das Attribut „Windig“, da dieses Attribut mit seinen Attributwerten „Ja“ und „Nein“ die Instanzen ebenfalls in zwei homogene Teilmengen teilt. Insgesamt erhält man somit den in Abbildung 13 dargestellten Entscheidungsbaum.

4.2.3.1.3 Neuronale Netze

Mit Hilfe von künstlichen neuronalen Netzen werden biologische neuronale Netze als informationsverarbeitende Systeme nachgeahmt. Dabei besteht ein künstliches Neuronales Netz ähnlich einem biologischen neuronalen Netz aus Neuronen, die miteinander vernetzt sind und Informationen austauschen können[146]. Bei dem hier vorgestellten Verfahren, das auf dem sog. Backpropagation – Algorithmus basiert, wird von dem Modell eines Multilayer-Feed-Forward Netzes ausgegangen. In diesem Modell besteht das künstliche neuronale Netz aus einer Menge von verbundenen Eingabe- bzw. Ausgabeeinheiten (den Neuronen), wobei jede Verbindung zwischen den Neuronen gewichtet wird. Während der Lernphase werden diese Gewichte fortlaufend so angepasst, dass die Klassifikation einer Instanz bestimmt werden kann[147].


In Anlehnung an [HaKa06, S. 328]

Abbildung 14: Neuronales "Multilayer Feed-Forward" Netz EingabeschichtVerdeckte SchichtAusgabeschicht


Die Eingabestellen awi der Eingabeschicht werden gleichzeitig mit den entsprechenden Attributwerten einer Instanz bestückt. Diese werden gewichtet an die Neuronen der sog. verdeckten Schicht weitergegeben (siehe w1j,...,wnj). Diese Schicht kann wiederum als Eingabeschicht für eine weitere verborgene Schicht dienen, wobei üblicherweise jedoch nur eine verborgene Schicht verwendet wird. Die Ausgabe der verdeckten Schicht ist die Eingabeschicht für die Ausgabeschicht, welche schlussendlich die Klassifikation für die Instanz ausgibt.

Die Arbeitsweise des Backpropagation - Algorithmus besteht im wesentlichen aus drei Teilschritten[148]:

  1. Initialisierung
    Die Gewichte w1j,...,wnj werden mit kleinen Zufallszahlen (z.B. Zahlen zwischen -1 und 1 oder -0,5 und 0,5) initialisiert. Die Attributwerte werden über die Eingabeschicht in das Netzwerk eingespeist. Sie stellen gleichzeitig die Netzausgabe der Eingabeschicht dar.
  2. Vorwärts-Propagierung
    Für jedes Neuron der verborgenen Schicht wird die jeweilige Netzeingabe sowie die Netzausgabe berechnet. Werden in dem neuronalen Netz mehrere verdeckte Schichten verwendet, wird dieser Schritt für alle folgenden Schichten bis einschließlich der Ausgabeschicht durchgeführt, wobei die Netzausgabe der vorherigen Schicht die Basis für die Berechnung der Netzeingabe der jeweils folgenden Schicht bildet.
    Die Berechnung der Netzeingabe netj für ein Neuron j erfolgt folgendermaßen:
    {\mathrm{net}}_{j}=\sum _{i=1}^{n}{w}_{ij}Oi+{\theta }_{j},

    wobei Oiden Wert der Netzausgabe desi-ten Neurons der vorherigen Schicht darstellt und wij die Gewichtung zwischen dem i-ten Neuron der vorherigen Schicht und dem Neuron j der aktuellen Schicht beschreibt. θjfungiert als sog. Bias (Schwellwert), der die Aktivität des Neurons j beschreibt. Dieser Wert wurde in Schritt eins ebenfalls mit einem zufällig erzeugten Wert belegt.
    Die Netzausgabe wird wie folgt berechnet:
    Oj = φ(netj)

    φ(neti) wird auch als Aktivierungsfunktion bezeichnet. Für φ(neti) wird häufig die sog. logistische Funktion verwendet, die definiert ist als:
    \phi ({\mathrm{net}}_{j})=\frac{1}{1+{e}^{-{\mathrm{net}}_{j}}}
  3. Rückwärts-Propagierung des Fehlers
    Nachdem nun an der Ausgabeschicht die Netzausgaben und damit die vorhergesagte Klassifikation vorliegen, wird der Fehler der Vorhersage berechnet:
    Errj = Oj(1 − Oj)(KjOj)

    Der Fehler wird nun über die Ausgabeschicht wieder bis zur Eingabeschicht zurück propagiert (engl. „backpropagation“, daher der Name des Algortihmus). Die Berechnung des Fehlers in der j-ten (verdeckten) Schicht erfolgt folgendermaßen:
    {\mathrm{Err}}_{j}={O}_{j}(1-{O}_{j})\sum _{1}^{k}{\mathrm{Err}}_{k}{w}_{jk}

    In dem Modell mit einer verdeckten Schicht beschreibt somit Errk den Fehler in der Ausgabeschicht und wjk ein Gewicht zwischen einem Neuron der verdeckten Schicht und einem Neuron der Ausgabeschicht.
    Anschließend werden die Gewichte und die Schwellwerte so angepasst, dass sie den Einfluss des Fehlers widerspiegeln. Die Anpassung der Gewichte erfolgt folgendermaßen:
    Zunächst wird die Änderung des Gewichts wij unter Berücksichtigung der sog. Lernrate l berechnet:
    \Delta {w}_{ij}=l\cdot {\mathrm{Err}}_{j}{O}_{j}

    Der Faktor l ist eine Konstante und wird üblicherweise mit einem Wert zwischen 0 und 1 versehen.
    Das angepasste Gewicht wij ergibt sich dann aus:
    wij = wij + Δwij

    Die Anpassung der Schwellwerte θj erfolgt folgendermaßen:
    Δθj = θj + Δθj

Das Verfahren endet, wenn

  • die Δwij eine vorgegebene (kleine) untere Grenze unterschreiten
  • Der Anteil falsch klassifizierter Instanzen eine vorgegebene untere Grenze unterschreitet
  • Eine bestimmte Anzahl von Vorwärts- und Rückwärts-Propagierungen durchlaufen wurde.

4.2.3.2 Güte von Klassifikationsverfahren

Ein Klassifikationsverfahren wird subjektiv als „gut“ empfunden, wenn es in der Lage ist, zutreffende Vorhersagen über die Klassenzugehörigkeit von unbekannten Instanzen zu treffen. Die Güte eines Klassifikationsverfahrens spiegelt sich somit in der Anzahl korrekt vorhergesagter Klassenzugehörigkeiten wider: ein Klassifikationsverfahren ist um so besser, je mehr unbekannte Instanzen von ihm richtig klassifiziert wurden. Um die Güte eines Klassifikationsverfahrens beurteilen zu können, bietet es sich nach erfolgter Durchführung der Lernphase an, das vom Klassifikationsverfahren erlernte Modell an Hand der Trainingsdaten zu überprüfen. D.h., für jede Instanz aus der Menge der Trainingsdaten wird auf Basis des erlernten Modells eine Vorhersage über seine Klassenzugehörigkeit getroffen und mit der tatsächlichen, in den Trainingsdaten hinterlegten Klassenzugehörigkeit, verglichen. Setzt man dann die Anzahl der vom Klassifikationsverfahren korrekt vorhergesagten Klassen in das Verhältnis zu der Gesamtanzahl der Instanzen, so erhält man die Korrektklassifikationsrate (engl. accuracy)[149]:

\mathrm{ACC}=\frac{\mathrm{Anzahl}\mathrm{korrekter}\mathrm{Vorhersagen}}{\mathrm{Gesamtanzahl}\mathrm{Instanzen}}

Der Klassifikationsfehler ergibt sich demnach aus 1 − ACC. Bei der Interpretation dieser Kennzahl muss jedoch berücksichtigt werden, dass eine hohe Korrektklassifikationsrate nicht automatisch gleich bedeutend ist mit einer hohen Güte des gewählten Klassifikationsverfahrens, wie die Untersuchung von Testdaten eines Industrieunternehmens der Zerspanungsindustrie zeigt:

Für eine kommende Inventur soll mit Hilfe eines Klassifikationsverfahrens eine Aussage darüber getroffen werden, welche Artikel aufgrund ihrer Attribute als wahrscheinlich fehlerhaft einzustufen sind. Insgesamt sind in den Trainingsdaten 3500 Instanzen enthalten, wovon 3200 Instanzen der Klasse „fehlerfrei“ angehören und 300 Instanzen der Klasse „fehlerhaft“. Das Klassifkationsverfahren ordnete nach erfolgter Lernphase die 3200 „fehlerfreien“ Instanzen richtigerweise der Klasse „fehlerfrei“ zu, jedoch wurden die 300 „fehlerhaften“ Instanzen fälschlicherweise ebenfalls der Klasse „fehlerfrei“ zugeordnet. Obwohl die Korrektklassifikationsrate für das angewendete Verfahren Parser-Fehler ('Lexing'-Fehler): \frac{3200}{3500}=\mathrm{91,43}\text{\%}

beträgt, muss die Fähigkeit des erlernten Modells, die Klasse „fehlerhaft“ richtig vorhersagen zu können, bezweifelt werden, da keine der „fehlerhaften“ Instanzen vom Klassifikationsverfahren im Rahmen der Vorhersage richtig klassifiziert wurde. Um die Korrektklassifikationsrate richtig einschätzen zu können, bietet sich hierzu die Aufstellung einer sog. Konfusionsmatrix an: hierbei wird in einer Matrix die Anzahl der richtig vorhergesagten Klassen der Anzahl der falsch vorhergesagten Klassen gegenübergestellt, so dass sich für den beschriebenen Zwei – Klassen Fall folgende Darstellung ergibt:


Vorhergesagte Klasse
Tatsächliche Klasse Klasse 1

(„positiv“)

Klasse 2

(„negativ“)

Klasse 1

(„positiv“)

Anzahl der Instanzen, die tatsächlich zur Klasse 1 gehören und auch vom Modell der Klasse 1 zugeordnet wurden („richtig positiv“) Anzahl der Instanzen, die tatsächlich zur Klasse 1 gehören und vom Modell fälschlicherweise der Klasse 2 zugeordnet wurden („falsch negativ“)
Klasse 2

(„negativ“)

Anzahl der Instanzen, die tatsächlich zur Klasse 2 gehören und vom Modell fälschlicherweise der Klasse 1 zugeordnet wurden („falsch positiv“) Anzahl der Instanzen, die tatsächlich zur Klasse 2 gehören und auch vom Modell der Klasse 2 zugeordnet wurden („richtig negativ“)

Tabelle 7: Konfusionsmatrix am Beispiel zweier Klassen


Bei dem Zwei-Klassen Fall lassen sich in der Regel die Klassen über einen „positiven“ Sachverhalt (Klasse 1, z.B. „Artikel ist fehlerfrei“) und einen „negativen“ Sachverhalt (Klasse 2, z.B. „Artikel ist fehlerhaft“) beschreiben. Die Instanzen der Klasse 1, die auch als solche vom Modell erkannt wurden, bezeichnet man demnach als „richtig positiv erkannt“, wohingegen die fälschlicherweise der Klasse 1 zugeordneten Instanzen der Klasse 2 als „falsch positiv erkannt“ bezeichnet werden. Analog werden die Instanzen der Klasse 2, die auch als solche vom Modell erkannt wurden, als „richtig negativ erkannt“ bezeichnet, falsch klassifizierte Klasse 1 Instanzen hingegen als „falsch negativ erkannt“.


Vorhergesagt Klasse
Tatsächliche Klasse „fehlerfrei“ „fehlerhaft“
„fehlerfrei“ 3200 0
„fehlerhaft“ 300 0

Tabelle 8: Konfusionsmatrix Inventur-BeispielFür das zuvor aufgeführte Inventur - Beispiel sieht die Konfusionsmatrix wie folgt aus:


Aus dieser Darstellung lässt sich leicht entnehmen, dass das erlernte Modell nicht in der Lage ist, „fehlerhafte“ Artikel auch als solche zu klassifizieren.

Dieser Zusammenhang lässt sich durch die Größen „Richtigpositiv-Rate“ (engl. true positive rate), ,„Falschpositiv-Rate“ (engl. false positive rate), „Richtignegativ-Rate“ (engl. true negative rate), „Falschnegativ-Rate“ (engl. false negative rate) sowie den beiden Größen positiver Vorhersagewert und negativer Vorhersagewert (engl. precision) wie folgt quantifizieren[150]:

Parser-Fehler ('Lexing'-Fehler): \mathrm{Richtigpositiv}-\mathrm{Rate}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\text{'}\mathrm{positiven}\text{'}}{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\text{'}\mathrm{positiven}\text{'}+\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\text{'}\mathrm{negativen}\text{'}}

Die Richtigpositiv-Rate gibt an, wie hoch der Anteil der richtiger weise als „positiv“ klassifizierten Instanzen an den tatsächlich „positiven“ Instanzen ist.

Parser-Fehler ('Lexing'-Fehler): \mathrm{Falschnegativ}-\mathrm{Rate}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\text{'}\mathrm{negativen}\text{'}}{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\text{'}\mathrm{positiven}\text{'}+\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\text{'}\mathrm{negativen}\text{'}}

Die Falschnegativ-Rate gibt an, wie hoch der Anteil der fälschlicherweise als „negativ“ klassifizierten Instanzen an den tatsächlich „positiven“ Instanzen ist.

Parser-Fehler ('Lexing'-Fehler): \mathrm{Richtignegativ}-\mathrm{Rate}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\text{'}\mathrm{negativen}\text{'}}{\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\text{'}\mathrm{positiven}\text{'}+\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\text{'}\mathrm{negativen}\text{'}}

Die Richtignegativ-Rate gibt an, wie hoch der Anteil der richtiger weise als „negativ“ klassifizierten Instanzen an den tatsächlich „negativen“ Instanzen ist.

Parser-Fehler ('Lexing'-Fehler): \mathrm{Falschpositiv}-\mathrm{Rate}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\text{'}\mathrm{positiven}\text{'}}{\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\text{'}\mathrm{positiven}\text{'}+\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\text{'}\mathrm{negativen}\text{'}}


Die Falschpositiv-Rate gibt an, wie hoch der Anteil der fälschlicherweise als „positiv“ klassifizierten Instanzen an den tatsächlich „negativen“ Instanzen ist.

\begin{array}{c}\mathrm{Positiver}\\ 
\mathrm{Vorhersagewert}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\mathrm{positiven}}{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\mathrm{positiven}+\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\mathrm{positiven}}\end{array}

Diese Kennzahl drückt aus, wie hoch der Anteil der richtiger weise als positiv klassifizierten Instanzen an den insgesamt als positiv klassifizierten Instanzen ist.

\begin{array}{c}\mathrm{Negativer}\\ 
\mathrm{Vorhersagewert}=\frac{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\mathrm{negativen}}{\mathrm{Anzahl}\mathrm{der}\mathrm{richtig}\mathrm{negativen}+\mathrm{Anzahl}\mathrm{der}\mathrm{falsch}\mathrm{negativen}}\end{array}

Im Gegensatz zum positiven Vorhersagewert drückt der negative Vorhersagewert aus, wie hoch der Anteil der richtiger weise als negativ klassifizierten Instanzen an den insgesamt als negativ klassifizierten Instanzen ist

Anhand der Konfusionsmatrix in Verbindung mit den oben aufgeführten Kennzahlen lässt sich eine Aussage über die Güte eines Klassifikationsverfahren in Bezug auf die vorliegenden Trainingsdaten treffen. Zur Ermittlung dieser Informationen bieten sich folgende Vorgehensweisen an:

  • Für die Bestimmung der Güte werden die Testdaten verwendet.
  • Die Trainingsdaten werden prozentual aufgeteilt in zwei Teile: der erste Teil der Trainingsdaten wird für die Bildung des Modells verwendet, der zweite Teil für die Bestimmung der Güte
  • Die Güte wird mit anhand von separaten Testdaten bestimmt, die nicht Teil der Trainingsdaten waren.
  • k – Kreuzvalidierung: bei dieser Vorgehensweise werden die Testdaten in k disjunkte Teilmengen T1,..,Tk gleicher Größe aufgeteilt. In der ersten Iteration fungieren die Elemente der Teilmenge T1 als Trainingsdaten, die übrigen Teilmengen werden zur Bestimmung der Güte des erlernten Modells herangezogen. In der k-ten Iteration werden die Trainingsdaten aus der Teilmenge Tk entnommen, während die Teilmengen T1,..,Tk − 1 zur Bestimmung der Güte verwendet werden. Durch diese Vorgehensweise wird jede Instanz sowohl zur Bildung des Modells als auch zur Prüfung desselben herangezogen.
  • Bootstrapping: aus der Menge der Trainingsdaten werden zufällig Instanzen entnommen, die zum Erlernen des Modells verwendet werden. Dieser Vorgang wird mehrfach wiederholt, dabei kann durchaus ein Instanz mehrfach für den Lernvorgang ausgewählt werden.

4.3 Maschinelles Lernen mit WEKA

Bei WEKA („Waikato Environment for Knowledge Analysis“) handelt es sich um ein Programmpaket, welches die Anwendung von maschinellen Lernverfahren aus den Bereichen Assoziationsanalyse, Klassenbildung und Klassifikation auf unterschiedlichen Datenquellen ermöglicht. Die Software wurde an der Universität von Waikato, Neuseeland in Java entwickelt und ist unter Berücksichtigung der GNU Public License kostenlos im Internet erhältlich[151]. Da im Rahmen dieser Arbeit die Anwendung von Klassifikationsverfahren von besonderem Interesse ist, wird im folgenden dargestellt, wie die Klassifizierung von Daten mittels WEKA erfolgt. Bei dem dabei diskutierten Beispiel handelt es sich um folgendes Szenario: in einer Datei liegen Informationen darüber vor, bei welchen Wetterbedingungen ein Kind spielen ging und wann nicht. Die in den Trainingsdaten enthaltenen Attribute und Attributwerte lauten: „outlook“ (sunny, overcast, rainy), „temperature“ (hot, mild, cold), „humidity“ (high, normal), „windy“ (TRUE, FALSE ) und „play“ (yes, no).


4.3.1 Einlesen der Trainingsdaten

[[Image:|thumb|Abbildung 15: Import Trainingsdaten WEKA]]Nach dem Start der Anwendung wird durch einen Klick auf die Schaltfläche „Explorer“ der Explorer von WEKA gestartet. In dem folgenden Dialog öffnet sich durch einen Klick auf die Schaltfläche „Open File...“ ein Dateiauswahldialog. Die im Rahmen der Installation von WEKA mitgelieferten Dateien befinden sich unterhalb des Programmverzeichnisses in dem Verzeichnis „Data“. Aus diesem Verzeichnis wird die Datei „weather.nominal.arff“ ausgewählt und durch einen Klick auf die Schaltfläche „Öffnen“ in den WEKA – Explorer geladen. WEKA ermittelt daraufhin die Attributtypen der in den Trainingsdaten enthaltenen Attribute. Dabei wird das letzte Attribut der Attributliste (in diesem Fall „play“) automatisch von WEKA als Klassifikationsattribut ausgewählt:


Wie dem obigen Screenshot zu entnehmen ist, stellt WEKA in der unten rechts dargestellten Grafik die Häufigkeitsverteilung der Attributwerte für das aktuell ausgewählte Attribut (in diesem Fall „outlook“) dar. Dabei wird pro Attributwert farblich dargestellt, wie sich die einzelnen Klassifikationen des Klassenattributs auf die jeweiligen Attributwerte verteilen. Für das Klassenattribut „play“ wird der Anteil der Klasse „yes“ in blau und für die Klasse „no“ in rot dargestellt. Somit lässt sich dieser Grafik bereits entnehmen, dass das Kind bei sonniger Wetterlage eher nicht zum Spielen neigt. Ein ähnlicher Sachverhalt zeigt sich, wenn das Attribut „humidity“ ausgewählt wird.

Neben diesen allgemeinen Informationen bietet WEKA auch die Möglichkeit, die Daten vor der eigentlichen Klassifikation zu manipulieren. Es können Attribute entfernt werden (siehe Schaltfläche „Remove“) oder aber einzelne Trainingsdatensätze durch Anwenden eines Filters von der Klassifikation ausgeschlossen werden.

4.3.2 Anwendung der Lernverfahren

[[Image:|thumb|Abbildung 16: Klassifizieren mit WEKA]]Durch einen Klick auf den Reiter „Classify“ wird der Dialog zur Klassifizierung der geladenen Trainingsdaten angezeigt:


Über einen Klick auf den Button „Choose“ kann das Klassifikationsverfahren ausgewählt werden. Die von WEKA angebotenen Klassifikationsverfahren werden dabei in einer Baumstruktur angezeigt. Als Klassifikationsverfahren wird für dieses Beispiel das Entscheidungsbaumverfahren „J48“ ausgewählt, welches innerhalb des Baumes unter dem Ordner „trees“ zu finden ist. Nach erfolgter Auswahl wird der Name des gewählten Verfahrens in dem obigen Dialog angezeigt:

[[Image:|thumb|Abbildung 17: Auswahl Klassifizierungsverfahren]]

Durch einen Klick auf den Namen des ausgewählten Klassifikationsverfahrens öffnet sich ein weiterer Dialog. In diesem Dialog können Parameter spezifiziert werden, die das Lernverhalten des gewählten Verfahrens beeinflussen. Für dieses Beispiel werden die in dem Dialog angegebenen Voreinstellungen übernommen.

Unter der Rubrik „Test options“ kann festgelegt werden, wie die Bestimmung der Kennzahlen zur Beurteilung der Güte des gewählten Verfahrens erfolgen soll. Für dieses Beispiel wird die Voreinstellung „cross – validations“ (k-Kreuzvalidierungstest) übernommen. Durch einen Klick auf die Schaltfäche „Start“ wird schließlich die Lernphase gestartet.

4.3.3 Interpretation der Ergebnisse

Unter der Rubrik „Classifier output“ erfolgt die Ausgabe der von WEKA während des Lernvorganges gesammelten Informationen. Die von WEKA ermittelte Konfusionsmatrix lautet für das hier diskutierte Beispiel folgendermaßen:

=== Confusion Matrix ===

a b <-- classified as

5 4 | a = yes

3 2 | b = no


Wie dieser Matrix entnommen werden kann, war die Klasse „yes“ insgesamt neun mal unter den Trainingsdaten vertreten, die Klasse „no“ hingegen fünf mal. Aus der Konfusionsmatrix lassen sich folgende Kennzahlen entnehmen:

  • Richtigpositivrate Klasse „yes“: das gewählte Verfahren hat für fünf Instanzen die Klasse „yes“ richtig vorhergesagt, während es vier Instanzen fälschlicherweise den Wert „no“ zugeordnet hat. Somit ergibt sich eine Richtigpositivrate von 5/(5+4) = 5/9 = 0,5556, d.h. lediglich 55,55% der tatsächlich zur Klasse „yes“ gehörenden Instanzen wurden dieser auch zugeordnet.
  • Falschnegativ-Rate Klasse „yes“: 4/(4+5) = 4/9 = 0,4444, somit sind 44,44% der „yes“ Instanzen als „no“ Instanzen klassifiziert worden.
  • Richtignegativrate Klasse „no“: für die Klasse „no“ beträgt die Richtignegativ – Rate 2/(2+3) = 2/5 = 0,4, d.h. nur 40 % der „no“ Instanzen wurden auch als solche durch das Verfahren erkannt.
  • Falschpositivrate Klasse „no“: 3/(3+2) = 3/5 = 0,6, d.h. 60% der „no“ Instanzen wurden als „yes“ Instanzen klassifiziert.
  • Positiver Vorhersagewert: 5/(5+3) = 5/8 = 0,625
  • Negativer Vorhersagewert: 2/(2+4) =1/3 = 0,3333 beträgt.

Anhand der Kennzahlen lässt sich feststellen, dass die Güte des gewählten Klassifikationsverfahrens für einen sinnvollen Einsatz nicht ausreichend ist, zumal die Korrektklassifikationsrate nur bei 7/14 = 50% liegt. Wählt man jedoch als Verfahren den Backpropagation-Algorithmus auf Basis eines neuronalen Netzwerkes (WEKA Verfahren „Multilayer Perceptron“), so fällt die Korrektklassifikationsrate deutlich höher aus, sie liegt dann bei über 70%.


5 Konzeption einer Stichprobeninventur auf Basis maschineller Lernverfahren

Betrachtet man die vorgestellten Inventurverfahren unter den Gesichtspunkten „Wirtschaftlichkeit“ und „Qualität der Lagerbuchführung“, so lässt sich folgender Zusammenhang herstellen[152]:

Bei einer Stichtagsinventur (Vollinventur) wird eine höchstmögliche Qualität der Lagerbuchführung realisiert, da durch die vollständige körperliche Aufnahme aller Positionen sämtliche Inventurdifferenzen aufgedeckt werden. Allerdings ist bei der Vollinventur der Aufwand für die Inventurdurchführung gerade aufgrund der vollständigen körperliche Aufnahme im Vergleich zur Stichprobeninventur deutlich höher. Unter dem Aspekt der Wirtschaftlichkeit ist somit eine Stichprobeninventur einer Vollinventur vorzuziehen.

Bei der Stichprobeninventur hingegen werden bedingt durch die Zufallsauswahl der Positionen wesentlich weniger Inventurdifferenzen aufgedeckt als bei einer Vollinventur. Das heißt, das nach der Durchführung einer Stichprobeninventur in der Grundgesamtheit fehlerhafte Positionen verbleiben, obwohl die Lagerbuchführung durch das verwendete Schätz-/Testverfahren als ordnungsmäßig angenommen wurde. Dieser Nachteil hinsichtlich der Qualität der Lagerbuchführung lässt sich nur dadurch vermeiden, dass im Rahmen der Stichprobeninventur zusätzliche Positionen körperlich aufgenommen werden, wodurch allerdings der Inventuraufwand steigt. Insgesamt ist somit unter dem Aspekt der Qualität der Lagerbuchführung eine Vollinventur der Stichprobeninventur vorzuziehen.

Um beiden Aspekten gerecht werden zu können, schlägt Stuers in seiner Arbeit „Wirtschaftlichkeit und Qualität der Lagerbuchführung“ vor, die durch die Stichprobeninventur zufallsbedingte Auswahl von Positionen durch eine gezielte Auswahl der Positionen zu ergänzen, für die das Vorliegen einer Inventurdifferenz als wahrscheinlich angenommen werden kann[153]. Die Klassifikation der Positionen in „wahrscheinlich fehlerfrei“ (= keine Inventurdifferenz vorhanden) und „wahrscheinlich fehlerhaft“ (= Inventurdifferenz vorhanden) erfolgt dabei mit Hilfe eines Klassifikationsverfahrens[154]. Die von dem Verfahren als „wahrscheinlich fehlerhaft“ klassifizierten Positionen werden dann einer von der Grundgesamtheit zuvor abgegrenzten Vollaufnahmeschicht hinzugefügt und damit einer vollständig körperlichen Aufnahme unterzogen. Ziel dieser Vorgehensweise ist es, einen hohen wertmäßigen Umfang an Inventurdifferenzen aufzudecken, um so letztendlich die Qualität der Lagerbuchführung zu steigern[155]. Nach der körperlichen Aufnahme der Positionen erfolgt an Hand der in der Stichprobenschicht verbliebenen Positionen die Überprüfung der Ordnungsmäßigkeit der Lagerbuchführung mit Hilfe des Sequentialdifferenzentests. Unter der Annahme, dass die wertmäßig hohen Inventurdifferenzen im Rahmen der Aufnahme der Vollerhebungsschicht bereits aufgedeckt wurden, bietet der Sequentialdifferenzentest den Vorteil, dass für die Annahme der Lagerbuchführung relativ geringe Stichprobenumfänge zu erwarten sind[156].

5.1 Ablauf der Strichprobeninventur

Im Hinblick auf die in dieser Arbeit zu entwickelnde Anwendung zur Abwicklung einer Stichprobeninventur auf Basis maschineller Lernverfahren wird der Ablauf der Stichprobeninventur in drei Phasen eingeteilt: in der Phase 1 „Inventurvorbereitung“ werden die Trainingsdaten bereitgestellt und das anzuwendende Klassifikationsverfahren festgelegt und trainiert. In der Phase 2 „Inventurdurchführung“ erfolgt die Bildung der Vollaufnahmeschicht unter Einbeziehung der von dem Klassifikationsverfahren ermittelten „wahrscheinlich fehlerhaften“ Positionen. Nach der körperlichen Aufnahme der Vollaufnahmeschicht folgt die Abwicklung des Sequentialdifferenzentests zur Überprüfung der Ordnungsmäßigkeit der Lagerbuchführung. In der Phase 3 „Inventurabschluss“ erfolgt die Korrektur der im Rahmen der Inventur aufgedeckten Differenzen in der Lagerbuchführung sowie die Ergänzung der Trainingsdaten um die Klassifikation der körperlich aufgenommenen Positionen.

Für die folgenden Ausführungen sollen folgende Annahmen getroffen werden:

  • Ausgangspunkt für die Bildung der Vollaufnahmeschicht sowie der Stichprobenschicht ist eine nach zeitlichen, örtlichen und sachlichen Kriterien abgegrenzte Grundgesamtheit, die sog. Lagergrundgesamtheit[157].
  • Die Lagergrundgesamtheit ist vollständig in der Lagerbuchführung verzeichnet.
  • In Bezug auf die Zerlegung der Grundgesamtheit in einzelne Elemente wird davon ausgegangen, dass der Artikel die Erhebungs- und Auswertungeinheit darstellt[158]. Dabei ist jeder Artikel eindeutig durch seine Artikelnummer identifizierbar. Jeder Artikel ist durch seinen Artikelbuchwert gekennzeichnet.
  • Zur Bildung des Artikelbuchwertes liegen in der Lagerbuchführung pro Artikel die Informationen Menge (= Soll-Bestand) und Preis vor, der Artikelbuchwert ergibt sich somit als Produkt aus Menge und Preis.
  • Das im folgenden dargestellte Konzept bezieht sich auf die Durchführung einer Stichtags-Stichprobeninventur.

5.1.1 Inventurvorbereitung

Damit ein Klassifikationsverfahren bei der Durchführung der Stichprobeninventur (Phase 2) die Klassifikation der Artikel in die beiden Klassen „fehlerfrei“ und „fehlerhaft“ vornehmen kann, muss das Klassifikationsverfahren entsprechend trainiert und auf seine Güte hin überprüft worden sein. Hierzu müssen entsprechende Trainingsdaten vorliegen. Im folgenden wird eine allgemeine Vorgehensweise beschrieben, wie solche Trainingsdaten erstellt werden können.

5.1.1.1 Datengrundlage

Als Datengrundlage für die Erstellung der Trainingsdaten müssen Informationen vorliegen, über die die Artikel in die Klassen „fehlerfrei“ bzw. „fehlerhaft“ eingeteilt werden können. In der Regel bieten sich hierzu gespeicherte Inventurergebnisse vergangener Inventuren an. Beinhalten diese Daten z.b. die Artikelnummer sowie die Informationen „Soll-Menge“ und „Ist-Menge“ (gezählte Menge), so kann jeder Artikel eindeutig einer entsprechenden Klasse zugeordnet werden: ist die „Ist-Menge“ ungleich der „Soll-Menge“, so wird der Artikel als „fehlerhaft“ gekennzeichnet, ansonsten als „fehlerfrei“.

Auf Basis der extrahierten Informationen Artikel und Klasse je Artikel müssen nun die Attribute festgelegt werden, an Hand derer das Klassifikationsverfahren die Klassifikation vornehmen soll.

5.1.1.2 Auswahl der Attribute

Welche Attribute der Artikel zu einem Klassifikationsverfahren hoher Güte führen, kann nicht allgemeingültig festgelegt werden, da die Klassifikation eines Artikels als „fehlerfrei“ oder „fehlerhaft“ von den unterschiedlichsten Eigenschaften eines Artikels abhängen kann, wie z.B.

  • Art des Artikels: Kaufteil oder selbst hergestellter Artikel
  • Beschaffenheit des Artikels: flüssig, fest, gasförmig
  • Lieferant des Artikels
  • Umschlaghäufigkeit des Artikels
  • Anzahl der Rücklieferungen an den Lieferanten
  • Anzahl der Kommissioner- bzw. Einlagerungsvorgänge

Des weiteren bieten z.B. ERP-Systeme die Möglichkeit, Artikel nach unterschiedlichsten Gesichtspunkten zu gruppieren. Dies können zum Beispiel sein:

  • Artikelgruppe
  • Artikelfamilie
  • Artikelkontengruppe
  • ABC – Kennzeichen

Die Auswahl der Attribute hängt somit primär von den zur Verfügung stehenden Informationen über die Artikel ab. Sind die zur Verfügung stehenden Attribute bekannt, so sollte eine Vorauswahl der Attribute getroffen werden, die auf potentielle Fehlerquellen hindeuten (z.B. Lieferant, Artikelgruppe, Anzahl Kommissioniervorgänge). Eine bewusste Vorauswahl solcher Attribute kann aufgrund von subjektiven Erfahrungswerten getroffen werden. Ist eine bewusste Vorauswahl nicht möglich, so kann eventuell im Rahmen einer Assoziationsanalyse ein Zusammenhang zwischen bestimmten Attributen und der Klasse hergestellt werden.

5.1.1.3 Bereitstellen der Trainingsdaten

Nach Festlegung der Attribute müssen die bisher vorliegenden Informationen Artikel und Klasse je Artikel und pro ausgewähltem Attribut um die konkreten Attributwerte ergänzt werden. Im folgenden wird exemplarisch dargestellt, wie die Trainingsdaten aus einem ERP-System bereitgestellt werden können:

In einem ERP-System wurde jede durchgeführte Inventur archiviert. Dabei wurde zu jeder Artikelnummer die Soll-Menge sowie die Ist-Menge (Zählmenge) in einer Tabelle gespeichert.

Als Attribute für die Klassifikation wurden im Vorfeld die Attribute „Lieferant“, „Artikelgruppe“ und „Artikelfamilie“ ausgewählt. Diese Informationen sind pro Artikel im Artikelstamm des ERP-Systems hinterlegt.

Auf Basis dieser Informationen wird zunächst die Tabelle „Trainingsdaten“ erstellt. Diese Tabelle umfasst die Spalten „Artikelnummer“, „Lieferant“, „Artikelgruppe“ und „Artikelfamilie“ sowie die Spalte „Fehlerhaft J/N“.

Pro Datensatz des Inventurarchivs wird ein entsprechender Datensatz in der Tabelle „Trainingsdaten“ nach folgenden Schema erstellt:

Artikelnummer = Artikelnummer des aktuellen Datensatzes der Tabelle „Inventurarchiv“

Artikelgruppe = Artikelgruppe des aktuellen Artikels (aus Artikelstamm)

Lieferant = Lieferant des aktuellen Artikels (aus Artikelstamm)

Artikelfamilie = Artikelfamilie des aktuellen Artikels (aus Artikelstamm)

Fehler J/N = „J“ falls Ist-Menge ungleich Soll-Menge, ansonsten „N“

Mit der so erstellten Tabelle kann dann ein ausgewähltes Klassifikationsverfahren trainiert und untersucht werden. Dabei ist eine Besonderheit bezüglich der Spalte „Artikelnummer“ zu beachten: basieren die erstellten Trainingsdaten auf dem archivierten Ergebnis einer einzigen Inventur, so besteht ein eindeutiger Zusammenhang zwischen dem Attribut „Artikelnummer“ und der jeweiligen Klassenzugehörigkeit („Fehler J/N“). Dieser Zusammenhang wird in der Regel von den maschinellen Lernverfahren erkannt. Das heißt, das Klassifikationsverfahren wird nach erfolgter Lernphase pro Artikel exakt die Klasse vorhersagen, die in den Trainingsdaten hinterlegt ist, da das erlernte Modell genau bei diesem Attribut den stärksten Zusammenhang zur entsprechenden Klassifikation herstellen kann. Im Hinblick auf den weiteren Ablauf der Stichprobeninventur bedeutet dies, dass die Vollaufnahmeschicht genau die Artikel umfassen wird, die in den Trainingsdaten als fehlerhaft gekennzeichnet sind. In diesem Fall sollte die Spalte „Artikelnummer“ vor Starten des Lernvorganges aus den Trainingsdaten entfernt werden.

Für die Auswahl der Attribute und die damit verbundene Bestimmung eines geeigneten Klassifikationsverfahrens sollte bei der Planung der Inventur ausreichend Zeit vorgesehen werden[159], so dass das Klassifikationsverfahren zum Stichtag der Inventur bereits in trainierter Form vorliegt.

5.1.2 Inventurdurchführung

Für die Durchführung der Inventur werden pro Artikel neben den Artikelinformationen (Artikelnummer, Soll-Menge, Preis) auch die konkreten Attributwerte je ausgewähltem Attribut benötigt. Diese Daten sind zwingend notwendig, damit das trainierte Klassifikationsverfahren eine Auswahl der „wahrscheinlich fehlerhaften“ Artikel treffen kann.

Anhand der Artikelbuchwerte erfolgt zunächst die Bildung einer Vollaufnahmeschicht. Dabei werden die Artikel der Lagergrundgesamtheit mit den höchsten Artikelbuchwerten bis hin zu einer festgelegten Cut-Off Grenze ausgewählt[160]. Nach den Angaben des IDW ist es ausreichend, wenn die Vollaufnahmeschicht 3 – 5 % der Positionen umfasst. Allerdings sollte die obere Grenze aufgrund der Erfahrung des Inventurleiters festgelegt werden können. Je mehr Positionen in der Vollaufnahmeschicht enthalten sind und damit vollständig körperlich aufgenommen werden, um so sicherer ist eine Aussage bezüglich der Qualität der Lagerbuchführung. Jedoch sollte der Inventurleiter bei der Festlegung der Grenze auch wirtschaftliche Aspekte mit einfließen lassen (mehr Positionen = höherer Inventuraufwand).

Nach der Festlegung der Vollaufnahmeschicht wird diese um die Artikel ergänzt, die durch Anwendung des zuvor bestimmten und trainierten Klassifikationsverfahrens als „wahrscheinlich fehlerhaft“ klassifiziert werden.

Anschließend wird für die Artikel der Vollaufnahmeschicht eine Zählliste erstellt. Auf dieser Zählliste werden pro Artikel die gezählten Mengen erfasst.

Nachdem alle Artikel der Vollaufnahmeschicht vollständig körperlich erfasst wurden, wird mit den verbliebenen Artikeln der Stichprobenschicht die Ordnungsmäßigkeit der Lagerbuchführung mit Hilfe des Sequentialdifferenzentests überprüft.

Hierzu ist zunächst im Rahmen einer Vorstichprobe die Varianz der Differenzen zu ermitteln. Der Umfang der Vorstichprobe darf dabei einen Mindeststichprobenumfang von 30 Artikeln nicht unterschreiten. Für die ausgewählten Artikel der Vorstichprobe wird eine Zählliste erstellt. Nach erfolgter körperlicher Aufnahme der Artikel der Vorstichprobe wird an Hand der Zählergebnisse die Varianz geschätzt.

Mit Hilfe dieser Information kann nun der Sequentialdifferenzentest wie folgt durchgeführt werden[161]:

  1. Unter Berücksichtigung eines zuvor festgelegten Stichprobenumfanges erfolgt zunächst die zufällige Auswahl von Artikeln aus der Stichprobenschicht.
  2. Für die ausgewählten Artikel der Stichprobenschicht wird eine Zählliste erstellt.
  3. Nach erfolgter körperlicher Aufnahme der Artikel muss aufgrund der eventuell aufgedeckten Differenzen über die Hypothesen entschieden werden. Führt der Sequentialdifferenzentest zu keiner Entscheidung, so müssen weitere Artikel aus der Stichprobenschicht ausgewählt werden. Der Sequentialdifferenzentest wird somit bei Schritt 1 fortgesetzt.
  4. Führt der Sequentialdifferenzentest zur Ablehnung der Lagerbuchführung, so wird die laufende Stichprobeninventur abgebrochen. In diesem Fall ist die Durchführung einer Vollinventur notwendig.
  5. Führt der Sequentialdifferenzentest hingegen zur Annahme der Lagerbuchführung, so wird die laufende Stichprobeninventur beendet. In diesem Fall kann die Stichprobeninventur ordnungsgemäß abgeschlossen werden.

5.1.3 Inventurabschluss

Nachdem mit dem Sequentialdifferenzentest die Annahme der Lagerbuchführung bestätigt wurde, müssen die im Rahmen der Stichprobeninventur aufgedeckten Differenzen in der Lagerbuchführung korrigiert werden. Des weiteren werden die Trainingsdaten um die sich aus der Stichprobeninventur ergebenden Klassifikationen je Artikel inklusive der entsprechenden Attributwerte je Attribut ergänzt. Anschließend solle das bisher eingesetzte Klassifikationsverfahren auf seine Güte hin überprüft werden. Denn durch die Ergänzung der Trainingsdaten um die gewonnenen Erkenntnisse kann das Klassifikationsverfahren unter Umständen ein anderes Verhalten bezüglich der Genauigkeit der Vorhersagen aufweisen. Sollte sich die Güte des Klassifikationsverfahren verbessern, so ist dies ein Indiz dafür, dass im Vorfeld die richtigen Attribute ausgewählt wurden. Verschlechtert sich jedoch die Güte des Verfahrens, so muss entschieden werden, ob

  • auf ein anderes Klassifikationsverfahren ausgewichen wird oder
  • eine erneute Bestimmung der Attribute vorgenommen wird.

5.2 Beurteilung des Verfahrens im Hinblick auf die Grundsätze ordnungsgemäßer Inventur

  1. Vollständigkeit der Bestandsaufnahme

Für den Grundsatz der Vollständigkeit muss jedes Element der Stichprobenschicht eine Chance größer Null besitzen, in die Stichprobe zu gelangen. Ausgangspunkt des hier beschriebenen Konzepts ist eine Lagergrundgesamtheit, die vollständig in der Lagerbuchführung verzeichnet ist. Aus dieser Lagergrundgesamtheit wird zunächst die Vollerhebungsschicht gebildet, die dann um fehlerwahrscheinliche Artikel ergänzt wird. Die in der Lagergrundgesamtheit verbliebenen Artikel bilden die Stichprobenschicht. Für diese Artikel ist die Wahrscheinlichkeit, in die Stichprobe zu gelangen, gleich.

Eine weitere Forderung ist, dass die die Artikel der Stichprobe vollständig aufgenommen werden und das Ergebnis der Erhebung in das Stichprobenergebnis einfließt. Auch diese Forderung wird durch den Sequentialdifferenzentest abgedeckt.# Richtigkeit der Bestandsaufnahme

Aufgrund der insgesamt weniger aufzunehmenden Positionen im Vergleich zu einer Vollinventur ist es sehr wahrscheinlich, dass die körperliche Aufnahme mit einer größeren Sorgfalt vorgenommen wird. Im Ergebnis reduziert sich hierdurch die Wahrscheinlichkeit von Nicht-Stichprobenfehlern, so dass die Forderung nach einem korrekten Ausweis der Positionen nach Art, Menge und Wert in Bezug auf die Artikel der Vollerhebungsschicht sowie auf die Artikel der Stichprobenpositionen gegeben ist.# Einzelerfassung der Bestände

Der Grundsatz der Einzelerfassung und Einzelbewertung wurde für die Stichprobeninventur dahingehend ergänzt, dass dieser Grundsatz nur für die vollständig aufgenommenen Artikel erfüllt werden kann. Bei dem hier vorgestellten Konzept wird für die Artikel der Vollaufnahmeschicht sowie für die Artikel der Stichproben der Nachweis direkt durch die körperliche Bestandsaufnahme erbracht. Für die übrigen Artikel der Stichprobenschicht erfolgt der Nachweis indirekt über die Überprüfung der Ordnungsmäßigkeit der Lagerbuchführung im Rahmen des Sequentialdifferenzentests.# Nachprüfbarkeit der Bestandsaufnahme
Im Rahmen der Stichprobeninventur auf Basis maschineller Lernverfahren sind sämtliche die Inventur und das Inventar betreffende Maßnahmen zu dokumentieren. Bezogen auf die einzelnen Phasen des vorgestellten Konzepts bedeutet dies:
Inventurvorbereitung

  • Dokumentation der Trainingsdaten
  • Dokumentation des ausgewählten Klassifizierungsverfahren
    Inventurdurchführung
  • Dokumentation der Lagergrundgesamtheit
  • Darlegung der Cut-Off Grenze
  • Dokumentation der durch das Klassifizierungsverfahren ausgewählten Artikel
  • Dokumentation des Sequentialdifferenzentests unter Angabe der Parameter (α-Risiko, β-Risiko) sowie der im Rahmen der Stichprobenziehung ausgewählten Artikel
    Inventurabschluss
  • Ergebnis-Dokumentation des Sequentialdifferenzentests
  • Dokumentation der aufgedeckten Differenzen zur weiteren Verbuchung in der Lagerbuchhaltung


6 Analyse, Entwurf und Implementierung

Auf Basis des in Kapitel 5 vorgestellten Konzepts einer Stichprobeninventur auf der Basis maschineller Lernverfahren wird im folgenden die Implementierung einer Software beschrieben, die die Abwicklung einer Stichprobeninventur auf Basis maschineller Lernverfahren ermöglicht.

6.1 Pflichtenheft

6.1.1 Ziel - Bestimmung

Es soll eine Software zur Abwicklung einer Stichprobeninventur auf der Basis maschineller Lernverfahren entwickelt werden. Dabei ist die Stichprobeninventur als Stichtags-Stichprobeninventur zu verstehen.

6.1.1.1 Muss - Kriterien

  • Datenimport
    Die Software muss in der Lage sein, Trainingsdaten in dem WEKA - Dateiformat ARFF in die Software zu importieren. Ebenso müssen Daten über die Lagergrundgesamtheit (im folgenden als Bestandsdaten bezeichnet) in diesem Format importiert werden können.
  • Maschinelle Lernverfahren
    Das System muss mit Hilfe von maschinellen Lernverfahren die zuvor importierten Trainingsdaten hinsichtlich einer vorgegebenen Klassifikation klassifizieren können. Dabei muss das System Angaben über die Güte der Klassifikation machen können. Das System sollte auch in der Lage sein, importierte Bestandsdaten in einer Art Simulations-Modus zu klassifizieren, damit sich der Benutzer ein Bild über die Anzahl an zusätzlich aufzunehmenden Positionen machen kann.
  • Vollerhebungsschicht
    Auf Basis der importierten Bestandsdaten muss das System in der Lage sein, eine Vollerhebungsschicht unter Berücksichtigung einer vorgegebenen Cut-Off Grenze erstellen zu können. Die übrigen Bestandsdaten müssen mit Hilfe eines trainierten Klassifikationsverfahren in „wahrscheinlich fehlerfrei“ und „wahrscheinlich fehlerhaft“ klassifiziert werden können. Die als „wahrscheinlich fehlerhaft“ klassifizierten Bestandsdaten müssen vom System der Vollaufnahmeschicht zugeordnet werden können.
  • Zähllisten
    Das System muss für die Vollerhebungsschicht sowie für alle in der Folge zu prüfenden Stichproben Zähllisten im PDF – Format bereitstellen.
  • Erfassung Zählergebnisse
    Das System muss die Erfassung der Zählergebnisse ermöglichen.
  • Sequentialdifferenzentest
    Das System muss in der Lage sein, einen Sequentialdifferenzentest nach dem in Abschnitt 3.2.2.2 beschriebenen Verfahren abwickeln zu können. Hierzu gehört vor allem:
  • die zufällige Auswahl von Bestandsdaten für eine Vorstichprobe
  • die zufällige Auswahl von Bestandsdaten für die Bildung einer Stichprobe, die vom System im Hinblick auf eine zu treffende Testentscheidung entsprechend ausgewertet werden muss.
  • Differenzenliste
    Die Software muss die aufgedeckten Inventurdifferenzen auf einer Liste im PDF Format ausweisen.

6.1.1.2 Kann - Kriterien

Um dem Anwender die Bestimmung der Cut-Off Grenze zu erleichtern, ist die Darstellung der Lagerstruktur in Form einer Lorenzkurve zu empfehlen.

6.1.1.3 Abgrenzungskriterien

Das System enthält keine eigene Lagerbuchführung.

6.1.2 Anwendungsbereiche

Die Software wird operativ im Bereich des Lagers eingesetzt. Die Ergebnisse der Inventur werden in Form einer Differenzenliste an die Abteilung Finanzbuchhaltung weitergeleitet.

6.1.3 Umgebung

Die Software wird als Einzelplatzversion auf einem Arbeitsplatzrechner betrieben.

6.1.4 Benötigte Software

Auf dem Arbeitsplatzrechner muss ein Betriebssystem installiert sein, das mit der aktuellen Java Version ausgestattet ist (Windows XP, Linux, Mac-OS).

6.1.5 Benötigte Hardware

Für den Betrieb der Software wird ein PC mit einer Pentium 3 CPU, 500 MB Ram, 20 MB – 20 GB Festplattenplatz (je nach Größe der importierten Daten).

6.1.6 Schnittstellen

Da die Software über keine eigene Lagerbuchführung verfügt, müssen die im Rahmen der Erfassung der Zählergebnisse festgestellten Bestandsdifferenzen vielmehr über eine Exportfunktion einer Lagerbuchführung zur Verfügung gestellt werden können. Die Exportfunktion muss dabei sowohl das Excel- als auch das CSV-Format unterstützen.

6.1.7 Funktionalität

6.1.7.1 Datenimport

ID Kurzbeschreibung
F10 Import von Trainingsdaten im ARFF – Format (Beschreibung des Datenformats siehe Anhang 1)
F20 Funktion zur Anzeige der importierten Trainingsdaten
F30 Import von Bestandsdaten im ARFF – Format (Beschreibung des Datenformats siehe Anhang 1)
F40 Funktion zur Anzeige der importierten Bestandsdaten

Tabelle 9: Funktionen „Datenimport“

6.1.7.2 Maschinelle Lernverfahren

ID Kurzbeschreibung
F50 Funktion zur Auswahl, Ausführung und Beurteilung eines Klassifikationsverfahren (Trainingsphase)
F60 Funktion zur Klassifizierung von Bestandsdaten in die Klassen „wahrscheinlich fehlerfrei“ und „wahrscheinlich fehlerhaft“ mit Hilfe eines trainierten Klassifikationsverfahren
F65 Die in F60 genannte Funktion muss ebenfalls als Simulation ausführbar sein.

Tabelle 10: Funktionen "Maschinelle Lernverfahren"

6.1.7.3 Inventurdurchführung

ID Kurzbeschreibung
F70 Funktion zur Erstellung einer Vollaufnahmeschicht aus den Bestandsdaten unter Berücksichtigung einer vorgegebenen Cut-Off Grenze
F80 Funktion zur Übernahme der klassifizierten Bestandsdaten (siehe F60) in die Vollaufnahmeschicht
F81 Funktion zur Erstellung einer Zählliste für die Vollaufnahmeschicht
F82 Funktion zur Erfassung der Zählergebnisse der körperlichen Bestandsaufnahme der Vollaufnahmeschicht
F90 Funktion zur Erstellung einer Vorstichprobe (zufallsgesteuerte Auswahl)
F91 Funktion zur Erstellung einer Zählliste für die Vorstichprobe
F92 Funktion zur Erfassung der Zählergebnisse der körperlichen Bestandsaufnahme der Vorstichprobe
F100 Funktion zu Erstellung einer Stichprobe für den Sequentialdifferenzentest (zufallsgesteuerte Auswahl)
F101 Funktion zur Erstellung einer Zählliste für die Stichprobe
F102 Funktion zur Erfassung der Zählergebnisse der körperlichen Bestandsaufnahme der Stichprobe
F103 Funktion zur Berechnung einer Testenscheidung (Sequentialdifferenzentest)

Tabelle 11: Funktionen "Inventurdurchführung"

6.1.7.4 Inventurabschluss

ID Kurzbeschreibung
F110 Funktion zur Übernahme von Bestandsdaten, die im Rahmen der Stichprobeninventur einer körperlichen Bestandsaufnahme unterzogen wurden, in die Trainingsdaten
F120 Funktion zur Ausgabe einer Differenzenliste
F130 Funktion zum Export der aufgedeckten Inventurdifferenzen

Tabelle 12: Funktionen "Inventurabschluss"

6.1.8 Daten

ID Kurzbeschreibung
D10 Beim Import der Trainingsdaten sind folgende Daten über die Struktur der Trainingsdaten zu speichern:


- Namen der Attribute

- Typen der Attribute



D20 Die in den Trainingsdaten gespeicherten Instanzen müssen unter Berücksichtigung des Attributnamens und -typs gespeichert werden.
D30 Beim Import der Bestandsdaten sind folgende Daten über die Struktur der Bestandsdaten zu speichern:


- Namen der einzelnen Datenfelder/Attribute

- Typen der Datenfelder/Attribute



D40 Die in den Bestandsdaten zusätzlich zu den Bestandsdaten gespeicherten Instanzen müssen unter Berücksichtigung des Datenfeld-/Attributnamens und -typs gespeichert werden.

Tabelle 13: Erkannte Datenstrukturen


6.1.9 Benutzeroberfläche

Die Benutzeroberfläche muss gängigen GUI – Standards folgen (menüorientiert, Bedienung der GUI – Elemente per Maus).

6.1.10 Globale Testfälle

T01 Test der Importfunktionen mit nicht ARFF konformen Daten.



T02 Die Reihenfolge der Ausführung der Funktionen bei der Durchführung der Inventur muss eingehalten werden (F80 – F103)
T03 Trainieren eines Klassifikationsverfahrens, Vergleich des Vorhersageergebnisses mit dem Vorhersageergebnis einer in WEKA durchgeführten Klassifikation bei Einbeziehung der gleichen Trainingsdaten.
T04 Durchführen eines Sequentialdifferenzentests, Kontrolle der berechneten Werte für die Annahme-/Rückweisungsgrenzen

Tabelle 14: Globale Testfälle

6.1.11 Entwicklungsumgebung

Die Entwicklung der Software erfolgt in der Programmiersprache Java mit der Entwicklungsumgebung Netbeans 6.7.

7 Literaturverzeichnis

Alag09 Alag, Satnam: Collective Intelligence in Action, Manning Publications, Greenwich 2009, ISBN 1933988312
Ange89 Angele, German: Anerkannte mathematisch-statistische Methoden zur Stichprobeninventur, Florentz, München 1989, ISBN 3-88259-665-1
Bram07 Bramer, Max: Principles of Data Mining, Springer-Verlag, London 2007, ISBN 1846287650
HaKa06 Han, Jiawei; Kamber, Micheline: Data Mining – Concepts and Techniques, 2. Auflage, Morgan Kaufmann Publishers, San Francisco 2006, ISBN 1558609016
IDW08 Institut der Wirtschaftsprüfer IDW (Hrsg.): IDW Prüfungsstandards (IDW PS), IDW Stellungnahmen zur Rechnungslegung (IDW RS) Band III, IDW-Verlag, Düsseldorf 2008, ISBN 3802108760
Jasp94 Jaspers, Wolfgang: Stichprobeninventur in der Praxis, Deutscher Universitäts-Verlag, Wiesbaden 1994, ISBN 3824460564
Klein67 Möglichkeiten der Anwendung statistischer Verfahren bei der Inventur des Vorratsvermögens, Diss., Universität Köln, 1967
Puzi97 Puzicha-Neubeiser, Carina-H.: Theorie der Stichprobeninventur und ihre Akzeptanz in der Praxis, Diss., Universität Tübingen, Tübingen 1997
OPSW01 OpenSwing Lizenzvereinbarung, http://oswing.sourceforge.net/licence.html (30.07.2009, 13:31)
Quic00 Quick, Rainer: Inventur, IDW-Verlag, Düsseldorf 2000, ISBN 3802108655
Quic07 Quick Rainer: Bilanzierung in Fällen, 3. Auflage, Schäffer-Poeschel Verlag für Wirtschaft, Stuttgart 2007, ISBN 9783791024998
Bart67 Bartke, Günther; Arbeitskreis Ludewig der Schmalenbach-Gesellschaft: Die Vorratsinventur – herkömmliche und moderne Systeme und Verfahren, Westdeutscher Verlag, 1967
ScOb81 Scherrer, Gerhard; Obermeier, Irmgard: Stichprobeninventur - theoretische Grundlagen und praktische Anwendung, Vahlen, München 1981, ISBN 3800609029
SoWa49 Sobel, Milton; Wald, Abraham: A Sequential Decision Procedure for Choosing One of Three Hypotheses Concerning The Unknown Mean of A Normal Distribution in The Annals of Mathematical Statistics, Volume 20, Number 4 (1949), S. 502-522,

DOI: http://dx.doi.org/10.1214/aoms/1177729944

Stue05 Stuers, Markus: Wirtschaftlichkeit und Qualität der Lagerbuchführung, IDW-Verlag, Düsseldorf 2005, ISBN 3802111206
Stur83 Sturm, Lucie: Vorratsinventur mit Stichprobenverfahren, Verlag Harri Deutsch, Frankfurt am Main 1983, ISBN 3871447692
SUN01 Java DB Lizenzvereinbarung, http://developers.sun.com/javadb/ (30.07.2009, 13:17)
UHD+02 v. Ulmer, Peter (Hrsg.): Rechnungslegung. Abschlußprüfung. Publizität. Teilband 1: §§ 238-289 HGB. Grundlagen. Jahresabschluss der Personen- und Kapitalgesellschaften, 1. Auflage, Verlag de Gruyter, 2002, ISBN 9783110119473
Wald47 Wald, Abraham: Sequential Analysis, Dover Publications Inc., Dover Edition (Reprint), 2004, ISBN 0486439127
WEKA01 WEKA Lizenzvereinbarung, http://www.cs.waikato.ac.nz/~ml/weka/index.html (28.07.2009, 16:02)
WiFr05 Witten, Ian H.; Frank, Eibe: Data Mining – Practical Machine Learning Tools and Techniques, 2. Auflage, Morgan Kaufmann Publishers, San Francisco 2005, ISBN 0120884070
  1. Vgl. [Stue05, S.1]
  2. Vgl. [Quic00, S. 2]
  3. Vgl. [Quic00, S.2]
  4. Vgl. [Quic00, S.4]
  5. Vgl. [Stue05, S. 1]
  6. Vgl. [UHD+02, S. 219]
  7. Siehe z.B. Literaturverweise in [Stue05, S.2], [Quic00, S.1 ff.], [Ange89]
  8. Vgl. [Jasp94, S. 5], [Ange89, S.17]
  9. Vgl. [Stue05, S. 2]
  10. Vgl. [IDW08, S. 190]
  11. Vgl. [IDW08, S.190]
  12. Vgl. [IDW08, S.191]
  13. Siehe z.B. [Quic00, S. 8 ff.], [Stue05, S. 35 ff.], [Quic07, S. 15 f.], [ScOb81, S.12], [Ange89, S. 24]
  14. § 238 Abs. 1 Satz 1 HGB, § 239 Abs. 4 Satz 1 HGB, § 243 HGB, §256 HGB, § 5 Abs. 1 EStg
  15. Vgl. [Quic07, S. 13]
  16. Vgl. [Quic07, S. 13]
  17. Vgl. [Quic07, S. 16]
  18. Vgl. [Quic07, S. 15]
  19. Vgl. [IDW08, S. 191]
  20. Vgl. [IDW08, S. 191]
  21. Vgl. [IDW08, S. 192]
  22. Vgl. [IDW08, S. 192]
  23. Vgl. [Quic00, S. 28]
  24. Vgl. [Quic00, S. 28]
  25. Vgl. [Stue05, S. 55]
  26. Vgl. [Stue05, S. 55]
  27. Vgl. [Quic00, S. 30], [IDW08, S. 197]
  28. Vgl. [IDW08, S.192]
  29. Vgl. [Stue05, S. 56/57]
  30. Vgl. [IDW08, S. 192]
  31. Vgl. [IDW08, S. 192]
  32. Vgl. EstR (2001), R 30 Abs. 1
  33. Vgl. [IDW08, S.193]
  34. Vgl. [Quic00, S. 37]
  35. Vgl. EstR (2001), R 30 Abs. 1
  36. Vgl. [IDW08, S. 193]
  37. Vgl. [IDW08, S. 193]
  38. Vgl. [IDW08, S. 194]
  39. Vgl. [Quic00, S. 47]
  40. Vgl. [Bart67, S. 36]
  41. Vgl. [Quic00, S. 47]
  42. Vgl. [IDW08, S. 194]
  43. Vgl. 2.4.1 Stichtagsinventur
  44. Vgl. [Quic00, S.47]
  45. Vgl. [IDW08, S. 194]
  46. Vgl. [Quic00, S. 49], [IDW08, S. 194]
  47. Vgl. [IDW08, S. 194]
  48. Vgl. [Quic00, S. 51]
  49. Vgl. [IDW08, S. 194]
  50. Vgl. [IDW08, S.198]
  51. Vgl. [Quic00, S.56]
  52. Vgl. [IDW08, S. 198/199]
  53. Vgl. [IDW08, S. 199]
  54. Vgl. [IDW08, S. 199]
  55. Vgl. [IDW08, S. 200]
  56. Vgl. [IDW08, S. 200]
  57. Vgl. [IDW08, S. 200/201]
  58. Vgl. [IDW08, S. 201]
  59. Vgl. [IDW08, S. 201]
  60. Vgl. [Stue05, S. 71]
  61. Vgl. [Stue05, S. 71]
  62. Vgl. [Stue05, S.71]
  63. Vgl. [Stue05, S. 71]
  64. Vgl. [Jasp94, S. 11]
  65. Vgl. [Puzi97, S. 128]
  66. Vgl. hierzu die Ausführungen bei [ANG89, S. 20 ff], [Quic00, S. 62 ff], [ScOb81], [Stue05, S. 73 ff.] mit den entsprechenden weiteren Literaturverweisen
  67. Vgl. [IDW08, S. 61]
  68. Vgl. [IDW08, S.61]
  69. Vgl. [Stue05, S. 112]
  70. Vgl. [IDW08, S. 61]
  71. Vgl. [IDW08, S. 71]
  72. Vgl. [Stue05, S. 115]
  73. Vgl. [IDW08, S. 65]
  74. Vgl. [IDW08, S.65]
  75. Vgl. [ScOb81, S. 26]
  76. Vgl. [ScOb81, S. 27]
  77. Vgl. [ScOb81, S. 27]
  78. Vgl. [ScOb81, S. 27]
  79. Vgl. [Quic00, S. 105]
  80. Vgl. [ScOb81, S. 27]
  81. Vgl. [Stue05, S. 125]
  82. Vgl. [Stue05, S. 125]
  83. Vgl. [Quic00, S. 160]
  84. Vgl. [Jasp94, S. 124]
  85. Vgl. [Quic00, S. 158]
  86. Vgl. [IDW08, S. 196]
  87. Vgl. [IDW08, S. 73]
  88. Vgl. [IDW08, S. 71]
  89. Vgl. [IDW08, S. 72]
  90. Vgl. [Stue05, S. 75]
  91. Vgl. [IDW08, S. 60]
  92. Vgl. [IDW08, S. 60]
  93. Vgl. [Stue05, S. 76]
  94. Vgl. [IDW08, S. 63]
  95. Vgl. [IDW08, S. 68/69]
  96. Vgl. [OBSC81, S. 42 - 43]
  97. Vgl. [IDW08, S.65]
  98. Siehe hierzu die Ausführungen in [Stue05, S. 106 ff.]
  99. Vgl. [OBSC81, S. 44/45]
  100. Vgl. [Puzi97, S.19]
  101. Vgl. [Puzi97, S. 19]
  102. Vgl. [Ange89, S.46]
  103. Vgl. [IDW08, S. 64]
  104. Siehe u.a. [Ange89], [Jasp94], [Klein67], [ObSc81], [Stue05], [Stur83], [Quic00]
  105. Vgl. [Puzi97, S. 51 f.]
  106. Vgl. [Puzi97, S.53]
  107. Vgl. [Puzi97, S. 54]
  108. Vgl. [Puzi97, S. 54]
  109. Vgl. [Puzi97, S. 55]
  110. Vgl. [Wald47, S. 118 ff.]
  111. Vgl. [Quic00, S.173]
  112. Vgl. [Wald47, S.90 f.]
  113. Vgl. [Quic00, S.175]
  114. Vgl. [Quic00, S. 176]
  115. Vgl. [Puzi97, S.56]
  116. Vgl. [Puzi97, S.56]
  117. Vgl. [Puzi97, S.58]
  118. Vgl. [Puzi97, S. 179]
  119. Vgl. [Stur83, S. 152/153, S. 180]
  120. Vgl. [SoWa49, S.502 ff.]
  121. Vgl. [SoWa49, S.504 f.]
  122. Vgl. [Wald47, S.118 ff.]
  123. Vgl. [Wald47, S.118 ff.]
  124. Vgl. [Stue05, S. 168 ff.]
  125. Vgl. [Stue05, S. 168]
  126. Vgl. [Stue05, S. 168]
  127. Vgl. [Stue05, S. 171/172]
  128. Vgl. [Stue05, S.178]
  129. Vgl. [HaKa06, S. 7 ff.], [Bram07, S. 2 ff.]
  130. Vgl. [Alag09, S. 176 f.]
  131. Vgl. [HaKa06, S.384]
  132. Vgl. [Alag09, S. 178]
  133. Vgl. [Bram07, S.7]
  134. Ebda.
  135. Ebda.
  136. Vgl. [Alag09, S. 178]
  137. Vgl. [WiFr05, S. 29]
  138. Vgl. [HaKa06, S. 311]
  139. Vgl. [HaKa06, S.312]
  140. Vgl. [HaKa06, S. 311 f.]
  141. Vgl. [WiFr05, S. 88 ff.]
  142. Vgl. [HaKa06, S. 291]
  143. Vgl. [HaKa06, S. 292]
  144. Vgl. [HaKa06, S.293 f.]
  145. Vgl. [WiFr05, S.93 f]
  146. Vgl. [HaKa06, S. 327]
  147. Vgl. [HaKa06, S. 328]
  148. Vgl. [HaKa06, S. 330, ff.]
  149. Vgl. [HaKa06, S. 360]
  150. Vgl. [WiFr05, S. 161 f.]
  151. [WEKA01]
  152. Vgl. [Stue05, S. 317 ff.]
  153. Vgl. [Stue05, S. 323]
  154. Vgl. [Stue05, S. 329]
  155. Vgl. [Stue05, S. 320]
  156. Vgl. [Stue05, S. 432]
  157. Vgl. 3.1.4 Anforderungen an die Grundgesamtheit
  158. Vgl. 3.1.6 Anforderungen an die Definition der Stichprobenelemente
  159. Vgl. 4.2.3 Klassifizierung
  160. Vgl. 3.1.4 Anforderungen an die Grundgesamtheit
  161. Vgl. 3.2.2.2 Sequentialdifferenzentest
Persönliche Werkzeuge