Hochauflösende Profile für den Energieverbrauch synthetischer Wohngebäude in den Vereinigten Staaten

May 26, 2023

Die besten Bogenvisiere für die Jagd im Jahr 2023

May 27, 2023

Destiny 2: Saison der Auserwählten Patchnotizen (3.1.0)

May 28, 2023

Altersüberprüfung

May 29, 2023

Altersüberprüfung

May 30, 2023

Faser

Senden Sie Ihre Anfrage

EINREICHEN

Nov 17, 2023

Hochauflösende Profile für den Energieverbrauch synthetischer Wohngebäude in den Vereinigten Staaten

Scientific Data Band 10, Artikelnummer: 76 (2023) Diesen Artikel zitieren 3059 Zugriffe 4 Zitate 4 Details zu altmetrischen Metriken Ein effizienter Energieverbrauch ist entscheidend für die Erzielung nachhaltiger Energie

Scientific Data Band 10, Artikelnummer: 76 (2023) Diesen Artikel zitieren

3059 Zugriffe

4 Zitate

4 Altmetrisch

Details zu den Metriken

Ein effizienter Energieverbrauch ist entscheidend für das Erreichen nachhaltiger Energieziele im Zeitalter des Klimawandels und der Netzmodernisierung. Daher ist es wichtig zu verstehen, wie Energie in feineren Auflösungen wie Haushalten verbraucht wird, um Demand-Response-Ereignisse zu planen oder die Auswirkungen von Wetter, Strompreisen, Elektrofahrzeugen, Solarenergie und Belegungsplänen auf den Energieverbrauch zu analysieren. Die Verfügbarkeit und der Zugang zu detaillierten Energienutzungsdaten, die detaillierte Studien ermöglichen würden, waren jedoch selten. In diesem Dokument veröffentlichen wir einen einzigartigen, groß angelegten digitalen Zwilling des Energieverbrauchsdatensatzes für Privathaushalte in den angrenzenden Vereinigten Staaten, der Millionen von Haushalten umfasst. Die Daten umfassen stündliche Energieverbrauchsprofile für synthetische Haushalte, aufgeschlüsselt nach thermostatisch gesteuerten Lasten (TCL) und Gerätenutzung. Das zugrunde liegende Framework wird mithilfe eines Bottom-up-Ansatzes erstellt. Für die Endnutzungsmodellierung werden verschiedene Open-Source-Umfragen und First-Principles-Modelle verwendet. Eine umfassende Validierung des synthetischen Datensatzes wurde durch Vergleiche mit gemeldeten Energieverbrauchsdaten durchgeführt. Wir präsentieren einen detaillierten, offenen, hochauflösenden Datensatz zum Energieverbrauch von Privathaushalten für die Vereinigten Staaten.

Die Modernisierung des US-amerikanischen Stromnetzes schreitet aufgrund der Installation neuer Technologien im Netz, wie beispielsweise intelligenter Zähler, in bemerkenswertem Tempo voran. Sie ermöglichen eine bidirektionale Kommunikation zwischen dem Kunden und den Energieversorgern und bieten Informationen und eine detaillierte Kontrolle des Stromverbrauchs für einzelne Haushalte1,2. Auch das Stromnetz erlebt aufgrund der zunehmenden Verbreitung von Elektrofahrzeugen (EV) und dezentralen Energieressourcen (DER) wie Photovoltaik auf Dächern (PV), kommunaler Solar- und Windenergie schnelle Veränderungen. Während diese Modernisierungswelle von Vorteil ist, ist das Stromnetz gleichzeitig mit einer starken Zunahme von Krisensituationen aufgrund von Klimawandelphänomenen3,4 wie extremen Wetterereignissen und der globalen Erwärmung konfrontiert. Ein Beispiel für extremes Wetter ist die nordamerikanische Kältewelle im Februar 2021, die eine enorme Belastung des Stromnetzes verursachte, insbesondere in Texas, wo Millionen Menschen tagelang keinen Strom hatten5. Ein weiteres Beispiel ist, dass sich die globale Erwärmung auf den HVAC-Energieverbrauch von Haushalten auswirkt. Obwohl erwartet wird, dass der Anstieg der Wintertemperaturen um 1 bis 2 °C den Heizbedarf verringern wird, wird erwartet, dass ein ähnlicher Anstieg der Sommertemperaturen den Kühlbedarf erheblich erhöhen wird6.

Angesichts dieser Herausforderungen ist das Erreichen nachhaltiger Energieziele für die Aufrechterhaltung eines gesunden Netzes von größter Bedeutung. Zu diesem Zweck steht die Forschungsgemeinschaft vor wichtigen Fragen zur Reduzierung des CO2-Fußabdrucks7,8,9,10,11, zur Förderung der Einführung von DER12, zur Untersuchung der Vorteile der energetischen Sanierung von Gebäuden9,13,14, zur Integration von Elektrofahrzeugen15 und zum Verbraucherverhalten16 Netz und Mechanismen zur Gestaltung der Strompreise17,18, um effiziente Verbrauchsmuster für Privathaushalte zu schaffen. Die Beantwortung vieler dieser Fragen erfordert umfassende Kenntnisse über Energienutzungsmuster, Gebäudebestand, Struktur von Verteilungsnetzen, Verbraucherverhalten usw. Derart umfassende Datensätze sind jedoch selten frei (oder überhaupt nicht) für Forschungszwecke verfügbar, was es für die Forschungsgemeinschaft schwierig macht, diese Bemühungen fortzusetzen19. Die Gründe für die Nichtverfügbarkeit solcher Daten reichen von Datenschutzbedenken bis hin zum Fehlen eines Systems zur Bereitstellung von Daten für Forscher.

Bei den meisten veröffentlichten Energieverbrauchsdaten handelt es sich um Messdaten, ein Ergebnis von Längsschnittstudien, die von Forschern (Tabelle 1) mit relativ kleinen Stichproben von Haushalten durchgeführt wurden, die möglicherweise nicht repräsentativ für die weitere geografische Region und Bevölkerungsstruktur sind. Einige dieser Studien überwachen Haushalte über einen längeren Zeitraum (z. B. zwei Jahre). Der Nachteil solcher Experimente besteht jedoch darin, dass sie viel Zeit (z. B. Zustimmung der Teilnehmer, Einrichtung der Ausrüstung, Überwachung) und manuellen Aufwand (z. B. Datenbereinigung, Imputation fehlender Werte), bevor diese Daten nutzbar sind. Obwohl diese Studien Energiedaten zur kostenlosen Nutzung zur Verfügung stellen, beschränken viele von ihnen die Veröffentlichung von Teilnehmerdetails (z. B. Gebäudeeigenschaften und -standort, demografische Daten auf Haushaltsebene). Teilnehmerdaten werden in der Regel aus Datenschutzgründen/Einwilligung des Teilnehmers, fehlenden Informationen oder der Nichtverfügbarkeit dieser Attribute in der kostenlosen Version der Daten zurückgehalten. In der Literatur wurde versucht, einige dieser Probleme anzugehen, indem geeignete Datenstrukturen für die Veröffentlichung von Gerätemetadateninformationen für Haushalte zusammen mit ihren Energieverbrauchsdaten erstellt wurden20,21. Wir stellen jedoch fest, dass viele der Probleme im US-Kontext immer noch bestehen. Ein solches Beispiel ist der Pecan Street Dataport22. Pecan Street Inc23. ist über sein Portal Dataport der größte Herausgeber von Energieverbrauchsdaten in den USA. Sie sammeln Energieverbrauchsdaten in Kalifornien (CA), Texas (TX), New York (NY) und Colorado (CO). Dies ist ein potenziell sehr nützlicher Datensatz. Allerdings ist nur eine kleine Stichprobe (ca. 25 Haushalte in Kalifornien und Texas) von Energieverbrauchsdaten für die öffentliche Nutzung frei verfügbar und enthält keine ausreichenden (oder gar keine) demografischen oder Gebäudeinformationen.

Ein über einen größeren räumlichen Bereich synthetisierter Datensatz bietet die Möglichkeit, regionale und zeitliche Unterschiede im Energieverbrauch zu untersuchen, während ein Datensatz für eine kleinere Region die Untersuchung von Energieverbrauchsmustern ermöglicht, die für die Region spezifisch sein können. Unabhängig vom räumlichen Umfang ist es aufgrund der geringen Stichprobengröße schwierig, eine gute Darstellung der Bevölkerungsvariation in der Region zu erhalten (z. B. Erklärung/Auswertung der Rolle der Haushaltsdemografie, des Verhaltens und der Gebäudemerkmale beim Energieverbrauch). Zusätzlich zum räumlichen Umfang und der Anzahl der Stichproben geben viele der Datensätze keine ausreichenden (oder gar keine) Angaben zu den Teilnehmern preis. Solche begrenzten Daten schränken die Nutzung dieser Energieverbrauchsdaten für detaillierte praktische Analysen oder die Untersuchung von Szenariointerventionen und Gerechtigkeitsfragen im Netz ein (z. B. welche Art von Bevölkerungsgruppe und Gebäudebestand am besten für die Einführung von Elektrofahrzeugen geeignet ist oder wie groß der CO2-Fußabdruck sein kann). durch die Sanierung von Gebäuden reduziert). Daher stellen wir fest, dass es im Allgemeinen nur wenige groß angelegte hochauflösende Energieverbrauchsdatensätze sowie detaillierte Metadateninformationen auf Haushaltsebene gibt, wie z. B. Gerätebesitz, Gebäudedaten und wichtige demografische Merkmale.

Wir fassen die wichtigsten Nachteile von Energiedatensätzen für die USA wie folgt zusammen: begrenzter räumlicher Umfang, kleine Stichprobengröße, Mangel an ausreichenden Haushalts-, Geräte- und Gebäudemetadaten. Angesichts dieser Vielzahl von Problemen mit der Verfügbarkeit moderner Energienutzungsdaten führen wir synthetische Energienutzungsdatensätze ein, die viele dieser Probleme lösen können. Unter synthetischen Daten versteht man Daten, die von Modellen generiert werden, die genaue statistische Darstellungen der realen Welt liefern. Beispiele für solche Daten für das Smart Grid sind synthetische Stromverteilungsnetze24, Energieverbrauchsprofile für Büros und Gewerbegebäude25 sowie für Wohngebäude26,27,28,29. Unsere Arbeit befasst sich insbesondere mit der Datenknappheitslücke in der Energienutzungsforschung für den US-Wohnsektor. Wir schlagen einen synthetischen Rahmen für die Modellierung groß angelegter hochauflösender Energienutzungsdaten vor, indem wir verschiedene Datensätze und Endnutzungsmodelle für eine disaggregierte Bottom-up-Energiemodellierung integrieren. Dies führt zu einem neuartigen synthetischen Energieverbrauchsdatensatz (d. h. einem digitalen Zwilling des Energiebedarfs auf Haushaltsebene), der stündliche Strombedarfsprofile für US-Haushalte umfasst. Der gesamte elektrische Energieverbrauch wird als Zusammensetzung aus acht primären Endverbrauchsbereichen in einem Haushalt veröffentlicht – Heizung/Klimaanlage (HLK), Beleuchtung, Geschirrspülen, Kochen, Wäsche (Waschmaschine und Wäschetrockner), Kühlung, Warmwasser usw Verschiedene Steckdosenbelastungen (Staubsauger, Computernutzung, Fernseher). Es wird ein detailliertes, datenintensives Bottom-up-Framework entwickelt, um synthetische Energieverbrauchsprofile zu erstellen, indem mehrere Open-Source-Umfragen und eine synthetische Grundgesamtheit für die USA30 integriert werden. Mithilfe eines Methodenmixes (Stochastik, maschinelles Lernen, physikbasierte Ingenieurmethoden) werden verschiedene Endnutzungen in allen Haushalten modelliert, die Strom als Primärbrennstoff in den 48 angrenzenden Bundesstaaten und Washington, D.C. in Nordamerika verbrauchen. Nach unserem besten Wissen handelt es sich bei diesem synthetischen Energieverbrauchsdatensatz um den ersten detaillierten, groß angelegten, frei verfügbaren Datensatz zum Stromverbrauchsverhalten auf Haushaltsebene für die USA. Unsere synthetische Energieverbrauchsinfrastruktur ist gut geeignet, um das neuere Smart Grid zu lösen bereits erwähnte Probleme. Wir veröffentlichen die disaggregierten Energieverbrauchszeitreihen für alle synthetischen Haushalte. Die veröffentlichten Daten sind repräsentativ für die US-Haushalte, stellen Metadaten auf Haushaltsebene bereit und sind eine gute Darstellung des realen Energieverbrauchs. Abb. 1 zeigt eine grafische Darstellung des synthetisierten digitalen Zwillings für den Energiebedarf von Privathaushalten.

In diesem Abschnitt werden die Datensätze und Modelle beschrieben, die zur Generierung synthetischer Energieverbrauchszeitreihen auf Haushaltsebene verwendet werden, siehe Tabelle 2. Alle in der Arbeit verwendeten Notationen sind in Tabelle 3 beschrieben.

Der vorgestellte Rahmen besteht aus einer synthetischen Darstellung der US-Bevölkerung, Regressionsmodellen für Umfragen und Bottom-up-Energienutzungsmodellen. Eine synthetische Bevölkerung besteht aus Haushalten und Personen in Haushalten. Die synthetischen Haushalte werden mithilfe von Volkszählungserhebungen und statistischen Methoden generiert, sodass die synthetische Bevölkerung der ursprünglichen Bevölkerung statistisch ähnlich ist. In unserem Framework wird eine Open-Source-Version der US-amerikanischen synthetischen Population – Synthetic Populations and Ecosystems of the World (SPEW)30,31 verwendet. Die synthetische SPEW-Bevölkerung besteht aus demografischen Merkmalen synthetischer Haushalte und synthetischer Einzelpersonen. Die synthetische Bevölkerung wird mithilfe von US-Volkszählungsdaten wie PUMS (Tabelle 2) und statistischen Methoden wie Stichprobenziehung und der Iterative Proportional Fitting (IPF)-Methode32 erstellt.

Die SPEW-Haushalte bestehen aus grundlegenden demografischen (z. B. Einkommen, Alter) und Ortsinformationen. Obwohl die SPEW-Population in einer feineren räumlichen Auflösung repräsentativ für die US-Bevölkerung ist, verfügt sie nicht über energie- und aktivitätsbezogene Informationen (z. B. Gebäudeeigenschaften, zu Hause verbrachte Zeit, Anzahl der Kochaktivitäten), die für die Schätzung des Energieverbrauchs auf Haushaltsebene erforderlich sind oder Personenebene. Gebäudebestands-, Energie- und aktivitätsbezogene Informationen werden durch nationale Erhebungen in den USA erhoben – Residential Energy Consumption Survey RECS33 bzw. American Time Use Survey ATUS34. Die synthetische Basispopulation wird durch die Erstellung von Modellen für maschinelles Lernen um energie- und aktivitätsbezogene Attribute erweitert. Diese Vergrößerung wird als Anreicherungsschritt bezeichnet. Die angereicherte synthetische Grundgesamtheit kann zusammen mit anderen frei verfügbaren Datenquellen zusammen als Eingaben für das Energieverbrauchsmodellierungsrahmenwerk verwendet werden. Das Rahmenwerk zur Modellierung des Energieverbrauchs verfügt über sechs Modelle zur Darstellung von neun Energieverbrauchsarten: HVAC, Beleuchtung, Warmwasser, Kühlschrank, Geschirrspüler, Kochen, Waschmaschine, Wäschetrockner und verschiedene Steckdosen wie Fernseher, Computernutzung, Reinigungsaktivitäten (z. B , Staubsaugen). Der erste Unterabschnitt beschreibt die Modellierungsdetails des Anreicherungsschritts und der folgende Unterabschnitt beschreibt Energiebedarfsmodelle.

Datenübersicht. Diese Abbildung zeigt Beispiele für die räumlich-zeitliche Auflösung mehrerer Facetten der disaggregierten synthetischen Energiebedarfsdaten. Die Abbildung zeigt Beispieldaten auf Landes-, Kreis- und Haushaltsebene mit unterschiedlichen zeitlichen Granularitäten. Die Daten werden für alle Haushalte in den USA generiert

Die Anreicherungsmodelle unterstützen die Erstellung umfassender synthetischer Strukturen zur Berechnung des Energieverbrauchs von Wohngebäuden. Dieser Schritt wird als Anreicherungsschritt bezeichnet. In Abb. 2 finden Sie eine bildliche Darstellung der Übersicht über das Framework. Die in diesem Arbeitsablauf verwendeten Datensätze werden in Tabelle 2 beschrieben. Da die in der synthetischen Grundgesamtheit verfügbaren demografischen Merkmale für die Berechnung des Energieverbrauchs nicht ausreichen, wird sie durch das Hinzufügen von Informationsebenen zum Gebäudebestand und Energieverbrauch aus der RECS-Umfrage bereichert, z. B Gebäudeeigenschaften, Gerätebesitz und Thermostat-Sollwertverhalten. Diese Zuordnung von Merkmalen erfolgt durch die Erstellung von Inferenzbaummodellen. Aktivitätspläne für einen normativen Tag eines ATUS-Umfrageteilnehmers werden durch die Erstellung eines multivariaten Random-Forest-Regressionsmodells einer synthetischen Person zugeordnet. Diese Modelle werden im Folgenden beschrieben.

Überblick über die Energiemodellierungsinfrastruktur. Im vorgeschlagenen Modellierungsrahmen werden viele verschiedene Arten von Eingabedaten verwendet. Diese werden oben angezeigt. Eine vollständige Beschreibung der Eingabedatensätze finden Sie in Tabelle 2. Diese Datensätze werden in verschiedene Modellierungskomponenten des Frameworks eingegeben. Einige Datensätze unterstützen die Erweiterung der synthetischen Population, während andere in die Energieverbrauchsmodelle eingegeben werden. Alle Modelle werden im Abschnitt „Methodik“ beschrieben. Das untere Rechteck beschreibt die aufgezeichneten Daten/Smart-Meter-Daten aus verschiedenen Klimazonen der USA. Diese Datensätze werden zur Validierung der synthetischen Zeitreihen des Energieverbrauchs verwendet. Der Validierungsblock (gelber Hintergrund) beschreibt drei Komponenten von V&V – regionale, Größen- und Struktur-/Formvergleiche. Diese Validierungslinie umfasst (a) verschiedene zeitliche Aspekte (stündlich und täglich), (b) räumliche Aspekte in Bezug auf Regionen und Jahreszeiten, (c) Diversitätsaspekte der groß angelegten synthetischen Daten. Der blaue Text bezieht sich auf die Vs von Big Data. Jeder farbige Block besitzt die angegebene V-Charakteristik.

Die ATUS-Daten liefern landesweit repräsentative Umfragen zu den Aktivitäten von Menschen an verschiedenen Standorttypen, wie z. B. Kinderbetreuung innerhalb oder außerhalb des Hauses, Zeit am Arbeitsplatz, Waschzeit zu Hause, Wartezeiten im Krankenhaus usw. Eine Beschreibung finden Sie in Tabelle 2. Die Zeitnutzungstagebücher der Befragungspersonen können synthetischen Personen zugeordnet werden, indem eine entsprechende Befragungsperson einer synthetischen Person zugeordnet wird. Bei unserer Arbeit berücksichtigen wir ein geeignetes Matching basierend auf der Zeit, die eine Person an verschiedenen Ortstypen verbringt, z. B. zu Hause, am Arbeitsplatz, in der Schule, beim Einkaufen und an anderen verschiedenen Orten. Dies scheint ein vernünftiger Ansatz zu sein, da wir daran interessiert sind, zu erfahren, wie eine Person 24 Stunden am Tag verbringt, indem wir die an wichtigen Standorttypen verbrachte Zeit kategorisieren – beispielsweise die Zeit, die eine Vollzeitbeschäftigte an verschiedenen Standorttypen verbringt ganz anders als ein ans Haus gebundener Senior oder ein Student. Diese Begründung für die Zuordnung von Umfrageteilnehmern zu synthetischen Personen wird auch in früheren Arbeiten von Lum et al.35 dargelegt.

Mit der Random-Forest-Regressionsmethode wird ein Modell erstellt, das die Zeit vorhersagt, die eine Person tagsüber an Orten wie Zuhause, Arbeit, Einkaufen, Sonstiges, Schule und Fahrten verbringt. Daher werden sechs abhängige Variablen modelliert – die Anzahl der Fahrten während des Tages und die an jedem Ortstyp verbrachte Zeit – Zuhause, Arbeit, Einkaufen, Sonstiges, Schule. Zur Erstellung des Modells werden folgende unabhängige Variablen verwendet: Anzahl der Mitglieder im Haushalt (hsize), Anzahl der Kinder (nchild), Alter (age), Arbeitszeiten (wrkhrs), Geschlecht (gender), Einkommen, modelliert als kategoriale Variable (hinc2, hinc3) und binäre Variablen wie ein amerikanischer Staatsbürger oder nicht (nativity), ein Arbeiter oder nicht (worker), ein Haus besitzt oder nicht (ownhome), ein Telefon hat oder nicht (tel) und rassenbezogene Variablen wie wenn die Person weiß, hispanisch, schwarz oder asiatisch ist (weiß, hispanisch, schwarz, asiatisch). Abbildung 3 zeigt ein Beispiel für die Merkmalsbedeutung für zwei abhängige Variablen.

Bedeutung und Korrelation von verunreinigungsbasierten Merkmalen. Jedes Diagramm zeigt die Gini-Bedeutung von Merkmalen für zwei abhängige Variablen – Zuhause und Arbeit. Die x-Achse zeigt unabhängige Variablen in der Reihenfolge ihrer Wichtigkeit basierend auf IncNodePurity. Die Auswahl der Parameter für „ntree“ (Anzahl der Entscheidungsbäume) und „node size“ (Mindestgröße der Endknoten). Für die Kombination der beiden Parameter werden acht Bedingungen getestet: ntree = 500, 1000, 1500 und 2000; Knotengröße = 5 und 10. Die Diagramme zeigen robuste Ergebnisse unter den verschiedenen Bedingungen. Den Diagrammen zufolge sind die folgenden fünf unabhängigen Variablen – wrkhrs; Arbeiter; Alter; hinc3; hsize wirkt sich hauptsächlich auf alle abhängigen Variablen aus. Die rechte Y-Achse zeigt den absoluten Pearson-Korrelationskoeffizienten. Die positiven und negativen Koeffizienten werden durch blaue Punkte bzw. Quadrate unterschieden. Außer wrkhrs; Arbeiter, alle anderen unabhängigen Variablen korrelierten schwach mit den abhängigen Variablen.

Sobald das Modell auf ATUS-Befragte trainiert wurde, wird einer synthetischen Person Pi, j zufällig eine Umfrageperson aus den Blattknoten im trainierten Ensemblemodell zugewiesen. Somit gibt das Ergebnis jedem synthetischen Individuum ein Zeitnutzungstagebuch. Die Energieverbrauchsmodelle extrahieren häusliche Aktivitäten aus einem Zeittagebuch und erstellen außerdem einen Belegungsplan auf Haushaltsebene über die Dauer von 24 Stunden, bezeichnet als \(\langle {O}_{i,0},{O}_ {i,1},\ldots ,{O}_{i,23}\rangle \). Diese werden als Input für die Energieverbrauchsmodelle verwendet. Konflikte bei der Aktivitätsplanung synthetischer Haushaltsmitglieder werden im Aktivitätsmodell behandelt.

Die synthetische Basispopulation verfügt über keine Gebäudestrukturmerkmale und Informationen zum Geräteeigentum. Diese herausragenden Merkmale sind wichtig für die Modellierung verschiedener Kategorien des Energieverbrauchs und stehen in der RECS-Umfrage zur Verfügung. Wir überlagern RECS-Haushaltsattribute auf einen synthetischen Haushalt, indem wir multivariate bedingte Inferenzbäume erstellen36,37. Bedingter Inferenzbaum ist eine nichtparametrische Klasse von Regressionsbäumen, die eine rekursive Partitionierung abhängiger Variablen basierend auf dem Wert von Korrelationen verwendet. Es werden vier abhängige Variablen modelliert: Quadratmeterzahl der Wohnung, Vorhandensein von Waschmaschinen, Vorhandensein einer Klimaanlage, Vorhandensein eines Geschirrspülers. Die unabhängigen Variablen sind das Jahr, in dem das Haus gebaut wurde, die Aufenthaltsdauer der aktuellen Mieter, der Besitz oder die Miete der Wohnung, die Gesamtzahl der Zimmer, das Einkommen, die Anzahl der Kühlschränke, die Anzahl der Mitglieder im Haushalt, die Art der Wohnung und die Lage der Wohnung städtisches oder ländliches Gebiet, Art des primären Heizbrennstoffs. Die unabhängigen Variablen sind gemeinsame Attribute zwischen RECS-Umfragedatensätzen und synthetischen Haushaltsdatensätzen. Bedingte Inferenzbäume werden in verschiedenen Volkszählungsregionen in den USA trainiert, um regionale Unterschiede herauszuarbeiten. Jedes Mal, wenn eine neue Simulation ausgeführt wird, wird ein RECS-Haushalt Si zufällig aus den entsprechenden Blattknoten des bedingten Inferenzbaums ausgewählt und dem synthetischen Haushalt Hi zugewiesen. Diese dynamische Zuweisung führt zu Stochastik, wenn die Simulation für denselben und/oder verschiedene Tage ausgeführt wird.

Die angereicherte synthetische Population (d. h. die Ausgabe des Anreicherungsschritts) ermöglicht die Kodierung von Verhaltensweisen (Zeit, die mit verschiedenen energiebezogenen Aktivitäten zu Hause verbracht wird), normativen Attributen (z. B. Quadratmeterzahl, Alter, Einkommen, Geschlecht) und deklarativen Attributen (z. B. einzelne Aktivitäten als Abfolge) und prozedurale Attribute (z. B. Verhaltensweisen, die Abhängigkeiten erfassen, Interaktionen, Häufigkeit der Durchführung von Aktivitäten) in das für die Erstellung von Energienutzungsprofilen erforderliche Wissen umwandeln38. Die synthetische Infrastruktur wird genutzt, um sechs Energienutzungsmodelle zu erstellen (Abb. 2). Für jeden Haushalt werden neun Endverwendungen synthetisiert. Diese Endverwendungen sind in zwei Teile unterteilt: thermostatisch gesteuerte Lasten (TCL) und Gerätenutzung. Für einen Haushalt i sind neun in den Daten veröffentlichte Endverwendungen:

HVAC (Ehvac). Diese Kategorie umfasst das Heizen und Kühlen der elektrischen Last einer zentralen Klimaanlage an heißen Tagen und des elektrischen Ofens/der Heizung, der an kalten Tagen verwendet wird. Dies ist eine TCL-Last.

Warmwasserverbrauch im Haushalt (Eh2o). Energieverbrauch für das Erhitzen von Wasser, das für Körperpflegeaktivitäten wie Duschen/Baden, Wäschewaschaktivitäten wie die Benutzung von Waschmaschinen und Geschirrspülern benötigt wird. Dies ist eine TCL-Last.

Spülmaschine (Edwasher). Energieverbrauch von Geschirrspülern.

Waschmaschine (Ecwasher). Energieverbrauch elektrischer Waschmaschinen.

Wäschetrockner (Ecdyer). Energieverbrauch des Trockners.

Kochen (Ecook). Energieverbrauch von Elektroherd, Backofen und anderen Küchengeräten wie Kaffeemaschine, Mikrowelle, Toaster usw.

Verschiedene Steckerlasten (Emisc). Diese Art von Energie weist auf eine Steckerbelastung hin, die auf Reinigungsaktivitäten und elektronische Geräte wie Fernseher, Computer und andere kleinere elektronische Geräte zurückzuführen ist.

Kühlung (Erefr). Energieverbrauch von Kühlschränken.

Beleuchtung (Elight). Energieverbrauch der Beleuchtungseinheiten.

Tabelle 3 beschreibt die in den Methodenabschnitten verwendeten Notationen. Die über 24 Stunden summierte Gesamtenergie (\({E}_{i}^{{\rm{total}}}\)) eines Haushalts i ergibt sich aus den folgenden Gleichungen –

Nach Angaben der US Energy Information Administration (EIA)39 ist HVAC für den höchsten Anteil des Energieverbrauchs in Haushalten verantwortlich. Das HVAC-Modell berechnet, wie viel Energie erforderlich ist, um die Umgebungs-/Komforttemperatur in Innenräumen aufrechtzuerhalten. Dies hängt von Faktoren wie der Fläche des Hauses, der Außentemperatur, der Effizienz der HVAC-Geräte usw. ab. Das Nutzerverhalten der Thermostateinstellungen in verschiedenen Jahreszeiten und die Belegung der Haushalte während des Tages spielen eine wichtige Rolle für das Verständnis des thermischen Komfortniveaus und seiner Auswirkungen auf den Stromverbrauch. In der Literatur werden technische und statistische Ansätze40 vorgestellt, um den Energieverbrauch von Heizungen/Öfen und Klimaanlagen zu simulieren41,42,43,44. Wir übernehmen den ingenieurwissenschaftlichen Ansatz von Subbiah et al.44, bei dem die Funktion des Heizens/Kühlens eines Haushalts in stündlichen Intervallen wie folgt definiert ist:

Dabei ist \({E}_{i,t}^{{\rm{hvac}}}\) die Energie, die der Haushalt Hi am Ende der Stunde t in kWh durch Heiz-/Kühlgeräte verbraucht, um den thermischen Komfort aufrechtzuerhalten. FloorAreai ist die Bodenfläche und WallAreai ist die Wandfläche (extrapoliert aus Bodenfläche44) von Hi. Die Größen Rroof und Rwall sind R-Werte (Isolationsniveau) für Haushalte in verschiedenen Klimazonen, während η in Tabelle 3 definiert ist. Als nächstes ist ΔT die absolute Differenz zwischen \({T}_{t}^{in}\ ) und \({T}_{t}^{{\rm{out}}}\), und \({T}_{t}^{{\rm{in}}}\) ist die Temperatur des Innenthermostats zur Stunde t. Die stündliche Außentemperatur (\({T}_{t}^{{\rm{out}}}\)) wird aus den in Tabelle 2 genannten NLDAS-Daten der NOAA ermittelt. Effizienz- und Isolationsdaten stammen aus den von der EIA veröffentlichten Richtlinien. Alle anderen Haushaltsattribute werden aus der angereicherten synthetischen Grundgesamtheit ermittelt. Abhängig von den Belegungsmustern im Laufe des Tages werden jedem Haushalt Änderungen im Thermostatverhalten zugeordnet. Die Heiz- und Kühlschwellentemperaturen für die Ein-/Ausschaltzeiten von Geräten stammen aus der von NREL im Jahr 2017 veröffentlichten Thermostatstudie45.

Die UVP zeigt, dass 17–32 % des Energieverbrauchs der Haushalte auf die Warmwassernutzung (WW) zurückzuführen sind. Die Literatur zeigt Modelle, die zur Schätzung des Warmwasserbedarfs in mehreren zeitlichen Auflösungen verwendet werden – jährliche, tägliche, stündliche und Minutenintervalle. Eines der ersten Modelle zur Schätzung von Lastprofilen des Warmwasserbedarfs wurde 2001 von Jordan et al.46 für einen Zeitraum von einem Jahr für zeitliche Auflösungen von 1 Minute, 6 Minuten und 1 Stunde entwickelt. Diese Arbeit berücksichtigt jedoch weder historische noch tatsächliche Durchflussraten, um zu bestimmen, wie viel Warmwasser (Gallonen/Tag) von einem Haushalt verbraucht wird. Zur Synthese von Wasserbedarfsprofilen für die Schweiz47 wurde ein Folgepapier entwickelt, bei dem dieses Modell mithilfe von Felddaten kalibriert wurde. Ein Modell zur Simulation des jährlichen Warmwasser-Ereignisplans für einen Einfamilienhaushalt wurde 2010 von Hendron et al.48 vom National Renewable Energy Laboratory (NREL) entwickelt. Der Simulator nutzte zwei Umfragen, die Informationen über den Wasserbedarf in US-Haushalten für fünf Haushalte sammelten Kategorien: Waschbecken, Badewanne, Dusche, Waschmaschine und Geschirrspüler. Dieses Modell wurde in der Literatur weitgehend akzeptiert. Ein aktuelles Beispiel für die Anpassung des Hendron-Modells ist die Simulation des Warmwasserbedarfs in kanadischen Haushalten49. Das Modell ist auf für Kanada erhobene Umfragedaten kalibriert und es werden entsprechende Anpassungen im Hinblick auf kanadische Lebensstile vorgenommen.

Für unser Modell verwenden wir die Verteilungen der Dauer und Flussraten von Aktivitäten mit Warmwasserverbrauch wie Baden/Duschen, Waschmaschine und Geschirrspüler von Hendron et al. Beachten Sie, dass Dauer und Durchflussraten negative Werte annehmen können (Tabelle 4). Die Durchflussrate ist auf 0,05 gpm und die Dauer auf 1 Minute für jeden negativen Wert begrenzt48. Tabelle 4 charakterisiert die durchschnittliche Anzahl täglicher Ereignisse, Dauer und Flussraten. Die Werte der Warmwassertemperatur für verschiedene Verwendungszwecke und der Kaltwasser-Einlasstemperatur stammen aus Studien, die von NREL in verschiedenen Regionen der USA durchgeführt wurden50,51,52. Zur Schätzung des Warmwasserverbrauchs44,50 im Haushalt i für das Ereignis v zum Zeitpunkt t wird ein ingenieurwissenschaftlicher Ansatz verwendet

Die von Ereignis v verbrauchten Gallonen heißes Wasser \({G}_{v,i,t}^{{\rm{hot}}}\) werden als Produkt aus Durchflussrate (gpm) und Dauer (Minuten) berechnet. Beide Eigenschaften stammen aus den Verteilungen in Tabelle 4. \({E}_{v}^{{\rm{hot}}}\) ist die Energie, die das Ereignis v verbraucht, um \({G}_{v) zu erwärmen }^{{\rm{hot}}}\) Gallonen Wasser. Die letzten vier Einträge in Tabelle 3 zeigen die Summe mehrerer Ereignisse, die über den Zeithorizont hinweg auftreten. Dabei ist η der Wirkungsgrad der elektrischen Warmwasserbereiter. Von NREL durchgeführte Untersuchungen haben gezeigt, dass η eine komplexe Funktion der Speicherkapazität des Warmwasserbereiters, des Typs des Warmwasserbereiters und des Alters des Warmwasserbereiters ist. Für η sind in den aktuellen Studien keine Verteilungen verfügbar. Felddaten aus NREL-Umfragen50,51,52 zeigen, dass die Effizienz zwischen 80 % und 99 % schwankt. Hier ist 0,00189 \(\left(\frac{{\rm{kWh}}}{{{\rm{gal}}}^{\circ }{\rm{F}}}\right)\) eine Konvertierungskonstante erhalten von Subbiah et al.44, und ΔT ist die Temperaturdifferenz (°F) zwischen der Hauptwassertemperatur (Einlass) \({T}_{m,z}^{{\rm{cold}}}\) für a gegebener Monat m in einer Klimazone z und die für einen bestimmten Endpunkt erforderliche Wassertemperatur. Man erhält die Werte für \({T}_{m,z}^{{\rm{cold}}}\) und \({T}_{v}^{{\rm{hot}}}\). aus NREL-Umfragen50,51. Immer wenn das Aktivitätsmodell das Vorhandensein eines Ereignisses v erkennt, berechnen wir die von Warmwasser für das Ereignis verbrauchte Energie mithilfe von Gleichung. 3. Beachten Sie, dass wir den Warmwasser-Energieverbrauch nur für synthetische Haushalte mit elektrischen Warmwasserbereitern berechnen.

Die Beleuchtung macht 5–10 %39 des Verbrauchs aus, wobei die Beleuchtungsnutzung in Wohnumgebungen hauptsächlich durch die Lichtverhältnisse im Freien und die Belegungspläne in den Haushalten bestimmt wird53. Ein Markov-Ketten-Ansatz wird von Widen et al.54 zur Modellierung des Beleuchtungsbedarfs in schwedischen Haushalten unter Verwendung von Zeitnutzungsdaten in Schweden übernommen. Palacios-Garcia55 hat ein stochastisches Modell zur Schätzung der Beleuchtung in Wohngebieten für die Stadt Cordova in Spanien entwickelt, das auf einem von Stokes et al.56 entwickelten Modell basiert und gemessene Beleuchtungsdaten für 100 britische Häuser verwendet. Ein weiteres stochastisches Modell wurde von Richardson et al.57 für britische Haushalte unter Verwendung von Zeitnutzungsdaten und Beleuchtungsdaten der Energy Information Administration (EIA) entwickelt.

Wir erstellen ein stochastisches Modell für den Beleuchtungsbedarf in US-Wohnhäusern, indem wir auf Designkonzepten aus Arbeiten von Richardson et al.57, Stokes et al.56 und Paatero & Lund et al.58 aufbauen. Das Modell von Richardson ist besonders interessant, da es wichtige Merkmale der leichten Nutzung wie „Mitnutzung“ und „relative Gewichte“ unterstützt. Das Modell nutzt das Konzept der „Mitnutzung“ der Beleuchtung, d. h. die Beleuchtung in einer Wohnung wird häufig von Haushaltsmitgliedern, die sich gleichzeitig im selben Raum der Wohnung aufhalten, gemeinsam genutzt. Das Modell berücksichtigt auch, dass nicht alle Beleuchtungseinheiten mit der gleichen Häufigkeit genutzt werden (z. B. häufig genutzte Räume wie Küche und Wohnbereich verbrauchen mehr Beleuchtung als andere Räume) und verwendet ein Gewichtungsschema, um die relative Nutzung anzugeben.

Die Lichtverhältnisse im Freien werden anhand von Zeitreihen der Bestrahlungsstärke modelliert. Es wird von NSRDB bezogen, wie in Tabelle 2 beschrieben. Stündliche Einstrahlungsdaten werden mithilfe der NSRDB-API für die 365 Tage des Jahres 2014 bei der Auflösung des Zensusbezirks für die USA erfasst. Daher verwenden alle synthetischen Haushalte in einem Zensusbezirk dieselben Zeitreihen für die Einstrahlungsstärke einen bestimmten Tag. Das stündliche Belegungsprofil auf Haushaltsebene \(\left\langle {O}_{i,0},{O}_{i,1},\ldots ,{O}_{i,23}\right\rangle \) wird durch die Untersuchung der Aktivitäten wacher synthetischer Haushaltsmitglieder von Hi zu Hause entwickelt. Die Anwesenheit wacher Bewohner in der Wohnung unterstützt die Entscheidungsfindung über das Einschalten des Lichts. Die Verteilung der Beleuchtungseinheiten in Haushalten wird aus der RECS-Umfrage abgeleitet. Im Allgemeinen wird die Verteilung der Beleuchtungseinheiten eines Hi aus dem passenden Si übernommen. Es werden drei Arten von Beleuchtungseinheiten berücksichtigt: Glühlampen, CFL und LED. Die Leistungswerte der Kategorien von Beleuchtungseinheiten stammen aus einer von der Bonneville Power Administration (USA) durchgeführten Studie, in der Beleuchtungskörper für eine Stichprobe von 161 Wohnhäusern im Nordwesten analysiert wurden59. Für einen bestimmten Simulationstag definieren wir einen Bestrahlungsstärkeschwellenwert (Irri) für einen Haushalt Hi. Es weist darauf hin, dass Bewohner möglicherweise darüber nachdenken, das Licht einzuschalten, wenn die Außenbeleuchtung weniger als Irri beträgt. Irri wird aus einer Normalverteilung57 Normal(60, 10) entnommen. Alle im Modell verwendeten Notationen sind in Tabelle 3 beschrieben. Die jährlichen Beleuchtungsdaten für die USA werden für verschiedene Haushaltsgrößen aus der RECS-Umfrage zusammengefasst.

Aus der Literatur geht hervor, dass der Beleuchtungsverbrauch mit der Anzahl der Bewohner im Haushalt zunimmt. Der Beleuchtungsverbrauch verdoppelt sich jedoch nicht mit jedem weiteren Bewohner im Haus. Um eine gemeinsame Beleuchtungsnutzung zu simulieren, wurde das Konzept der effektiven Belegung57 eines Haushalts \(\left\langle {\widehat{O}}_{i,0},{\widehat{O}}_{i,t}, \ldots ,{\widehat{O}}_{i,23}\right\rangle \) wird eingeführt. Die effektive Belegung (\({\widehat{O}}_{i,t}\)) ist als Funktion der aktiven Belegung (Oi, t) definiert. Die Werte für die effektive Belegung werden abgeleitet, indem der jährliche Beleuchtungsbedarf nach Haushaltsgröße skaliert wird, sodass die effektive Belegung einer Wohnung mit einem aktiven Bewohner eins beträgt. Der nächste Schritt besteht darin, die Details der Beleuchtungseinheiten in einem Haushalt zu ermitteln. Der Anteil der Beleuchtungseinheitstypen wird aus einem RECS-Haushalts-Sl ermittelt, der Hi entspricht (RECS-Modell). Jeder Beleuchtungseinheit sind Leistungsangaben beigefügt. Generell werden nicht alle Beleuchtungseinheiten mit der gleichen Frequenz genutzt. Dies wird in Literaturstudien wie dem DECADE-Bericht60 beobachtet. Die Nutzungshäufigkeit von Beleuchtungseinheiten in Haushalten kann grob als natürliche Logarithmuskurve57 modelliert werden, allerdings wurden in der Literatur aufgrund fehlender quantitativer Daten keine formalen Methoden vorgestellt. Wir verwenden die in Richardson et al.57 vorgestellte natürliche Logarithmuskurve, um die relative Nutzung einer Beleuchtungseinheit zu modellieren. Sobald den Beleuchtungseinheiten Gewichte zugewiesen wurden, wird die Wahrscheinlichkeit eines Einschaltereignisses für jede Beleuchtungseinheit in einem regelmäßigen Zeitintervall (in unserem Fall 1 Stunde) berechnet. Die Wahrscheinlichkeit eines Einschaltereignisses \({P}_{b}^{{\rm{on}}}\) der Beleuchtungseinheit b zur Stunde t wird berechnet als

Hier wird bweight aus einer natürlichen logarithmischen Kurve abgetastet, γ ist eine Kalibrierungskonstante, die verwendet wird, um den angemessenen jährlichen Beleuchtungsverbrauch für die USA zu erreichen, und \({\widehat{O}}_{i,t}\) ist die effektive Belegung von Hallo um t. Tritt ein Einschaltereignis ein, wird der Energieverbrauch für die jeweilige Beleuchtungseinheit berechnet b. Die Beleuchtungsdauer wird zufällig aus der in Stokes et al.56 beschriebenen Verteilung ausgewählt.

Der Energieverbrauch eines Kühlschranks hängt von seiner Größe, seinem Alter, der Umgebungstemperatur und mehreren anderen in der Literatur beschriebenen Faktoren ab. Sie verbrauchen 3–5 % des gesamten Energieverbrauchs in Wohngebäuden. Shimoda et al.42 zeigen, dass der tägliche Kühlschrankverbrauch von der Außentemperatur beeinflusst wird, während Tsuji et al.43 einen linearen Zusammenhang zwischen Außentemperatur und jährlichem Kühlschrankbedarf zeigen. Beide Arbeiten werden im Zusammenhang mit Kühlschränken in Japan durchgeführt. Das Lawrence Berkeley National Laboratory in Kalifornien verwendet vor Ort gemessene Energieverbrauchsdaten von etwa 1.500 Kühl- und Gefrierschränken, um ein Modell zu entwickeln, das den jährlichen Verbrauch verschiedener Gefrier- und Kühlschrankkategorien vorhersagt61. Alle oben genannten Modelle sammelten relevante Daten aus der Praxis oder nutzten detaillierte Erhebungen zur Kühlung.

Unser Ansatz besteht darin, ein Regressionsmodell zur Vorhersage des täglichen Kühlschrankverbrauchs (kWh/Tag) eines Haushalts (\({E}_{i}^{{\rm{refr}}}\)) als Funktion der Außenumgebung zu entwickeln Temperatur. Das Modell wird mit den gemessenen Kühlschranknutzungsdaten von Pecan Street Inc. trainiert, wobei 30 % der gesamten gemessenen Daten für das Training und Testen des Modells verwendet werden. Die 30 %-Daten werden durch eine geschichtete Probenahme basierend auf Klimazonen und Tagesdurchschnittstemperaturklassen ermittelt. Die abhängige Variable ist der tägliche Kühlschrankverbrauch \({E}_{i}^{{\rm{refr}}}\) in kWh/Tag für Hi. Die unabhängigen Variablen sind die tägliche Durchschnittstemperatur \({\widehat{T}}^{{\rm{out}}}\) (°F) und kategoriale Attribute, die drei große Klimazonen angeben. Das 24-Stunden-Lastprofil eines Kühlschranks \(\left\langle {E}_{i,0}^{{\rm{refr}}},{E}_{i,1}^{{\rm{refr }}},\ldots ,{E}_{i,23}^{{\rm{refr}}}\right\rangle \) wird aus der täglichen Nutzung konstruiert, und die Variation der stündlichen Nutzung des Kühlschranks ist modelliert unter Verwendung einer Guass-Verteilung. Der Kühlschrank arbeitet im Automatik-/Standby-Modus, d. h. die Anwesenheit der Bewohner hat keinen Einfluss auf den Energieverbrauch dieser Aktivität43,44. Daher kann die Berechnung des 24-Stunden-Profils des Kühlschranks durch Hinzufügen eines kleinen Gaußschen Rauschens zur stündlichen Belastung als akzeptabel angesehen werden. Der Validierungsabschnitt zeigt, dass die Hinzufügung dieses Rauschens eine gute Übereinstimmung mit realen Daten ergibt.

Der Energieverbrauch in einem Haushalt, der auf die Gerätenutzung und die Steckdosenbelastung zurückzuführen ist, beträgt 20–26 %. Diese Energie resultiert aus dem Wunsch der Bewohner, Aktivitäten wie Baden, Zubereiten warmer Mahlzeiten, Benutzen der Spülmaschine, Waschen von Wäsche, Aufladen elektronischer Geräte wie Fernseher und Computer oder die Nutzung anderer Geräte, die Strom verbrauchen, auszuführen. In diesem Modell werden die Gleichungen 1b und c verwendet. Basierend auf den oben genannten Endverwendungen wird das Nutzungsverhalten der Geräte durch43 durch die Betriebsart der Geräte, die Betriebsdauer, den Stromverbrauch, die Begrenzung des täglichen Auftretens von Ereignissen und die Sättigungsrate charakterisiert. Der Betriebsmodus von Geräten beschreibt die funktionierenden Geräte und das damit verbundene Verhalten, die in drei Typen eingeteilt werden können: automatisch (die Nutzung des Geräts erfolgt unabhängig von der Person), halbautomatisch (das Gerät wird von einem Haushaltsmitglied eingeschaltet, aber automatisch ausgeschaltet) und manuell (das Gerät wird eingeschaltet). manuell aus- und wieder einschalten). Anhand der Sättigungsrate kann das Vorhandensein und/oder die Verbreitung bestimmter Geräte in Haushalten ermittelt werden. Im Allgemeinen sind die Betriebsart der Geräte und die Sättigungsrate deterministischer Natur. Allerdings variieren Parameter wie die Wahrscheinlichkeit des Auftretens einer Aktivität, die Startzeit, die Dauer, der Stromverbrauch und die maximale Häufigkeit von Aktivitäten von Haushalt zu Haushalt und von Tag zu Tag. Im Allgemeinen können sich einige Gerätenutzungen überschneiden und/oder parallel erfolgen.

In Tabelle 6 sind alle modellierten Aktivitäten und zugehörigen Geräte, ihre Betriebsmodi, die maximal zulässigen täglichen Vorkommnisse, die Aktivitätsdauer und der Stromverbrauch aufgeführt. Die mit einem Sternchen (*) gekennzeichneten Verteilungen weisen darauf hin, dass sie durch technische Beurteilung und/oder andere Quellen wie Energy Calculator (energyusecalculator.com) modelliert wurden. Die Leistungsverteilungen für Geschirrspüler stammen aus einer Umfrage des NIST62,63. Leistungswerte und Dauerverteilungen für Wäschereigeräte werden aus der Literatur27,44 und Umfragen63 abgeleitet; Zu den Leistungsangaben für Geräte im Kochbetrieb gehören Elektroöfen, Mikrowellen und Elektrokochfelder (kleine und große Brenner). Die Leistungsverteilungen für diese Geräte werden aus der NIST-Effizienzstudie64 abgeleitet, und die Dauer der Gerätenutzung wird aus ATUS-Daten ermittelt die Höchstgrenze für Kochaktivitäten ist auf drei begrenzt. Beispielleistungswerte für Fernseher werden anhand von EnergyStar-Berichten ermittelt65 und mithilfe einer Normalverteilung modelliert. Die TV-Aktivitätsdauer wird nach Untersuchung der ATUS-Umfragedaten als logarithmische Normalverteilung modelliert. Die Leistungswerte für Computernutzungsaktivitäten stammen aus einer kleinen Studie von EnergyStar66. Für die Ladedauer werden Standardwerte namhafter Laptop-Hersteller verwendet. Vakuumbezogene Daten stammen aus dem EnergyStar-Vakuumbericht und einer von Electrolux durchgeführten Umfrage unter 28.000 Verbrauchern aus 23 Ländern, darunter den USA67,68. Wir gehen davon aus, dass alle Haushalte über Staubsauger verfügen. Die Nutzungshäufigkeit des Staubsaugens liegt bei 1–5 Mal pro Woche68 und die maximale Anzahl der täglichen Vorgänge beträgt 1. Die Annahme einer Normalverteilung für Leistungswerte und Nutzungsdauer des Geräts ist nach Prüfung rudimentärer Ergebnisse aus Umfragen/Berichten sinnvoll. Die in Tabelle 4 zusammengefassten Ergebnisse der von NREL48,52 durchgeführten Warmwassernutzungsstudie zeigen, dass die meisten Prozesse als Normalverteilung modelliert werden können.

Das Aktivitätsmodell simuliert die Gerätenutzung basierend auf Aktivitätsindikatoren, die von ATUS bereitgestellt werden, wenn der Bewohner im Haus anwesend ist. Berücksichtigung des Vorhandenseins eines Geräts in jedem Haushalt (aus dem entsprechenden RECS-Haushalt). Die Zeitnutzungstagebücher von Erwachsenen in der synthetischen Bevölkerung und die Häufigkeit der Nutzung von Geräten wie Geschirrspüler und Wäsche sowie Aktivitäten wie Kochen wurden dem RECS-Haushalt entnommen. Das Aktivitätsmodell konzentriert sich auf Aktivitäten, die eine Person zu Hause ausführt. Ähnlich wie die Beleuchtung werden Aktivitäten wie Kochen, Staubsaugen und Freizeitaktivitäten wie Fernsehen von den Haushaltsmitgliedern gemeinsam genutzt. Im Folgenden wird ein Verfahren zum Generieren der Aktivitätssequenz ActSeqi auf Haushaltsebene beschrieben. Sei M die Anzahl der erwachsenen Mitglieder im synthetischen Haushalt. Dann hat jedes Haushaltsmitglied Pi, j eine Aktivitätssequenz ActSeqi, j. Das Ziel besteht darin, eine ActSeqi-Aktivitätssequenz auf Haushaltsebene zu finden, die aus n Aktivitäten (individuelle + gemeinsam genutzte Gerätenutzungsaktivitäten) besteht, sodass die Sequenz die folgenden Einschränkungen erfüllt:

Jede Aktivität wird durchgeführt, wenn mindestens ein Bewohner zu Hause ist.

Die Beschränkung der wiederholten Nutzung wird für jede Aktivitätsart eingehalten.

Das Vorhandensein eines Geräts wird für Aktivitäten wie Geschirrspüler und Waschmaschinen berücksichtigt.

Sobald die oben genannten Einschränkungen erfüllt sind, wird für jede Aktivität eine Startzeit zufällig aus der von ATUS gemeldeten Aktivitätsdauer ausgewählt. Die tatsächlichen Nutzungsdauern und Leistungswerte für Geräte, die bei verschiedenen Aktivitäten verwendet werden, werden aus Tabelle 6 ausgewählt. Tabelle 5 bietet einen Überblick über alle Energie-(Endverbrauchs-)Modelle im Rahmenwerk.

Der Datensatz für das gesamte Jahr 2014 für US-Haushalte ist öffentlich zum Download im net.science-Repository über University of Virginia Dataverse69 verfügbar. Der Datensatz liegt in Form von CSV-Dateien vor. Es ist nach Datum und Status in Ordnern organisiert. Abbildung 4 zeigt die Hierarchie der Datenorganisation und Dateinamenvorlagen. Jede Datei entspricht einer US-County-ID und einem Datum. Eine Kreiskennung ist ein FIPS-Code. FIPS-Codes sind Zahlen, die geografische Gebiete anhand der US-Volkszählung eindeutig identifizieren. Ein Datensatz in der Datei entspricht einem synthetischen Haushalt. Der Datensatz umfasst synthetische Haushaltsmetadaten und Energiedaten für das jeweilige Datum. Die Attribute des Datensatzes sind in Abb. 5 dargestellt. Alle energiebezogenen Daten sind in kWh angegeben. Alle Energiedaten werden anhand der lokalen Zeitzonen im Land mit einem Zeitstempel versehen. In den Downloads ist auch ein Datenheader-Codebuch enthalten. Beachten Sie, dass diese Arbeit vom Institutional Review Board (IRB) der University of Virginia geprüft wurde und entschieden wurde, dass sie von der IRB-Genehmigung ausgenommen ist, da dieses Forschungsprojekt keine Forschung an menschlichen Probanden beinhaltete.

Datenorganisation. Der Datensatz ist in Form von CSV-Dateien verfügbar. Die Dateien sind nach Datum (zeitlich) und Zustand (räumlich) organisiert. Der blaue Text gibt den Typ an (z. B. Ordner, Datei, Datensatz). Der Text in spitzen Klammern bezeichnet Nomenklaturvorlagen für Ordner und Dateien. Eine Datensatz-CSV-Datei enthält Energieverbrauchsdaten und Metadaten für einen synthetischen Haushalt in der SPEW-Population. Pro Landkreis und Datum wird es eine Datei geben. Ein Tag generiert mehrere GB Daten.

Zur Validierung der synthetischen Energieprofile werden drei Studien vorgestellt. Die erste Studie quantifiziert die Ähnlichkeit zwischen der realen und der synthetischen Wahrscheinlichkeitsverteilung des Energieverbrauchs mithilfe der Jensen-Shannon- und Hellinger-Distanz. Vergleiche werden nach Endnutzung für reale und synthetische Daten an allen repräsentativen Standorten der USA durchgeführt. Es werden starke Ähnlichkeiten bei der Gerätenutzungsverteilung zwischen realen und synthetischen Daten sowie zwischen räumlichen Standorten beobachtet. TCL-Lasten weisen Unterschiede in der Verteilung zwischen den Standorten auf. Die zweite Studie untersucht Variationen in den 24-Stunden-Zeitreihen des Energieverbrauchs in realen und synthetischen Daten an allen repräsentativen Standorten in den USA. Wir entdecken einzigartige Energieverbrauchsmuster in den realen und synthetischen Datensätzen und untersuchen Ähnlichkeiten in Mustern mithilfe von unbeaufsichtigtem Lernen. Wir führen dabei zwei Kennzahlen ein – Abdeckung und Nähe. Die synthetischen Daten weisen ähnliche Muster auf wie reale Daten. Die letzte Studie konzentriert sich auf die Beobachtung von Trends bei der Nutzung synthetischer Energie an verschiedenen repräsentativen Standorten in den USA. Wir stellen fest, dass die synthetischen Daten die Auswirkungen einer Mischung von Variablen wie Wetter, Einstrahlung, Gebäudeeigenschaften und demografische Merkmale auf Haushaltsebene berücksichtigen können Energieverbrauch. Die Studie ist eine schnelle Demonstration der Variabilität des Energieverbrauchs auf mehreren räumlich-zeitlichen Ebenen in verschiedenen Endanwendungen.

Der verbleibende V&V-Abschnitt ist wie folgt umrissen. Zunächst beschreiben wir die Herausforderungen bei der Validierung eines großen synthetischen Datensatzes für die Energienutzung. Anschließend heben wir die zeitlichen und räumlichen Auflösungen der Daten hervor, die in den Validierungsexperimenten berücksichtigt werden. Als nächstes werden die zur Auswertung verwendeten Ground-Truth-Datensätze (reale/aufgezeichnete/tatsächliche Daten) kurz beschrieben. Anschließend erfolgt die Beschreibung des Versuchsaufbaus und der Ergebnisse.

Die Validierung der Qualität großräumiger synthetischer Zeitreihendaten für eine große Region wie die USA ist aufgrund der enormen Ausdehnung, Vielfalt und der unterschiedlichen Klimazonen im Land eine Herausforderung. Eine der Herausforderungen bei der Validierung einer Energieverbrauchszeitreihe auf Haushaltsebene ist die große Vielfalt und Variabilität der Lastmuster innerhalb und zwischen Haushalten. Neben externen Faktoren wie Wetter und Gebäudeeigenschaften spielen der Lebensstil und die Erschwinglichkeit der Verbraucher eine entscheidende Rolle bei der Gestaltung der Nachfrage, beispielsweise eine Kurve mit einem Morgengipfel oder eine Kurve mit einem kleinen Nachmittagsgipfel und einem scharfen Abendgipfel. Dies führt zu einem großen Spektrum an Variationen und Mustern im Energieverbrauch. Daher sind eingehende vergleichende Analysen synthetischer Daten mit tatsächlichen Daten erforderlich. Voraussetzung hierfür ist jedoch die Verfügbarkeit einer angemessenen Menge repräsentativer realer Daten. Hier verwenden wir reale/aufgezeichnete Daten wie Lastforschungsdaten, Endverbrauchsmessdaten und Smart-Meter-Daten von zehn Standorten im Land, die repräsentativ für die US-Klimazonen sind (Tabelle 7). Die Verfügbarkeit öffentlicher Smart-Meter-Daten in den USA ist begrenzt, was zu einer möglichen Verzerrung der ausgewählten Stichprobe von Haushalten führen kann und möglicherweise nicht räumlich repräsentativ ist. Daher ist es wichtig, unser Verständnis von Validierung in diesem Kontext zu formulieren.

Wir befassen uns mit der Qualität der synthetischen Energieverbrauchsdaten anhand von zwei intrinsischen Qualitäten von Energieverbrauchsdaten: Größe (Nutzung über 24 Stunden) und Lastform (Verbrauchsmuster). Stärke und Lastform können über die zeitliche (Stunde/Tag/Monat/Jahr) und räumliche (Haushalt/Volkszählungsgebiet/Stadt/Landkreis/Bundesland/Klimazonen) Achse untersucht werden. Somit umfasst der Verifizierungs- und Validierungsprozess (V&V) Folgendes:

Räumliche Repräsentativität und Auflösungen. Aufgrund der begrenzten Verfügbarkeit realer Daten definieren wir räumliche Repräsentativität, indem wir in jeder Klimazone in den USA mindestens einen Standort für die Durchführung von Validierungsexperimenten auswählen. Die wichtigsten Klimazonen70 in den angrenzenden Vereinigten Staaten sind wie folgt: (i) Meer, (ii) heiß-trocken/gemischt-trocken, (iii) heiß-feucht, (iv) gemischt-feucht und (v) kalt/sehr -kalt. Anschließend werden Vergleiche nach Haushalts- und Stadt-/Kreisauflösung durchgeführt.

Zeitliche Repräsentativität und Auflösungen. Die zeitliche Repräsentativität wird durch die Beobachtung von Ähnlichkeiten zwischen realen und synthetischen stündlichen Nachfrageprofilen untersucht. Darüber hinaus wird der tägliche und saisonale Energieverbrauch für verschiedene Standorte untersucht.

Energieverbrauch aufschlüsseln. Beachten Sie, dass wir disaggregierte Energieverbrauchsdaten auf Haushaltsebene veröffentlichen. Somit ist eine feinere Bewertungsebene, beispielsweise eine Unterart des Energieverbrauchs (z. B. HVAC, Kochen usw.), auf verschiedenen zeitlichen und räumlichen Ebenen möglich.

Alle im V&V-Prozess verwendeten realen Datensätze sind in Tabelle 7 aufgeführt. Die aufgezeichneten Datensätze stammen von Pecan Street Dataport23, Northwest Energy Efficiency Alliance (NEEA)71 und National Rural Electric Cooperative Association (NRECA). Der Los Alamos-Datensatz wird von einem öffentlichen Daten-Sharing-Repository Dryad72 bezogen. Leider verfügen wir in diesen Datensätzen über keine Metadaten zu Haushalten (z. B. Haushaltsgröße, Wohnungstyp usw.). Die Datensätze enthalten nur Zeitreihen zum Energieverbrauch.

Es werden drei Studien vorgestellt, die die zeitliche, räumliche und disaggregierte Natur der synthetischen Zeitreihen abdecken:

I. Vergleich des realen und synthetischen Endenergieverbrauchs (Größe)

II. Vergleich realer und synthetischer Energienutzungsmuster (Form/Struktur)

III. Beobachtung von Unterschieden und Ähnlichkeiten in Daten zum synthetischen Energieverbrauch an räumlich repräsentativen Orten

In diesem Experiment werden Verteilungen synthetischer und realer täglicher Endverbrauchsdaten anhand statistischer Metriken verglichen. Eine Möglichkeit, diese Verteilungen zu vergleichen, besteht darin, den Abstand zwischen der realen und der synthetischen Endverbrauchsverteilung zu messen. Für diese Aufgabe können viele Metriken verwendet werden (z. B. die Kullback-Leibler-Divergenz (KL), die Hellinger-Distanz, die Gesamtvariationsdistanz (TVD), die Wasserstein-Metrik, die Jensen-Shannon-Divergenz (JS) und die Kolmogorov-Smirnov-Statistik (KS)). Klemenjak et al.26 verwenden die JS-Distanz und die Hellinger-Distanz als Beispiele, um die Verteilungen des Geräteenergieverbrauchs zwischen verschiedenen Datensätzen zu vergleichen. Eine ähnliche Methode wird in diesem Abschnitt unter Verwendung der JS-Distanz und der Hellinger-Distanzmetrik implementiert. In unserem Fall ermöglicht uns die Berechnung der Abstände zwischen täglichen Endverbrauchsverteilungen die Durchführung regionaler Vergleiche sowie Vergleiche zwischen realen und synthetischen Datensätzen.

Der Jensen-Shannon-Abstand ist die Quadratwurzel der Jensen-Shannon-Divergenz73. Der Bereich dieser Metrik liegt zwischen [0, 1], wobei 0 impliziert, dass die Verteilungen ähnlich sind. Wir bevorzugen die JS-Divergenz gegenüber der KL-Divergenz, da es sich um ein symmetrisches Maß handelt. Wenn P und Q zwei Wahrscheinlichkeitsvektoren sind, ist der JS-Abstand JS(P, Q) gegeben durch

Dabei ist M der punktweise Mittelwert von P und Q und KL die Kullback-Leibler-Divergenz. Zur Ergänzung unserer Studie verwenden wir die Hellinger-Distanz als zweite Metrik, um die Ähnlichkeit zwischen zwei Wahrscheinlichkeitsverteilungen zu quantifizieren. Auch der Hellinger-Abstand ist ein symmetrisches Maß. Sein Wertebereich ist [0, 1], wobei 0 bedeutet, dass die Verteilungen ähnlich sind. Der Hellinger-Abstand zweier Wahrscheinlichkeitsvektoren P und Q wird mit H(P, Q) bezeichnet und ist definiert als

Dabei ist k die Länge der Vektoren und pi, qi die i-ten Elemente der Vektoren P bzw. Q.

Der tägliche Endenergieverbrauch (z. B. \({E}_{i}^{{\rm{hvac}}}\)) auf Haushaltsebene wird in den realen und synthetischen Daten für jeden in Abb. 6 angegebenen Standort verglichen. Die Vektoren P und Q bezeichnen Werte in einer einzigen Endverwendung für zwei Datensätze. Abbildung 6a–c listet JS-Abstände auf und Abb. 6d–f listet Hellinger-Abstände für ausgewählte Endanwendungen auf (HLK, Kühlschrank, Kochgeräte). Jede Matrix stellt Abstände zwischen zwei Energieverbrauchsverteilungen für einen Endverbrauch dar. Die Zeilen- und Spaltenüberschriften repräsentieren unterschiedliche Datenquellen und unterschiedliche Regionen, und jede Zelle stellt den Ähnlichkeits-/Entfernungswert der Wahrscheinlichkeitsverteilung in Form einer Heatmap dar, wobei der Balken den Bereich der Werte auf einer kontinuierlichen Skala anzeigt.

Datenattribute. Es werden rund um die Uhr disaggregierte stündliche Energiebedarfsprofile für Haushalte zur Verfügung gestellt. 1–24 gibt die Stunde an, die Mitternacht beginnt. Es werden acht Endverwendungsprofile beschrieben (Zeilen 3–10).

Linke Spalte: Jensen-Shannon-Distanzmatrizen, rechte Spalte: Hellinger-Distanzmatrizen. Jede Spalte zeigt Jensen-Shannon-Distanz- und Hellinger-Distanzmatrizen zwischen Endverwendungswahrscheinlichkeitsverteilungen. Jede Matrix stellt die Abstände zwischen zwei Energieverbrauchsverteilungen für einen bestimmten Endverbrauch dar (z. B. HLK, Kühlschrank, Kochen). Die Zeilen- und Spaltenüberschriften der Matrix stellen unterschiedliche Datenquellen und unterschiedliche Regionen dar und jede Zelle stellt den Ähnlichkeits-/Entfernungswert der Wahrscheinlichkeitsverteilung in Form einer Heatmap dar, wobei der Balken den Bereich der Werte auf einer kontinuierlichen Skala anzeigt.

Die JS- und Hellinger-Abstandstabellen für Endanwendungen weisen starke Ähnlichkeiten auf (der Abstand liegt nahe bei Null). Darüber hinaus werden innerhalb jeder Matrix drei Arten von Vergleichen durchgeführt. Wir berechnen die Ähnlichkeit zwischen Endnutzungsverteilungen für verschiedene Regionen in synthetischen Daten, verschiedene Regionen in realen Daten und verschiedene Regionen in verschiedenen Datenquellen (nämlich reale und synthetische Daten). Bei der Gerätenutzung (z. B. Kochen) sind die Verteilungen je nach Region und Datenquelle recht ähnlich. Dies stützt die Erkenntnisse aus Abb. 11, dass es erhebliche Ähnlichkeiten zwischen verschiedenen Regionen hinsichtlich des synthetischen täglichen Energieverbrauchs verschiedener Geräte gibt. Für die HVAC-Endnutzung ist zu beobachten, dass die Verteilungen sowohl für synthetische als auch für reale Datenquellen zwischen den Regionen auseinanderklaffen. Dies gilt insbesondere aufgrund des starken Zusammenhangs von HVAC mit den Außen-/Umgebungstemperaturbedingungen und der Zeitspanne, für die diese Temperaturbedingungen vorherrschen (z. B. werden in Texas (TX) wärmere Temperaturen über einen längeren Zeitraum beobachtet).

In diesem Abschnitt werden die Zeitreihen des synthetischen Energieverbrauchs anhand der Konzepte Diversität, Abdeckung und Nähe bewertet. Die Vielfalt der Energieverbrauchsmuster wird durch Segmentierung der normalisierten Zeitreihen \(\left\langle {\overline{e}}_{0},\ldots ,{\overline{e}}_{23}\right\rangle \ erfasst. ) mithilfe unbeaufsichtigter Lerntechniken wie Clustering. Anschließend wird die Abdeckung im Hinblick darauf untersucht, wie viel Prozent der synthetischen Zeitreihenpopulation in der realen Zeitreihenpopulation vertreten ist und umgekehrt. Daher wird die Abdeckung zur Messung der Diversität verwendet. Es reicht jedoch nicht aus, nur die Abdeckung zu lernen. Es ist notwendig, die Genauigkeit der gefundenen Übereinstimmungen zu messen. Daher führen wir die Nähemetrik ein. Es untersucht, wie nah (z. B. dist(i, j)) die synthetischen und realen Datenpunkte sind.

Sei \({\mathcal{R}}\) und \({\mathcal{S}}\) die Menge der Lastformen der Zeitreihen des realen und synthetischen Energieverbrauchs. Sei \({K}_{{\mathcal{R}}}\) die Anzahl der eindeutigen Lastformen (Segmente/Muster/Cluster), die in der Menge \({\mathcal{R}}\) gefunden werden. Dann definieren wir die \(Abdeckung({\mathcal{S}})\) als Verhältnis

Somit spiegelt \(coverage({\mathcal{S}})\) den Grad wider, in dem Stichproben aus der Menge \({\mathcal{S}}\) die Muster in der Menge \({\mathcal{R}}\ abdecken. ). Wenn \({K}_{{\mathcal{S}}}\) die Anzahl der eindeutigen Segmente in der Menge \({\mathcal{S}}\) ist, dann gilt \(coverage({\mathcal{ R}})\) spiegelt den Prozentsatz eindeutiger Muster in der Menge \({\mathcal{S}}\) wider, die von Datenpunkten in der Menge \({\mathcal{R}}\) abgedeckt werden. Die Abdeckung ist zwischen 0 und 1 begrenzt. Abbildung 13b zeigt \(Abdeckung({\mathcal{S}})\) und \(Abdeckung({\mathcal{R}})\), wenn K variiert.

Um die Nähe zu messen, berechnen wir die Entfernung einzelner Zeitreihen zum jeweiligen Clusterzentrum/Repräsentanten. Wenn \({K}_{{\mathcal{R}}}\) die Anzahl der Cluster in der Menge \({\mathcal{R}}\) ist, dann ist die Nähe(\({\mathcal{S} }\), \({\mathcal{R}}\)) der Menge \({\mathcal{S}}\) zur Menge \({\mathcal{R}}\) wird durch Vergleich der Abstandsverteilungen gemessen der einzelnen Zeitreihen \(i\in {\mathcal{R}}\) und \(j\in {\mathcal{S}}\) in jedem Cluster \(c\in {K}_{{\mathcal{R }}}\) zur jeweiligen zentralen/repräsentativen Zeitreihe des Clusters. Abbildung 13b zeigt schematisch den Aufbau der Distanzverteilungen. Es seien \({P}_{{\mathcal{R}}}\) und \({P}_{{\mathcal{S}}}\) die Wahrscheinlichkeitsvektoren der Abstände von Mengen \({\mathcal{ R}}\) bzw. \({\mathcal{S}}\). Um den Grad der Nähe zu messen, vergleichen wir die beiden Wahrscheinlichkeitsverteilungen mithilfe der Hellinger-Distanz \({\rm{H}}({P}_{{\mathcal{R}}},{P}_{{\mathcal{S }}})\) (Gl. 6). Wenn die Verteilungen \({P}_{{\mathcal{R}}}\) und \({P}_{{\mathcal{R}}}\) ähnlich sind, dann sagen wir, dass die Menge \({\mathcal {S}}\) liegt nahe an der Menge \({\mathcal{R}}\).

Die Nähe ist zwischen 0 und 1 begrenzt. 0 impliziert, dass die beiden Mengen nahe beieinander sind. Beachten Sie, dass die Nähe keine symmetrische Metrik ist, d. h. \(Nähe({\mathcal{S}},{\mathcal{R}})\ne Nähe({\mathcal{R}},{\mathcal{S}})\ ). Abbildung 13b beschreibt die Variation des Ähnlichkeitswerts der Wahrscheinlichkeit bei unterschiedlicher Anzahl von Segmenten K.

Nun beschreiben wir kurz den Versuchsaufbau. Zwei Fälle werden betrachtet, um Abdeckung, Nähe und Robustheit von Clustergruppierungen (k) zu untersuchen. Für jeden Fall wird die Zeitreihe des Energieverbrauchs normalisiert, was zu einer Lastform \(\langle {\overline{e}}_{0},\ldots ,{\overline{e}}_{23}\rangle \) führt. Wir wählen die Normalisierung nach Gesamtverbrauch (Gl. 9), um ausgeprägte Auswirkungen der Spitzenlast im Profil zu berücksichtigen. Haushaltspräferenzen oder Lebensstile können typischerweise durch eine oder mehrere Lastformen74 erfasst werden, daher wählen wir diese Darstellung, um Muster in den Daten aufzudecken. Somit sind alle \(i\in {\mathcal{R}}\) und \(j\in {\mathcal{S}}\) normalisierte Energieverbrauchsvektoren der Länge 24.

Im ersten Fall (Fall 1) generieren wir \({K}_{{\mathcal{R}}}\)-Muster aus der Menge \({\mathcal{R}}\), indem wir die realen normalisierten Energieverbrauchsvektoren gruppieren Verwendung des K-Means-Clustering-Algorithmus mit euklidischem Abstand. Anschließend wird jeder Zeitreihe des synthetischen Energieverbrauchs \(j\in {\mathcal{S}}\) ein Clusterlabel \(k\in {K}_{{\mathcal{R}}}\) zugewiesen. Sei ck der Zentrums-/Darstellungsvektor der Gruppe k. Dann wird \(j\in {\mathcal{S}}\) dem Cluster zugewiesen, dessen Cluster-Mittelpunktsabstand von j minimal ist, und ist gegeben durch \(min(dist(\;j,{c}_{0} ),\ldots ,dist(j,{c}_{{K}_{{\mathcal{R}}}}))\). Dann berechnen wir die Abdeckung synthetischer Daten \(Abdeckung({\mathcal{S}})\) und die Nähe synthetischer Daten zu realen Daten in allen Clustern als \(Nähe({\mathcal{S}},{\mathcal {R}})\). In Fall 2 generieren wir \({K}_{{\mathcal{S}}}\)-Cluster aus der Menge \({\mathcal{S}}\) (synthetische Daten), indem wir die normalisierten Energieverbrauchsvektoren mit k segmentieren -bedeutet Clustering-Algorithmus mit euklidischem Abstand. Anschließend wird jeder Zeitreihe des realen Energieverbrauchs \(i\in {\mathcal{R}}\) eine Clusterbezeichnung \(k\in {K}_{{\mathcal{S}}}\) zugewiesen. i wird dem Cluster zugeordnet, dessen Cluster-Mittelabstand minimal von i ist, und ist gegeben durch \(mi{n}_{\forall k\in {K}_{{\mathcal{S}}}}dist(i,{ c}_{k})\). Dann berechnen wir die Abdeckung realer Daten in synthetischen Gruppen \(Abdeckung({\mathcal{R}})\) und die Nähe realer Daten und synthetischer Daten zwischen allen synthetischen Clustern als \(Abdeckung({\mathcal{R}}} ,{\mathcal{S}})\).

Die Ergebnisse beider Fälle sind in Abb. 8 zusammengefasst. In beiden Fällen wird für unterschiedliche Werte von k eine 100-prozentige Abdeckung beobachtet. Beobachtungen zur Nähemetrik sind interessant. Der Hellinger-Abstand liegt in allen Szenarien nahe Null, mit zunehmendem k nimmt der Wert jedoch leicht zu. Wir untersuchen dies weiter in Abb. 7. Abbildung 7 zeigt Histogramme der Entfernungen realer Datenpunkte und synthetischer Datenpunkte von ihrem zugewiesenen Clusterzentrum. Im Fall 1 ist die Abstandsverteilung synthetischer Datenpunkte etwas breiter als die Abstandsverteilung realer Datenpunkte für alle k. Somit sehen wir in Abb. 8c einen Abstand für die Nähe (\({\mathcal{R}},{\mathcal{S}}\)). Mit zunehmendem k wird beobachtet, dass einige einzelne Cluster eine breite und/oder bimodale Abstandsverteilung aufweisen, was darauf hindeutet, dass es Datenpunkte gibt, die sehr nahe am Clusterzentrum liegen, während einige wenige weit entfernt sind. Dieser Unterschied wird deutlich, wenn die Anzahl der Cluster zunimmt.

Beispiel für Nähe in verschiedenen Fällen mit variierendem k. Die Abbildungen zeigen die Abstände von Datenpunkten aus den Mengen \({\mathcal{R}}\) und \({\mathcal{S}}\) zu ihrem jeweiligen Clusterzentrum. (a) zeigt Histogramme von Abständen für verschiedene k. Das Diagramm links gilt für reale Datenpunkte und rechts für synthetische Datenpunkte. Dann berechnen wir \(Nähe({\mathcal{R}},{\mathcal{S}})\) mithilfe der Hellinger-Distanz (entspricht der blauen Linie in Abb. 8c). Für k = 5 wird ein bimodales Muster in den Abständen für synthetische Datenpunkte beobachtet, das tendenziell abnimmt, wenn die Anzahl der Cluster k zunimmt. Abbildung b zeigt Histogramme von Abständen für verschiedene k für Fall 2. Die Darstellung links gilt für synthetische Datenpunkte und rechts für reale Datenpunkte. \(Nähe({\mathcal{S}},{\mathcal{R}})\) wird mithilfe der Hellinger-Distanz berechnet (entspricht der orangefarbenen Linie in Abb. 8c).

Zusammenfassung der beiden Fallszenarien. Die orange Farbe wird für Ergebnisse von Fall 1 angezeigt, bei dem wir den realen Datensatz \({\mathcal{R}}\) gruppieren und dem synthetischen Datensatz \({\mathcal{S}}\) eine Clusterbezeichnung zuweisen. Die blaue Farbe wird für Ergebnisse von Fall 1 angezeigt, bei dem wir den synthetischen Datensatz \({\mathcal{S}}\) gruppieren und dem realen Datensatz \({\mathcal{R}}\) eine Clusterbezeichnung zuweisen. (a) zeigt in beiden Fällen eine 100-prozentige Abdeckung, auch wenn k variiert. Das bedeutet, dass zu jedem Cluster für ein gegebenes k jeweils mindestens ein Datenpunkt gehört. (b) zeigt die Nähe zwischen den beiden Distanzvektoren: Distanz realer Datenpunkte in einem Cluster zu ihrem jeweiligen Schwerpunkt und Distanz synthetischer Datenpunkte in einem Cluster zu ihrem jeweiligen Schwerpunkt. Die Nähe wird durch den Hellinger-Abstand angegeben, was darauf hindeutet, dass ein Wert von 0 bedeutet, dass die beiden Verteilungen ähnlich sind. Der Wert der Abstände liegt in beiden Fällen für alle Werte von k nahe bei 0. Mit zunehmendem k ist jedoch ein Aufwärtstrend zu beobachten. Insgesamt sehen wir die Robustheit der Ergebnisse

Das Ziel dieser V&V-Übung bestand darin, zu überprüfen, ob die Vielfalt und Trends der realen Energienutzungsprofile in den synthetischen Energienutzungsprofilen reproduziert werden. Aufgrund einer voreingenommenen und verzerrten Stichprobe der realen Energieverbrauchsdaten ist es schwierig, synthetische Daten zu validieren. Einige der Merkmale der realen Datensätze, die die Implementierung der Verwendung vorhandener Bewertungsmetriken in ihrer jetzigen Form behindern, werden im Folgenden aufgeführt. Es sind keine unterstützenden Informationen über die tatsächlichen Haushalte verfügbar (z. B. Haushaltsgröße, Wohnungstyp, Quadratmeterzahl, Einstellung des Innenthermostats). Wir haben gezeigt, dass alle diese Faktoren für die Erzeugung der Haushaltsnachfrage zu einem bestimmten Zeitpunkt äußerst wichtig sind. Einige der Haushalte in den realen Daten können auch Teilnehmer an Programmen zur Nachfragesteuerung sein, was zu einzigartigen Lastformen aufgrund der Verschiebung der Nachfrage/der Verringerung der Spitzennachfrage führt, die in Haushalten, die nicht an DR-Programmen teilnehmen, möglicherweise nicht zu finden sind (z. B. synthetische Daten). Die realen Datensätze werden für verschiedene Jahre für jede Region erfasst. Für einige Regionen sind die Daten unvollständig (z. B. verfügen die Proben aus San Diego nicht über Beleuchtungsdaten). Die Stichprobengröße (Anzahl der Haushalte) ist stark verzerrt. Sie reicht von 9 Haushalten in Montana bis zu 56.000 Haushalten in Horry, SC. Daher ist es wichtig zu beachten, dass \(| {\mathcal{R}}| < < | {\mathcal{S}}| \) (z. B. ist die Anzahl der in unserem Rahmen für den Bundesstaat Washington simulierten Haushalte weitaus größer von 78 Haushalten in realen Daten für den Bundesstaat Washington.) Alle diese Beobachtungen sind in Tabelle 7 zusammengefasst.

Diese empirische Studie verwendet nur die synthetischen Daten, um eine vergleichende regionale Analyse durchzuführen, um Ähnlichkeiten und Unterschiede zwischen der Energienutzung für verschiedene Endverwendungen zu untersuchen. Wir beobachten die räumlich-zeitlichen Muster und Variationen bei verschiedenen Endnutzungen in Bezug auf Umweltelemente wie Einstrahlung und Temperatur sowie demografische und strukturelle Merkmale der Haushalte. Die ausgewählten Zielstandorte sind räumlich repräsentativ für verschiedene Klimazonen der USA:

Arlington, VA; Cook County, IL; Houston County, TX; Maricopa County, AZ; King County, WA

Die Zusammensetzung des Stromverbrauchs nach Endverbrauchern ist in Form von Tortendiagrammen in Abb. 9 dargestellt. EIA meldet die Anteile der wichtigsten Endverbraucher wie folgt: Warmwasser 17–32 %, Beleuchtung 5–10 %, Kühlschrank 3– 5 %, Aktivitäten/Geräte 20–26 %, Raumheizung 25–47 % und Klimaanlage 5–10 %. Im Allgemeinen liegen die Prozentsätze der wichtigsten Endverwendungskategorien in ähnlichen Bereichen wie die von der EIA gemeldeten. HVAC hat im Vergleich zur Nutzung von Geräten und/oder anderen Aktivitäten einen dominanten Anteil am Energieverbrauch in Haushalten.

Zusammensetzung des synthetischen Stromverbrauchs in den repräsentativen Zielstandorten. Heizung und Kühlung machen den größten Teil des Stromverbrauchs in Privathaushalten aus. In heißeren Regionen wie Maricopa und Houston verbrauchen Kühlschränke etwas mehr Energie. Aktivitäten wie Geschirrspülen, Wäschewaschen und Kochen machen in verschiedenen Regionen zwischen 8 und 17 % aus. Beleuchtung und Warmwasserbereitung haben über alle Standorte hinweg einen gleichbleibenden Anteil am Verbrauch. Die Proportionen weisen Ähnlichkeiten mit den von der EIA veröffentlichten Daten auf.

Saisonale Schwankungen des Energieverbrauchs für HVAC, Kühlschrank und Warmwasser sind in Abb. 10 dargestellt. Das Diagramm zeigt die Schwankungen des täglichen durchschnittlichen Energieverbrauchs der vier Endverbraucher auf monatlicher Basis sowie der Temperatur im Laufe des Jahres 2014. Der Energieverbrauch von Kühlschränken steigt leicht an mit der Temperatur, während die zum Erhitzen von Wasser benötigte Energie mit steigender Temperatur abnimmt.

Monatliche Änderungen des synthetischen Energieverbrauchs in Endverbrauchsbereichen wie Heizung, Lüftung, Kühlung, Kühlschrank und Warmwasser in Bezug auf die Temperatur. Das obige Liniendiagramm zeigt die monatlichen Änderungen des Energieverbrauchs in Endverbrauchsbereichen wie HVAC, Kühlschrank, Warmwasserbereitung im Verhältnis zur Außentemperatur. Das Liniendiagramm zeigt den durchschnittlichen Tagesverbrauch aller Haushalte in den Zielregionen. Das Streudiagramm im Hintergrund beschreibt den durchschnittlichen täglichen Verbrauch für einen Endverbraucher für die Stichprobentage, farblich nach Standort codiert. Die Größe der Marker gibt die Standardabweichung des Endverbrauchs an. Legende: Arlington, VA (grün); Cook County, IL (blau); Houston County, TX (gelb); Maricopa County, AZ (braun); King County, WA (Cyan).

Variation des Energieverbrauchs synthetischer Geräte an Zielstandorten im Laufe des Jahres. Die Liniendiagramme zeigen die Schwankungen des täglichen Energieverbrauchs für verschiedene Geräte mit Energieverbrauch im Laufe des Jahres, gemittelt pro Monat. Die Linien stellen den durchschnittlichen Tagesverbrauch aller Haushalte in der Zielregion dar. Das Streudiagramm im Hintergrund beschreibt den durchschnittlichen täglichen Verbrauch für einen Endverbraucher für die Stichprobentage, farblich nach Standort codiert. Die Größe der Marker gibt die Standardabweichung des Endverbrauchs an. Es gibt auffällige Ähnlichkeiten bei der Gerätenutzung an allen Standorten, was darauf hindeutet, dass Menschen in verschiedenen Teilen des Landes Geräte auf ähnliche Weise nutzen. Dies ist eine vernünftige Beobachtung, da alltägliche Aktivitäten wie Kochen und Putzen in allen Haushalten stattfinden. Ihr Nutzungsverhalten kann sich im Laufe des Tages ändern, der Gesamtenergieverbrauch des Geräts am Ende des Tages ist jedoch ähnlich. Arlington, VA (grün); Cook County, IL (blau); Houston County, TX (gelb); Maricopa County, AZ (braun); King County, WA (Cyan).

Der Stromverbrauch für die Warmwasserbereitung ist in den Sommermonaten an allen Standorten am niedrigsten (Abb. 10c). Insbesondere Regionen aus feucht-heißen und trocken-heißen Klimazonen verbrauchen am wenigsten Energie. Diese Beobachtung ergibt sich aus der Beziehung zwischen \({E}^{{\rm{h2o,v}}}\) und \({T}_{m,z}^{{\rm{cold}}}\) beschrieben in Gl. 3. Die Wassereintrittstemperatur (\({T}_{m,z}^{{\rm{cold}}}\)) unterscheidet sich sowohl zeitlich als auch räumlich und hängt von den Außentemperaturen der Umgebung ab50 (Details im Anhang). ). Abbildung 13 zeigt Diagramme, die den Zusammenhang zwischen der Haushaltsgröße und der Anzahl der verbrauchten Gallonen Warmwasser sowie der zum Erhitzen von Wasser erforderlichen Energie beschreiben. Beachten Sie, dass wir in dieser Arbeit nur elektrische Warmwasserbereiter betrachten.

Abbildung 10a zeigt, dass der HVAC-Verbrauch im Laufe des Jahres erheblich schwankt. In heißen, trockenen Gebieten ist die Nutzung von Klimaanlagen im Sommer höher als in anderen Regionen, möglicherweise aufgrund höherer Temperaturen. Strukturelle Merkmale wie die Größe der Wohnung (Quadratmeter), die Qualität der Isolierung, das Alter und die Effizienz der HVAC-Ausrüstung wirken sich auch auf den HVAC-Verbrauch der Haushalte aus. Eine weitere wichtige Variable, die den HVAC-Verbrauch beeinflusst, ist das Verhalten des Innenthermostats, das mit dem Verhalten/den Handlungen der Hausbewohner zusammenhängt. Bei dieser Arbeit werden die Raumtemperaturen des Raumthermostats den ganzen Tag über konstant eingestellt. Die Qualität der Isolierung wird in Haushalten nicht überwacht (mangels Daten). Wir gehen davon aus, dass die Wohnung gut isoliert ist und die Dämmwerte gemäß den DOE-Standards für die jeweiligen Klimazonen umgesetzt werden. In Abb. 12a zeigen wir die Auswirkung der Quadratmeterzahl (klimatisierter Raum) einer Wohnung auf den HVAC-Energieverbrauch. Im Allgemeinen beobachten wir, dass mit zunehmender klimatisierter Fläche in der Wohnung der HVAC-Verbrauch steigt.

(a) Synthetische HVAC-Nutzung und Hausfläche (dh Grundfläche). Boxplot, der den täglichen HVAC-Verbrauch an einem Wintertag für die ausgewählten Zielstandorte nach Hausfläche (d. h. Grundfläche) vergleicht. Die x-Achse gruppiert die Grundfläche von Häusern in fünf Klassen, die in zwei Einheiten Quadratfuß (ft2) und Quadratmeter (m2) angegeben sind. Die Behälter sind wie folgt: ≤1000 ft2, 1000 - 1500 ft2, 1500 - 2000 ft2, 2000 - 3000 ft2, ≥3000 ft2. Es ist zu beobachten, dass mit zunehmender Grundfläche des Hauses der HVAC-Verbrauch in allen Regionen zunimmt. Die Wintertemperaturen sind in Arizona und Texas relativ moderat, daher ist der HVAC-Verbrauch im Vergleich zu anderen Regionen geringer. (b) Verwendung synthetischer Beleuchtung und Haushaltsgröße. Mit zunehmender Haushaltsgröße steigt der Lichtverbrauch. Die Haushaltsgröße gibt die Anzahl der Mitglieder eines Haushalts an.

Verbrauch und Energie von synthetischem Warmwasser im Vergleich zur synthetischen Haushaltsgröße. Die Haushaltsgröße gibt die Anzahl der Haushaltsmitglieder an. Die gruppierten Balkendiagramme zeigen die Menge des verbrauchten Warmwassers (in Gallonen in (a)) und den entsprechenden Energieverbrauch in (b) entsprechend der Haushaltsgröße an einem Wintertag. Die vertikale schwarze Linie auf jedem Balken zeigt die Variation. Der Wasserverbrauch und seine Schwankungen nehmen mit der Haushaltsgröße zu. Die Energiemenge für den Warmwasser-Endverbrauch steigt mit der Haushaltsgröße und ist je nach Region unterschiedlich.

Der Energieverbrauch der Beleuchtung variiert je nach Jahreszeit in allen Regionen, da sich die Einstrahlungsstärke je nach Wetterereignissen und Jahreszeiten ändert. Abbildung 14b zeigt die Zeitreihen der durchschnittlichen Bestrahlungsstärke für die Zielorte. Die entsprechende Beleuchtungsnutzung ist in Abb. 14a dargestellt. Als Beispiel betrachten wir monatliche Einstrahlungsprofile über 24 Stunden in Virginia für das Jahr 2014 (Abb. 14d). Die entsprechende monatliche Zeitreihe des Beleuchtungsenergieverbrauchs ist in Abb. 14c dargestellt. Ein Beispiel für den Lichtverbrauch im Verhältnis zur Haushaltsgröße ist in Abb. 12b dargestellt.

Heatmap, die die Beziehung zwischen der stündlichen Nutzung synthetischer Beleuchtung und der stündlichen Bestrahlungsstärke darstellt. (a) zeigt durchschnittliche jährliche 24-Stunden-Beleuchtungsprofile repräsentativer Zielorte. (b) zeigt das durchschnittliche jährliche 24-Stunden-Bestrahlungsprofil repräsentativer Zielstandorte. (c) und (d) stellen die Variation der Beleuchtungsnutzung und die entsprechenden Bestrahlungsstärkeprofile auf monatlicher Ebene für Arlington, VA dar. (c) stellt die Schwankungen des Lichtverbrauchs im Laufe des Tages in verschiedenen Monaten des Jahres dar. (d) zeigt die Variation im monatlichen Bestrahlungsstärkeprofil. Die Maßeinheiten für den Energieverbrauch sind kWh und die Bestrahlungsstärke ist Watt/m2. Der Energieverbrauch der Beleuchtung ist umgekehrt proportional zur Bestrahlungsstärke. Der Energieverbrauch ist in den Abend- und Nachtstunden höher, wenn der Bewohner in der Wohnung aktiv ist. Die durchschnittlichen Beleuchtungs- und Bestrahlungsstärkeprofile zeigen regionale Unterschiede in der Verfügbarkeit der Bestrahlungsstärke und dem daraus resultierenden Energieverbrauch für die Beleuchtung. Die VA-Profile zeigen, dass das Tageslicht länger zur Verfügung steht, was zu einem geringeren Beleuchtungsenergieverbrauch im Vergleich zum Winter führt.

Abbildung 11 zeigt die Aufschlüsselung der Gerätenutzung für verschiedene Haushaltsgeräte und elektronische Geräte. Beide Abbildungen zeigen ein Liniendiagramm, das den durchschnittlichen Tagesverbrauch für den Monat angibt. Das Streudiagramm im Hintergrund beschreibt den durchschnittlichen täglichen Verbrauch für einen Endverbrauch an den Stichprobentagen, farblich nach Standort codiert, wobei die Größe der Markierungen die Standardabweichung des Endverbrauchs angibt. Es wurde beobachtet, dass die Gerätenutzung bei Aktivitäten wie Kochen, Geschirrspülen, Wäschewaschen, Fernsehen, Computernutzung und Putzen in verschiedenen Regionen ziemlich ähnlich ist. Der obige Kommentar trifft intuitiv zu, da die Nutzungsdauer und die Bewertungen der Geräte möglicherweise nicht von Region zu Region variieren. Allerdings kann der Zeitpunkt des Auftretens im Laufe des Tages von Haus zu Haus variieren, abhängig von den Bewohnerplänen, unabhängig davon, zu welcher geografischen Region sie gehören.

Um den Datensatz zu analysieren, können Forscher beliebige Programmiersprachen wie Python, Java, Matlab oder R verwenden. Wie im Abschnitt „Datensätze“ beschrieben, werden die Dateien im CSV-Format gespeichert, sodass die meisten Dateilesefunktionen in Die oben genannten Sprachen können das Lesen/Zugreifen auf den Datensatz unterstützen. Als nächstes diskutieren wir die möglichen Anwendungen der veröffentlichten synthetischen Daten. Wir beleuchten auch wichtige Herausforderungen und Einschränkungen dieser Arbeit.

Wir veröffentlichen einen umfassenden Datensatz zum Energieverbrauch auf Haushaltsebene. Zusätzlich zu den auf Haushaltsebene disaggregierten Energieverbrauchsdaten wird auch die Zusammensetzung der Haushalte aus Volkszählungsdaten berücksichtigt. Diese Arbeit wurde vom Institutional Review Board (IRB) der University of Virginia geprüft und als von der IRB-Genehmigung ausgenommen eingestuft, da dieses Forschungsprojekt keine Forschung an menschlichen Probanden beinhaltete. Der Datensatz kann effektiv in verschiedenen Anwendungen eingesetzt werden, wie z. B. NILM (non-intrusive Load Monitoring), Lastprofilanalysen zur Beobachtung von Ähnlichkeiten/Unterschieden zwischen Endverbrauchsverbräuchen in verschiedenen Regionen und Jahreszeiten, zur Bewertung der Auswirkungen von Nachrüstungen in Gebäuden und zur Untersuchung der Auswirkungen von Temperaturanstiegen in verschiedenen Regionen usw. Darüber hinaus können diese Daten auch für die Kalibrierung von Energiemodellen, die Bewertung des Nutzerverhaltens, die Umsetzung von Demand-Response-Strategien und politische Interventionen verwendet werden. Der Datensatz kann besonders beim Training von Deep-Learning-Modellen genutzt werden, bei denen große Datenmengen geschätzt werden. Solche Modelle können für die Echtzeitprognose der Wohnimmobiliennachfrage verwendet werden. Bei den veröffentlichten Datensätzen handelt es sich im Wesentlichen um Zeitreihen sowie kategoriale und numerische Attribute. Daher kann jedes statistische Tool oder jede Programmiersprache zur Analyse verwendet werden. Studie III der Studie „Technische Validierung“ veranschaulicht beispielhaft die Einsatzmöglichkeiten des Datensatzes.

Die Verwendung synthetischer Energiebedarfsdaten für Privathaushalte hat ihre Vor- und Nachteile. Stündliche synthetische Daten auf nationaler Ebene können zur Durchführung nationaler und möglicherweise sogar internationaler Politikanalysen verwendet werden. Die räumlich-zeitliche Variabilität ermöglicht den Zugang zu wichtigen neuen Fragen im Zusammenhang mit Energiegerechtigkeit, Gerechtigkeit und Zugänglichkeit in einem feinen Maßstab. Ein Ansatz auf Systemebene kann zur Lösung heikler Fragen gewählt werden, die in den Zielen des Zwischenstaatlichen Ausschusses für Klimaänderungen (IPCC) für 2030 dargelegt werden. Andererseits haben synthetische Datensätze auch ihre Grenzen. Beispielsweise kann die feinskalige Variabilität (Minutenebene sowie wöchentliche Variation) der Nutzung zwischen Haushalten in solchen synthetischen Datensätzen nicht einfach erfasst werden. Darüber hinaus kann das Verhalten einer einzelnen synthetischen Familie durch die für die Synthese verwendeten Daten verzerrt sein. Daher sollten alle Erkenntnisse aus hochauflösenden Analysen sorgfältig geprüft werden.

Eine wichtige Herausforderung bei der Entwicklung realistischer synthetischer Wohnlastprofile auf nationaler Ebene und mit hoher räumlich-zeitlicher Auflösung besteht darin, geeignete Datensätze zur Darstellung verschiedener Klimatypen, Demografien, Geräte und Aktivitätsmuster zu finden. Die Zugänglichkeit und Verfügbarkeit aller oben genannten Informationen aus legitimen Quellen ist entscheidend, um die Vertrauenswürdigkeit der resultierenden Modelle aufrechtzuerhalten. Es wird eine robuste und erweiterbare Infrastruktur entwickelt, um verschiedene Datenquellen in einer detaillierten Informationsstruktur mit verschiedenen räumlichen Auflösungen zu synthetisieren (z. B. durch Kombination von Daten auf Haushaltsebene mit klimazonenbezogenen Daten wie Isolationswerten). Die Infrastruktur besteht aus Methoden zum Zusammenstellen mehrerer Modelle und Datensätze. Die Gesamtzeit zur Generierung der synthetischen Daten wurde durch den Einsatz von Hochleistungsrechnerfunktionen reduziert.

Einige der Einschränkungen unserer Arbeit werden besprochen. Die aktuellen synthetischen Daten berücksichtigen nicht den Stromverbrauch von Elektrofahrzeugen und die Energieerzeugung durch erneuerbare Energien (z. B. Solarpanel, Wind). Die ATUS-Daten stehen für einen normativen Tag für Einzelpersonen zur Verfügung. Somit werden aktivitäts- und gerätebezogene Anforderungen für einen normativen Tag mit geringfügigen Abweichungen vom Aktivitätsmodell generiert. Daher sind unsere synthetischen Daten möglicherweise nicht in der Lage, die tägliche Aktivitätsschwankung angemessen zu erfassen (wie sie beispielsweise bei Echtzeit-Smart-Metering beobachtet wird). Dies kann insbesondere bei der Untersuchung von Demand-Response-Szenarien eine Herausforderung darstellen. Die für einen synthetischen Haushalt in Betracht gezogene Gebäudehülle ist aufgrund des Mangels an Informationen, die zur Darstellung einer großen Bevölkerungsgruppe erforderlich sind, vereinfacht, was unsere Fähigkeit einschränkt, modernste und ausgefeilte Gebäudemodellierungstechniken anzuwenden. (Beispiel: Wir verwenden ein einfaches auf der HVAC-Physik basierendes Modell, um den Energiebedarf für Heizung und Kühlung zu generieren.)

Das Papier beschreibt einen Bottom-up-Ansatz zur Generierung umfangreicher digitaler Zwillingsdaten disaggregierter stündlicher Zeitreihen des Energieverbrauchs von Wohngebäuden für den Wohnsektor mit Haushaltsauflösung in den angrenzenden Vereinigten Staaten für Millionen von Haushalten. Der Ansatz integriert verschiedene Open-Source-Umfragen und Datensätze, wobei die Endnutzungsmodelle entweder durch die Erweiterung bewährter Methoden oder durch den Aufbau neuer Modelle entwickelt werden. Eine umfassende Validierung der synthetischen Datensätze wird anhand realer/aufgezeichneter Energieverbrauchsdaten über räumliche und zeitliche Auflösungen hinweg durchgeführt.

Für die Modellierung, Analyse und Entwicklung des Frameworks werden Programmiersprachen wie Python 3 und Java 8 verwendet. Der Code wird zusammen mit dem Datensatz im Repository69 abgelegt.

Hart, DG Mit AMI das Smart Grid realisieren. Generalversammlung der IEEE Power and Energy Society 2008 – Umwandlung und Bereitstellung elektrischer Energie im 21. Jahrhundert 1–2, https://doi.org/10.1109/PES.2008.4596961 (2008).

Mohassel, RR, Fung, AS, Mohammadi, F. & Raahemifar, K. Eine Umfrage zur fortschrittlichen Messinfrastruktur und ihrer Anwendung in Smart Grids. 2014 IEEE 27th Canadian Conference on Electrical and Computer Engineering (CCECE) 1–8, https://doi.org/10.1109/CCECE.2014.6901102 (2014).

Hailegiorgis, A., Crooks, A. & Cioffi-Revilla, C. Ein agentenbasiertes Modell ländlicher Haushalte und deren Anpassung an den Klimawandel. Journal of Artificial Societies and Social Simulation 21, 4, https://doi.org/10.18564/jasss.3812 (2018).

Artikel Google Scholar

Auffhammer, M., Baylis, P. & Hausman, CH Der Klimawandel wird voraussichtlich schwerwiegende Auswirkungen auf die Häufigkeit und Intensität des Spitzenstrombedarfs in den Vereinigten Staaten haben. Proceedings of the National Academy of Sciences 114, 1886–1891, https://doi.org/10.1073/pnas.1613193114 (2017).