Verwerking tafels in parallel met behulp van Azure gegevens Factory, enkele pijpleiding, enkele Databricks notebook?

stemmen
0

Ik wil een lijst met tabellen in parallel met behulp van Azure datafabriek en één Databricks Notebook transformeren.

Ik heb al een Azure gegevens Factory (ADF) pijpleiding die een lijst met tabellen als parameter ontvangt, stelt elke tafel van de tafel lijst als een variabele, roept dan één notebook (die presteert eenvoudige transformaties) en gaat elke tafel in serie deze notebook. Het probleem is dat transformeert de tabellen in serie (achter elkaar) en niet parallel (alle tabellen tegelijk). Ik heb de tafels in parallel te verwerken.

Dus mijn vragen zijn: 1) Is het mogelijk om dezelfde Databricks notebook meerdere malen op precies hetzelfde punt starten in de tijd (telkens met een andere tafel als een parameter) van Azure gegevens Factory? 2) Zo ja, wat moet ik verandering in mijn pijpleiding of notebook te laten werken?

Ik denk dat het waarschijnlijk niet mogelijk om dezelfde notebook meerdere keren gelijktijdig te activeren, want toen ik dit notebook rechtstreeks uit Databricks triggeren (en slagen voor een tafel als variabel), ik moet wachten tot het klaar is hardlopen voor ik triggeren het weer voor een ander table (parameter). Maar ik wil er zeker van zijn of het haalbaar is of niet. Ik weet ook dat het mogelijk is om meerdere tafels in parallel gebruik van meerdere notebooks te verwerken, maar in mijn geval, ik moet één notebook gebruiken. Bij voorbaat bedankt :)

parameters

ADF

Variabelen

variabelen

Tabel set variabelen en notebook

voer

Configure Sequential

Configure

Sequential Ongecontroleerde met Batch Count = leeg

Wanneer geconfigureerd als sequentiële en Batch Count = leeg, en gaat twee tafels, loopt de leiding met succes, maar slechts één tafel wordt omgezet (zelfs als ik toevoegen meerdere tabellen in de tabel lijst). Variabele instellen correct shows tweemaal, eenmaal voor elke tafel. Maar Orchestrate toont tweemaal voor dezelfde tafel.

voer

Ongecontroleerde met sequentiële batch Count = 2

Indien geconfigureerd als sequentiële en batchtelling = 2, en langs twee tafels, de leiding niet op de tweede iteratie, maar probeert ook transformeren dezelfde tabel tweemaal. Variabele instellen correct shows tweemaal, eenmaal voor elke tafel. Maar Orchestrate toont tweemaal voor dezelfde tafel.

Ongecontroleerde

Gecontroleerd of sequentiële batch Count = 1

Indien ik Sequential Gecontroleerd of batchtelling = 1, dan is de leiding correct wordt uitgevoerd en voert transformaties op alle tabellen, maar de verwerking plaatsvindt in serie (zoals verwacht).

voer

De vraag is gesteld op 13/01/2020 om 21:55
bron van user
In andere talen...                            


1 antwoorden

stemmen
0

Ik opgelost met behulp van "Lookup" naar een SQL-tabellen in plaats van "Variabele instellen". De afbeelding hieronder toont een serie van 5 tafels in parallel via een enkele notebook.

voer image beschrijving hier

antwoordde op 14/01/2020 om 20:40
bron van user

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more