Statistische test voor tijdreeksen waar de uitkomst optreedt - python

stemmen
0

Ik informeer naar hulp bij regressietesten. Ik heb een continue tijdreeks die schommelt tussen positieve en negatieve gehele getallen. Ik heb ook gebeurtenissen die zich in deze tijdreeksen voordoen op schijnbaar willekeurige tijdstippen. In wezen, wanneer een gebeurtenis zich voordoet pak ik het betreffende gehele getal. Ik wil dan testen of dit gehele getal überhaupt invloed heeft op de gebeurtenis. Als in, zijn er meer positieve/negatieve gehele getallen

Oorspronkelijk dacht ik dat logistieke regressie met het positieve/negatieve getal, maar dat zou ten minste twee verschillende groepen vereisen. Terwijl ik alleen informatie heb over gebeurtenissen die zich hebben voorgedaan. Ik kan niet echt die hoeveelheid gebeurtenissen opnemen die niet voorkomen, omdat het een beetje continu en willekeurig is. Het aantal keren dat een gebeurtenis niet voorkomt is onmogelijk te meten

Dus mijn aparte groep is allemaal waar in zekere zin, omdat ik geen resultaten heb van iets dat niet is gebeurd. Wat ik probeer te classificeren is

Wanneer een resultaat optreedt, heeft het positieve of negatieve gehele getal invloed op dit resultaat.

De vraag is gesteld op 11/05/2020 om 04:28
bron van user
In andere talen...                            


3 antwoorden

stemmen
0

Hoewel, de vraag is vrij moeilijk te begrijpen na de eerste paragraaf. Laat me helpen met wat ik uit deze vraag zou kunnen begrijpen.

Ervan uitgaande dat u wilt begrijpen of er een verband bestaat tussen de gebeurtenissen en de gehele data.

1ste benadering: Plot de gegevens op een 2d-schaal en controleer visueel of er een verband is tussen de gegevens. 2e benadering: maak de gegevens van de gebeurtenissen continu en verwijder de gebeurtenissen uit andere gegevens en gebruik het rolvenster om de gegevens glad te strijken en vervolgens beide trends te vergelijken.

Bovenstaande aanpak werkt alleen goed als ik uw probleem goed begrijp Er is nog één ding dat bekend staat als Survivorship bias. U mist misschien gegevens, controleer ook dat deel.

antwoordde op 18/05/2020 om 13:52
bron van user

stemmen
0

Het klinkt alsof je geïnteresseerd bent in het bepalen van de onderliggende krachten die een bepaalde gegevensstroom produceren. Zulke wiskundige modellen worden Markov-modellen genoemd. Een klassiek voorbeeld is de studie van tekst

Als ik bijvoorbeeld een verborgen Markov-modelalgoritme op een paragraaf van de Engelse tekst laat draaien, dan zal ik merken dat er twee rijcategorieën zijn die de waarschijnlijkheid bepalen van wat er in de paragraaf staat. Die categorieën kunnen grofweg worden onderverdeeld in twee groepen, "aeiouy " en "bcdfghjklmnpqrstvwxz". Noch de wiskunde, noch de HMM "wist" hoe die categorieën te noemen, maar ze zijn wat statistisch gezien geconvergeerd is met de analyse van een paragraaf van de tekst. We zouden die categorieën "klinkers" en "medeklinkers" kunnen noemen. Dus ja, klinkers en medeklinkers zijn niet alleen maar eerste klas categorieën om te leren, ze volgen uit de manier waarop tekst statistisch wordt geschreven. Interessant is dat een "ruimte" zich meer gedraagt als een klinker dan als een medeklinker. Ik heb de kansen voor het bovenstaande voorbeeld niet gegeven, maar het is interessant om op te merken dat "y" eindigt met een waarschijnlijkheid van ongeveer 0,6 klinker en 0,4 medeklinker; wat betekent dat "y" de meest medeklinker is die zich statistisch gezien gedraagt

Een geweldig artikel is https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf dat de basisideeën van dit soort tijdreeksanalyses doorneemt en zelfs enige sudo-code ter referentie geeft

Ik weet niet veel over de gegevens waar u mee te maken heeft en ik weet niet of de begrippen "positief" en "negatief" een bepalende factor zijn in de gegevens die u ziet, maar als u een HMM op uw gegevens heeft uitgevoerd en de twee groepen de verzameling van positieve getallen en de verzameling van negatieve getallen heeft gevonden, dan zou uw antwoord bevestigd worden, ja, de meest invloedrijke twee categorieën die uw gegevens aandrijven zijn de begrippen positief en negatief. Als ze niet gelijkelijk verdeeld zijn, dan is uw antwoord dat die concepten geen invloedrijke factor zijn in het besturen van de gegevens. Meer nog, het algoritme zou eindigen met verschillende waarschijnlijkheidsmatrixen die u laten zien hoeveel elk geheel getal in uw gegevens wordt beïnvloed door elke categorie, waardoor u veel meer inzicht zou hebben in het gedrag van uw tijdreeksgegevens

antwoordde op 19/05/2020 om 07:59
bron van user

stemmen
0

Misschien begrijp ik uw probleem niet goed, maar ik geloof niet dat u zonder meer een zinvolle regressie kunt uitvoeren.

Regressie wordt meestal gebruikt om een relatie te vinden tussen twee of meer variabelen, maar het blijkt dat je maar één variabele hebt (als ze positief of negatief zijn) en één constante (uitkomst is altijd waar in de gegevens). Misschien kun je wat statistieken doen over de verdeling van de getallen (gemiddelde, mediaan, standaarddeviatie) maar ik weet niet zeker hoe je regressie zou kunnen doen. https://en.wikipedia.org/wiki/Regression_analysis

Je zou kunnen overwegen dat er een sterke overlevingskans is als je een groot deel van je gegevens mist. https://en.wikipedia.org/wiki/Survivorship_bias

Ik hoop dat dit op zijn minst een beetje nuttig is om je in de juiste richting te sturen

antwoordde op 11/05/2020 om 04:53
bron van user

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more