Understanding log_prob voor normale verdeling in pytorch

stemmen
1

Ik ben momenteel bezig om Pendulum-v0 lossen uit de openAi sportschool omgeving die een continue werking ruimte heeft. Als gevolg daarvan moet ik een normale verdeling gebruiken om mijn acties te proeven. Wat ik niet begrijp is de afmeting van de log_prob bij het gebruik ervan:

voer

Ik was een tensor van maat 2 (één log_prob voor elke acties), maar het uitvoeren van een tensor van grootte (2,2) verwacht.

Echter, bij gebruik van een categorische verdeling voor discrete omgeving van de log_prob heeft de verwachte grootte. Waarom is de log_prob voor de normale verdeling van een ander formaat?

De vraag is gesteld op 19/03/2020 om 21:23
bron van user
In andere talen...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more