Hvorfor lstm løser forsvinnende gradient?

Innholdsfortegnelse:

Hvorfor lstm løser forsvinnende gradient?
Hvorfor lstm løser forsvinnende gradient?

Video: Hvorfor lstm løser forsvinnende gradient?

Video: Hvorfor lstm løser forsvinnende gradient?
Video: Анил Сет: Неврология сознания и личности 2024, Oktober
Anonim

LSTM-er løser problemet ved å bruke en unik additiv gradientstruktur som inkluderer direkte tilgang til glemportens aktiveringer, som gjør det mulig for nettverket å oppmuntre ønsket oppførsel fra feilgradienten ved å bruke hyppige portoppdateringer på hvert trinn i læringsprosessen.

Hvordan løser LSTM eksploderende gradient?

Et veldig kort svar: LSTM dekobler celletilstand (typisk betegnet med c) og skjult lag/utgang (typisk betegnet med h), og gjør kun additive oppdateringer til c, som gjør minner i c mer stabile. Dermed er gradienten som flyter gjennom c beholdt og vanskelig å forsvinne (derfor er den generelle gradienten vanskelig å forsvinne).

Hvordan kan forsvinnende gradientproblem løses?

Løsninger: Den enkleste løsningen er å bruke andre aktiveringsfunksjoner, for eksempel ReLU, som ikke forårsaker en liten derivativ. Restnettverk er en annen løsning, siden de gir gjenværende forbindelser rett til tidligere lag.

Hvilket problem løser LSTM?

LSTMs. LSTM (forkortelse for langtidsminne) løser først og fremst the vanishing gradient-problemet i backpropagation. LSTM-er bruker en portmekanisme som kontrollerer memoiseringsprosessen. Informasjon i LSTM-er kan lagres, skrives eller leses via porter som åpnes og lukkes.

Hvorfor LSTM-er stopper gradientene dine fra å forsvinne fra utsikten fra bakoverpasset?

Årsaken til dette er fordi, for å håndheve denne konstante feilflyten, ble gradientberegningen avkortet for ikke å flyte tilbake til inngangs- eller kandidatportene.

Anbefalt: