#
# Stochastik-Praktikum, WS 2016/2017, JGU Mainz
# 12.12.2016

## ##############################################################################
## heute:

## Illustrationen des Gesetzes der großen Zahlen
##   und ein "Gegenbeispiel"
##   
## Monte-Carlo-Integration: "naiv" und 
##   mit Methoden zur Varianzreduktion:
##   Importance sampling, Kontrollvariable


# #################################################################
#
# Illustrationen des Gesetzes der großen Zahlen 
#

# Zur Einstimmung:
# Konvergenz der empirischen Häufigkeiten beim Münzwurf beobachten
#Wir simulieren n unabhängige binomialverteilte Zufallsvariablen/Münzwürfe 
#mit Erfolgsw'keit p.
#Dann plotten wir für m=1,2,...,n die relativen Häufigkeiten von Erfolgen
#in den ersten m Versuchen.
#Dies machen wir insgesamt 4 mal und plotten alles auf eine Seite
starkes_gesetz_binomial<-function(n,p){
  x11()
  par(mfrow=c(2,2))
  for(i in seq(1,4)){
    #Wir simulieren n Münzwürfe/Binomialverteilte ZV mit Erfolgsw'keit p
    Folge<-rbinom(n,size=1,prob=p)
    #Wir berechnen die empirische Häufigkeiten
    Frequenz<-cumsum(Folge)/seq(1,n)
    #nun erzeugen wir das passende Bild
    ylab<-"Empir.Mittelwert (X_1+...+X_m)/m"
    xlab<-"Anz.Summanden m"
    plot(Frequenz, ylab=ylab,xlab=xlab,type = "l",ylim=c(0,1))
    abline(h=p,col="red")
  }
  par(mfrow=c(1,1))
  title(main=c("Illustration des Gesetzes der großen Zahlen:",
               paste0("p=",p,",",n," Versuche")))
}
#Einmal mit 1000 Versuchen und p=0.5
starkes_gesetz_binomial(1000,0.5)

#Nocheinmal mit 1000 Versuchen und p=0.75
starkes_gesetz_binomial(1000,0.75)

#Wir sollten bei 1000 Versuchen die Konvergenz gegen p gut sehen können.
#Aber bei 100 Versuchen können wir noch starke Abweichungen von p beobachten.
starkes_gesetz_binomial(100,0.5)

#Jetzt dasselbe mit der Normalverteilung
#Wir simulieren n unabhängige normalverteilte Zufallsvariablen mit 
#Erwartungswert mu und Varianz sigma^2
#Dann plotten wir für m=1,2,...,n die relativen Häufigkeiten von Erfolgen
#in den ersten m Versuchen.
#Dies machen wir insgesamt 4 mal und plotten alles auf eine Seite
starkes_gesetz_normal<-function(n,mu,sigma,zentrieren){
  x11()
  par(mfrow=c(2,2))
  ylab<-"Empir.Mittelwert (X_1+...+X_m)/m"
  xlab<-"Anz.Summanden m"
  for(i in seq(1,4)){
    Folge<-rnorm(n,mean=mu,sd=sigma)
    Frequenz<-cumsum(Folge)/seq(1,n)
    #Zentriere Bild, falls gewünscht
    if(zentrieren){
      plot(Frequenz, ylab=ylab,xlab=xlab,type = "l",ylim=c(mu-1,mu+1))
    }
    else{plot(Frequenz, ylab=ylab,xlab=xlab,type = "l")}
    abline(h=mu,col="red")
  }
  par(mfrow=c(1,1))
  title(main=c("Illustration des Gesetzes der großen Zahlen:", 
               paste0("mu=",mu,",sigma=",sigma,",",n," Versuche")))
}

#Einmal mit 1000 Versuchen und mu=0, sigma=1
#Ohne Zentrieren
starkes_gesetz_normal(1000,mu=0,sigma = 1,FALSE)

#Einmal mit 1000 Versuchen und mu=5, sigma=1
#Ohne Zentrieren
starkes_gesetz_normal(1000,mu=5,sigma = 3,FALSE)

#Vergleich von Konvergenzgeschwindkeit
#100 Versuchen und mu=0, sigma=1
#Zum besseren Vergleich mit Zentrieren
starkes_gesetz_normal(100,mu=0,sigma = 1,TRUE)

#Einmal mit 100 Versuchen und mu=0, sigma=sqrt(10)
starkes_gesetz_normal(100,mu=0,sigma = 3.162,TRUE)

#Mit ein bisschen Glück sollten wir sehen,
#dass die Schwankungen für sigma=sqrt(10) deutlich stärker sind.


# ###################################################################
# Ohne Erwartungswert scheitert das Gesetz der großen Zahlen:

# Ein Beispiel einer Verteilung(sklasse) mit unendlichem Erwartungswert
# Sei 0 < a < 1, 
# 1) f_a(x) := a x^(-1-a), x>=1 ist eine W'dichte,
# 2)  die zugehoerige Verteilungsfunktion ist
#    F_a(x) = 0 fuer x<=-1, = 1-x^(-a) fuer x>1, 
# 3) die inverse Verteilungsfunktion ist
#    F_a^{-1}(u) = (1-u)^(-1/a).
# 4) Es ist 
#    integrate(x f_a(x), 1, infinity) =
#    integrate(a x^(-a), 1, infinity) = infinity,
#    d.h. es gibt keinen Erwartungswert

#Wir simuliere n ZVn mit Dichte f_a, indem wir F_a und die Inversionmethode verwenden.
#Danach versehen wir diese mit einem zufaelligen Vorzeichen.
#So erhalten wir eine symmetrische ZV ohne Erwartungswert
rfa <- function(n, a=0.5) {
  (1-runif(n, min=0, max=1))^(-1/a)*sample(c(-1,1),size=n,replace=TRUE)
}

replikate <- 5000
a <- 0.5  ## auch andere Werte probieren, z.B. a <- 0.25 oder a <- 0.9

x <- rfa(replikate, a)
mean(x)
hist(x)  ## Wir sehen: es gibt einige wenige sehr extreme Werte
max(x)
par(mfrow=c(1,2))
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
plot(log(abs(x),base=10),xlab="Simulationen",ylab="Logarithmus der Werte der Simulationen zur Basis 10")
par(mfrow=c(1,1))

hist(x, xlim=c(-a/(a-1)-0.1,5), breaks=c(-Inf,seq(-a/(a-1)-0.1,5,by=0.1),Inf))
abline(v=mean(x), lwd=2, col='red')
mean(x[x>0])

# Schauen wir uns an, wie sich empirische Mittelwerte
# (als Funktion der Anzahl summierter Kopien) hier verhalten:
x <- rfa(replikate, a)
y<-cumsum(x)/(1:replikate)
par(mfrow=c(1,2))
plot(y, type="l", xlab=paste("Anz. Summanden n"),
     ylab="Empir. Mittelwert (X_1+...+X_n)/n",
     main=paste("Kopien von X mit Dichte f_",a,sep=""))
abline(h=0, col='red')
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
abline(h=0, col='red')
par(mfrow=c(1,1))

# Vergleich mit der Normalverteilung
x<-rnorm(replikate)
y<-cumsum(x)/(1:replikate)
par(mfrow=c(1,2))
plot(y, type="l", xlab=paste("Anz. Summanden n"),
     ylab="Empir. Mittelwert (X_1+...+X_n)/n",
     title="Standardnormalverteilung")
abline(h=0, col='red')
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
abline(h=0, col='red')
par(mfrow=c(1,1))

#Was passiert für 1<a<2. Die Dichte f_a besitzt einen Erwartungswert aber keine Varianz.
a=1.5
x <- rfa(replikate, a)
y<-cumsum(x)/(1:replikate)
par(mfrow=c(1,2))
plot(y, type="l", xlab=paste("Anz. Summanden n"),
     ylab="Empir. Mittelwert (X_1+...+X_n)/n",
     main=paste("Kopien von X mit Dichte f_",a,sep=""))
abline(h=0, col='red')
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
abline(h=0, col='red')
par(mfrow=c(1,1))


########################################################
#
# Monte-Carlo-Integration

# Beispiel: Integriere sqrt(1-x^2) von 0 bis 1
# (wir wissen: dies ergibt pi/4, ein Viertel der Fläche des Einheitskreises)
# (ausserdem: (d/dx 0.5*x*sqrt(1-x^2)+0.5*arcsin(x)=sqrt(1-x^2) )
f <- function(x) ifelse(abs(x)<1, sqrt(1-x^2), 0)

curve(f, xlim=c(0,1)) ## Plot von f
abline(h=0)
abline(v=0)
N <- 1000000  # Anz. verwendete ZVn, ggfs. erhöhen

# Wir erzeugen N mal f(U), wobei U uniform auf [0,1] verteilt ist.
fwerte <- sapply(runif(N), f)

I.hut <- 4*mean(fwerte)  # Schätzwert für das Integral mal 4
#Vergleich mit pi
I.hut
pi

# Wie genau ist der Schätzer?
sd(fwerte)
sd(fwerte)/sqrt(N) # der Standardfehler, d.h. die geschaetzte Varianz
# von I.hut

# Monte-Carlo-Integration hat Konvergenzordnung 1/2,
# schauen wir es uns an:
Nwerte <- 10^(2:6) #round(seq(from=1000, to=N, length.out=10))
Nwerte

I.hut.ausw <- 4*sapply(Nwerte, function(k) mean(sapply(runif(k), f)))
I.hut.ausw

plot(Nwerte, I.hut.ausw, xlab="Anz. Replikate", ylab="Schätzwert")
abline(h=pi, lty=2)
# besser: Skala fuer Anzahl Replikate logarithmisch
plot(log10(Nwerte), I.hut.ausw, xlab="log10(Anz. Replikate)", ylab="Schätzwert")
abline(h=pi, lty=2)

#Demonstration, dass die Monte-Carlo-Integration eine Konvergenzordnung von 1/2 besitzt.
#Werte sollten in etwa von der selben Größenordnung sein. Schwankungen basieren auf dem Zufall.
plot(log10(Nwerte), abs((sqrt(Nwerte)*(I.hut.ausw-pi))), xlab="Anz. ZVn", ylab="(Schätzwert-wahrer Wert)*sqrt(Auswertungen)",
     ylim=c(-0.1,2))
abline(h=0, col="red")
plot(log10(Nwerte), log10(abs(I.hut.ausw-pi)), xlab="Anz. ZVn", ylab="(Schätzwert-wahrer Wert)*sqrt(Auswertungen)")


#
# Beispiel: Volumen der Einheitskugel im R^3
#
N <- 10^5

f <- function(x,y,z) ifelse(x*x+y*y+z*z<=1,1,0)
# schreibe f=8*f*(0.5)^3 und interpretiere als Integral bzgl. unif([-1,1]^3)
gwerte <- replicate(N, 8*f(runif(1,min=-1,max=1),runif(1,min=-1,max=1),runif(1,min=-1,max=1)))

I.hut <- mean(gwerte); I.hut  # Schätzwert für das Integral
4*pi/3 # der exakte Wert

sd(gwerte)
sd(gwerte)/sqrt(N) # geschätzte Varianz von I.hut

# Zum Vergleich: Numerische Integration auf einem festen Rechtecksgitter:
N1 <- round(N^(1/3))
N1

gitter <- seq(from=-1, to=1, length.out=N1)
masche <- gitter[2]-gitter[1]
gittervol <- masche^3

summe <- 0.0
for (x in gitter) {
  for (y in gitter) {
    for (z in gitter) {
      summe <- summe+f(x,y,z)*gittervol
    }
  }
}

summe; 4*pi/3


################################################
##
## Ein "Trick" zur Varianzreduktion bei Monte-Carlo-Integration
## Importance sampling
# Bsp.: Integal sqrt(1-x^2), x=0..1

N <- 100000  # ggf. variieren

# zunächst einfache Monte-Carlo-Integration
direkt <- sapply(runif(N), function(x) sqrt(1-x^2))
mean(direkt)
pi/4
# absolute Abweichung vom theoretischen Wert:
mean(direkt)-pi/4

sd(direkt)
sd(direkt)/sqrt(N) # Standardfehler des "direkten Schätzers"
stdfehler.direkt <- sd(direkt)/sqrt(N)

# Vergleichen wir die "Zielfunktion" f
curve(sqrt(1-x^2),xlim=c(0,1),ylim=c(0,1.5))
# ... und eine Wahrscheinlichkeitsdichte, gemäß der wir leicht
#     simulieren können (die Dichte von Beta(1.0,1.5))
curve(1.5*sqrt(1-x), add=TRUE, col="red")
betadichte <- function(x) dbeta(x,shape1=1,shape2=1.5)
curve(betadichte, add=TRUE, col="blue")
legend("topright", lty=1, col="red", legend="Beta(1.0,1.5)-Dichte")

curve(sqrt(1-x^2)/(1.5*sqrt(1-x)),xlim=c(0,1), lty=2, add=TRUE)

# Benutze Beta(1,1.5) als Vorschlagsverteilung
h <- function(x) sqrt(1-x^2)/(1.5*sqrt(1-x))
gewichtet <- sapply(rbeta(N,shape1=1,shape2=1.5), h)
mean(gewichtet)
pi/4
# absolute Abweichung vom theoretischen Wert:
mean(gewichtet)-pi/4

#mit ein bisschen Glück sollten wir sehen, dass der Standardfehler kleiner wird.
#Berechnung des neuen Standardfehlers
sd(gewichtet)
sd(gewichtet)/sqrt(N)
stdfehler.gewichtet <- sd(gewichtet)/sqrt(N)

#Vergleich zwischen den Standardfehlern, also den mittleren Schwankungen
stdfehler.gewichtet
stdfehler.direkt
sd(direkt)/sd(gewichtet)

# Vergleich der (relativen) "Fehler":
abs(mean(gewichtet)-pi/4)/(pi/4); abs(mean(direkt)-pi/4)/(pi/4)


#####################################################
## Ein "Trick" zur Varianzreduktion bei Monte-Carlo-Integration
## Kontrollvariable

# nochmal: Volumen der Einheitskugel im R^3 per
# Monte-Carlo-Integration
# (als geeignetes Integral bezgl. der uniformen Vert. auf [-1,1]^3 auffassen)

f <- function(v) ifelse(v[1]*v[1]+v[2]*v[2]+v[3]*v[3]<=1,1,0)

N <- 1000 # Anz. Simulationen, ggf. variieren, z.B. 10000 oder 1e5

MC.werte1 <- replicate(N, 8*f(runif(3,-1,1)))
MC.schaetzer1 <- mean(MC.werte1)
MC.stdfehler1 <- sd(MC.werte1)/sqrt(N)
MC.schaetzer1; MC.stdfehler1

4*pi/3  # der wahre Wert

## Exkurs: 
## prüfen wir anhand eines Meta-Experiments und QQ-Plots, ob eine
## Normalitätsannahme plausibel scheint:
#Interpretation des QQ-Plots:
#Die empirische Quantilwerte unserer Stichprobe wird mit den Quantilen der
#Standardnormalverteilung verglichen.
#1. Liegen die Punkte annäherend auf einer Geraden so liegt eine Normalverteilung vor.
#2. Je größer die Steigung, desto höher die Varianz
#3. Je niedriger der Abszissenachsenabschnitt desto größer der Erwartungswert
Nmeta <- 50
MC.werte1replikate <- replicate(Nmeta, mean(replicate(N, 8*f(runif(3,-1,1)))))
qqnorm(MC.werte1replikate)
qqline(MC.werte1replikate)
#Wir sollten sehen, dass die Punkte auf einer geraden liegen unterhalb der Hauptdiagonalen
#Vorgriff auf den zentralen Grenzwertsatz.


#Kontrollvariable
h <- function(v) 1-(v[1]*v[1]+v[2]*v[2]+v[3]*v[3])
# h hat Erwartungswert 0 unter der uniformen Vert. auf [-1,1]^3
mean(replicate(1000, h(runif(3,-1,1)))) # ... was wir empirisch "verifizieren"


konst <- 0.8 # variieren, z.B. 1.0, 3.0, 6.0, 10

fmod <- function(v) 8*f(v)-konst*8*h(v)
# Schätzen wir das Volumen der Einheitskugel im R^3 mit Hilfe von fmod:
MC.werte2 <- replicate(N, fmod(runif(3,-1,1)))
MC.schaetzer2 <- mean(MC.werte2); MC.stdfehler2 <- sd(MC.werte2)/sqrt(N)
MC.schaetzer2; MC.stdfehler2

# Vergleichen wir:
cat(paste("Schätzer1:", MC.schaetzer1, " Standardfehler", MC.stdfehler1,"\n",
          "mit Wahl konst=", konst, " : Schätzer2:", MC.schaetzer2,
          " Standardfehler", MC.stdfehler2,"\n",
          "Std.fehler1/Std.fehler2=", MC.stdfehler1/MC.stdfehler2,"\n"))

# Schätzen wir die optimale konst: 
hwerte8 <- numeric(N); f8werte <- numeric(N)

for (i in 1:N) {
  v<-runif(3,-1,1)
  hwerte8[i]<-8*h(v); f8werte[i]<-8*f(v)
}
var(hwerte8)
cov(hwerte8, f8werte)

# 
cov(hwerte8, f8werte)/var(hwerte8)