# Stochastik-Praktikum, WS 2016/2017, JGU Mainz
# 30.1.2017
#

## ##############################################################################
## 
## Themen: 
## 1) [Etwas zur] Lineare[n] Regression
## 2) [Etwas zu] Pseudo-Zufallszahlen

## #########################################################

# 1) (Einfache) Lineare Regression, ein Beispiel

geier <- read.table("stoffwechsel.txt", header=TRUE)
## Die Daten: 19 Messungen von Herzfrequenz und Stoffwechselrate 
## bei Gänsegeiern
attach(geier)

plot(heartbpm, metabol, xlab="Herzschläge [1/min]",
     ylab="Stoffwechselrate [J/(g*h)]", xlim=c(40,110), ylim=c(0,25))

# Regressionsgerade "von Hand" (vgl. Beob. 7.9 der Vorlesung)
b1 <- cov(heartbpm, metabol)/var(heartbpm) 
#  beachte: R teilt bei var und cov durch n-1, das hebt sich hier aber weg
b0 <- mean(metabol)-b1*mean(heartbpm)
b0; b1

abline(b0,b1,col='blue')

## oder: ein Fall fuer den R-Befehl lm ("linear model"),
# beachte lm ist wesentlich "maechtiger" als in diesem Beispiel 
# illustriert (s.a. ?lm )
modell <- lm(metabol ~ heartbpm)
modell

# die Koeffizienten: 
bb <- modell$coefficients
bb # wenn die Namen stoeren sollten: names(bb) <- NULL

abline(modell, lwd=2, col='red')

# wie gut passte es -- schauen wir die sog. "Residuen" an,
# d.h. die Abweichungen zwischen Datenpunkten und Regressionsgerade
metabol - (bb[1]+bb[2]*heartbpm)
modell$residuals
hist(modell$residuals)

# Praediktion: 
neuer.h.wert <- 70
predicted.m.wert <- bb[1]+bb[2]*neuer.h.wert
predicted.m.wert
points(neuer.h.wert, predicted.m.wert, pch=22,col="red")

# Bem.: Extrapolation kann natuerlich auch in der Anwendungssituation 
# "sinnlose" Werte ergeben, z.B.
neuer.h.wert <- 25 # (z.B. ein sehr "gechillter" Geier)
predicted.m.wert <- bb[1]+bb[2]*neuer.h.wert
predicted.m.wert
# (das waere eine negative vorhergesagte Stoffwechselrate, 
#  was natuerlich keinen Sinn hat ...)

detach(geier)

## #########################################################

# 2) Simulation von Pseudo-Zufallszahlen 
#    via lineare Kongruenzen-Generatoren

# Für sehr viele Simulationsprobleme benötigt man
# sog. "Pseudozufallszahlen":
# Beobachtungen oder Werte x[1], x[2], x[3], ... die keine
# erkennbare Regelmäßigkeit haben und für die Zwecke der
# Berechnung als unabhängig und zufällig generiert angenommen werden
# (dürfen), d.h. wir tun beispielsweise so, als ob die x[1], x[2], ...
# durch wiederholtes, unabhängiges Drehen eines Glücksrad gewonnen
# worden wären -- obwohl sie aus Praktikabilitätsgründen durch einen
# (deterministischen) Algorithmus (einen sog. (Pseudo-)Zufallsgenerator)
# im Computer erzeugt worden sind.
#
# Bemerkung:
# Eine "Standardreferenz" zu Pseudozufallszahlen ist Chapter 3 in 
# Donald E. Knuth, The art of computer programming,
# Vol. 2 / Seminumerical algorithms, 3rd Ed., Addison-Wesley, 1998.
# Das dort behandelte Material geht weit über den hier vorgestellten
# Stoff hinaus. 


# Ein einfaches Beispiel sind die
# linearen Kongruenzengeneratoren:

# Beginne mit einem (ganzzahligen) Startwert ("Zufallssame", "random seed"). 
# Wenn der aktuelle Wert x ist, so ist der nächste Wert
# (a*x+c) mod M

# z.B.
M <- 2048; a <- 65; c <- 1

# "Selbstbau"-linearer Kongruenzengenerator: 
linKonGen <- function() {
  neu <- (a*x + c) %% M
  # folgendes setzt den Wert der (globalen) Variable x auf den von neu
  assign("x", neu, .GlobalEnv)
  # gebe "uniform" auf (0,1] verteilten Wert aus: 
  (neu+1)/M
}

# Startwert: 
x <- 5

N <- 1000
werte <- numeric(N)
for (i in 1:N)
  werte[i]<-linKonGen()

# Übrigens: Dasselbe leistet (wesentlich schneller)
# werte <- replicate(N, linKonGen())

# Anschauen:
plot(werte)
lines(werte,add=TRUE)
plot(werte[1:100], type='b')
hist(werte, prob=TRUE)

werte <- replicate(500, linKonGen())

# Zeichne Wert gegen Nachfolger-Wert:
plot(werte, werte[c(2:500,1)])

# zum Vergleich:
x11()
werteR <- runif(500)
plot(werteR, werteR[c(2:500,1)])


# Perioden können ein Problem sein (speziell bei kleinem M):
M <- 16
a <- 5; c<-1  ## ggfs. auch probieren: a <- 4; c <-0

x <- 5
replicate(32, linKonGen())  # (in diesem Beispiel: Wert 4 = Wert 20, etc.)


# Zwei Beispiele:
M <- 256
a <- 17; c <- 1 # gibt relativ gleichmäßige Verteilung
N <- M
werte <- numeric(N)
for (i in 1:N)
  werte[i]<-linKonGen()
plot(M*werte, M*werte[c(2:N,1)])

x11()
M <- 256
a <- 129; c <- 1 # gibt wenig gleichmäßige Verteilung
N <- M
werte <- numeric(N)
for (i in 1:N)
  werte[i]<-linKonGen()
plot(M*werte, M*werte[c(2:N,1)])


# Rs Zufallsgenerator-Hilfe
?set.seed


############################################
#
# Eine Illustration zu Knuths Warnung
# "... random numbers should not be generated with a method chosen
#  at random. Some theory should be used."
# (loc. cit., S. 6, siehe auch Exercise 11, S.8)

m <- 100000
f <- sample(1:m, m, replace=T)

# Definiere "Zufallsfolge" durch y[n+1]=f[y[n]]
# mit zufälligem Startwert y[0].
# Diese wird offenbar schließlich zyklisch, wie lang ist der
# resultierende Zyklus?

gesehen <- logical(m) # initialisiert mit m-mal FALSE
y <- sample(1:m,1)
#y # der Startwert

anfangslaenge <- 0
while(gesehen[y]==FALSE) {
  anfangslaenge <- anfangslaenge+1
  z<-y
  gesehen[z]<-TRUE
  y<-f[y]
}
anfangslaenge # Wie lang war das Stück vor dem Zyklus?

# Wir sind auf einen Zyklus gestoßen, die Werte von z und y sind
# nun so, dass f[z]=y, d.h. wir haben einen Zyklus
# y_0=y, y_1=f[y_0], y_2=f[y_1], ..., y_{n-1}=f[y_{n-2}]=z, y_n=f[z]=y_0.

# Bestimme die Länge des Zyklus:
zyklaenge <- 1
yy <- f[y]
while (yy != y) {
  zyklaenge <- zyklaenge+1
  yy <- f[yy]
  # cat(yy, " ") # ggf. ent-kommentieren, um Zykel anzuschauen
}
zyklaenge

# Ggf. einige Male wiederholen.
# Beobachtung: auch bei großem m läuft die Folge typischerweise
# auf recht kurze Zyklen.


############################################
#
# (empirische) Tests mit Zufallsgeneratoren

# hier ggf. eigenen Zufallsgenerator einsetzen
zufgen <- function() runif(1)
# zufgen <- linKonGen
# Beispielwerte:
# M <- 2048; a <- 65; c <- 1  # (das Mini-Beispiel vom Anfang)
# M <- 10^10; a<-3141592621; c <- 1
# M <- 2^31; a <- 65539; c <- 0  # Dies ist "RANDU", s.a. Knuth, S. 107
# M <- 2^35; a <- 2^18+1; c <- 1 # "Generator F" aus Knuth, S. 47  
# ggf. auch Startwert variieren:
# x <- 5; x <- 314159265

# 1. Sind die Werte gleichmäßig verteilt?
# Wir benutzen den chi^2-Test (dessen Theorie lernen wir spaeter in 
#  der Vorlesung kennen):

# Zerlege (0,1] in kl Klassen (0,1/kl], (1/kl,2/kl],...,((kl-1)/k1,1]
# wenn wir n Werte generieren lassen, erwarten wir in jeder Klasse n/kl
# Werte (mit "Zufallsfluktuationen")

kl <- 5     # variieren
n <- 10000

beob <- rep(0, times=kl)

for (i in 1:n) {
  w <- ceiling(kl*zufgen()) # verwandelt Wert aus (0,1] in Wert aus {1,...,kl}
  beob[w] <- beob[w]+1
}

beob
beob/n
beob/n-rep(1/kl, times=kl)

# Einschätzung der Größe der Abweichung vom "theoretischen Mittelwert"
# via chi^2-Statistik
chiquadratwert <- sum((beob-n/kl)^2/(n/kl))
chiquadratwert

# Wie wahrscheinlich wäre eine solche Abweichung für
# "echte" Zufallszahlen (p-Wert des Tests)?
pchisq(chiquadratwert, df=kl-1, lower.tail=F)

# Dasselbe mit einem R-Befehl:
chisq.test(beob)


#
# Analog für d-Tupel von Werten:
# (sollten bei Vergröberung uniform verteilt sein auf kl^d Klassen)

d <- 3   # Andere Werte einsetzen, z.B. 2, 3, 5  
kl <- 5  # Andere Werte einsetzen, z.B. 2, 3, 4, 5, 6

beob <- rep(0, times=kl^d)

n <- 10000

for (i in 1:n) {
  # gewinne eine ganze Zahl aus {0,1,...,kl^d-1}
  # durch Darstellung mit d Ziffern im kl-System
  stelle <- 1; w <- 0
  for (j in 1:d) {
    w <- w+(ceiling(kl*zufgen())-1)*stelle
    stelle <- stelle*kl
  }
  w <- w+1 # (Rs array-Indizes beginnen bei 1, nicht bei 0)
  beob[w]<-beob[w]+1
}

beob
beob-n/(kl^d)
beob/n-1/(kl^d)

# Wie gut passt die empirische Verteilung von d-Tupeln?
chisq.test(beob)


#
# "Lückentest": Wie lange muss man warten
# (genauer: wieviele Fehlversuche), bis der
# nächste Wert in [s,t] kommt?

s <- 0.2; t <- 0.5

sim.wartezeit <- function() {
  i <- 0
  repeat {
    u <- zufgen()
    if (u >=s && u <=t)
      break
    i<-i+1
  }
  i
}

L <- 50000
wz <- replicate(L, sim.wartezeit())

# vergleiche solche Wartezeiten mit der geometrischen Verteilung
# mit Erfolgsparameter t-s: 

# grafisch:
if (max(wz)>=10) {
  klassen <- c(seq(from=-0.5, to=10.5,by=1), max(wz)+0.5)
  geom.gewichte <- c(dgeom(0:10, prob=t-s), pgeom(10, prob=t-s, lower.tail=F))
} else {
  klassen <- seq(from=-0.5, to=10.5,by=1)
  geom.gewichte <- dgeom(0:10, prob=t-s)
}

hi <- hist(wz, prob=T, breaks=klassen)
points(hi$mids, geom.gewichte/(hi$breaks[-1]-hi$breaks[-length(hi$breaks)]),
       col="red")

# und mit dem chi^2-Test:
chisq.test(hi$counts, p=geom.gewichte)


#
# Maximalwert von t Beobachtungen:
# Für U_1,..., U_t u.a. unif([0,1]) ist
# P(max(U1,...,U_t)<=x)=x^t = int_0^t t*x^{t-1} dt,
# d.h. max(U1,...,U_t) sollte Beta(t,1)-verteilt sein:

t <- 3 # ggf. variieren
max(replicate(t, zufgen())) 

L <- 10000
mwerte <- replicate(L, max(replicate(t, zufgen())))

# Vergleiche empirische und theoretische Verteilungsfkt.
plot(ecdf(mwerte))
curve(pbeta(x, shape1=t, shape2=1), add=T, col="red")

#
# Befunde: 
# Rs eingebauter Zufallsgenerator "besteht" diese Tests,
# die Beispiel-LKG haben z.T. Schwierigkeiten.

## #########################################################
## #########################################################
##
## Übrigens: den Zustand von Rs eingebauten Zufallsgenerator
## erfährt man mit
.Random.seed

## in Aktion: 
runif(1); .Random.seed[1:6]; runif(1); .Random.seed[1:6]

# Informationen zum Zufallsgenerator:
RNGkind()

# Startwert ("seed") setzen:
set.seed(5)