Guten Tag,
ich habe im Moment ein Problem mit der Berechnung von Kovarianzen. Die Formel habe ich inzwischen glaube ich verstanden, bin mir aber noch nicht ganz sicher.
Die Normalformel ist ja:
[code=pseudo]Cov(X,Y) = E[(X - E(X)) * (Y - E(Y))][/code]
Auf Wikibooks gibt es ein Beispiel zur Kovarianz, wo keine Gleichverteilung (wie sonst bei den Würfelbeispielen der Fall) vorliegt. Daher wird es, wie ich es verstehe, folgendermaßen gerechnet:
[code=pseudo]Cov(X,Y) = (x1 - E(X)) * (y1 - E(Y)) * p1,1
+ (x1 - E(X)) * (y2 - E(Y)) * p1,2
+ (x2 - E(X)) * (y1 - E(Y)) * p2,1
+ (x2 - E(X)) * (y2 - E(Y)) * p2,2[/code]
Wobei gilt:
E(X) = Erwartungswert für X
E(Y) = Erwartungswert für Y
x1, x2 = mögliche Werte
y1, y2 = mögliche Werte
p1,1, p1,2, p2,1, p2,2 = Wahrscheinlichkeiten, dass beide gegebenen Werte x1 und y1 / x1 und y2 / x2 und y1 / x2 und y2 zusammen auftreten
Habe ich das soweit richtig verstanden?
Ich habe nun vor den Zusammenhang zwischen zwei Wörtern in 300 Texten zu analysieren. Dabei möchte ich z.B. schauen, ob "Prinzessin" in einem Text öfter vorkommt, wenn in diesem auch "König" steht. Muss ich dazu jetzt immer die Wahrscheinlichkeiten für alle möglichen Anzahlen analysieren?
Also z.B.
1mal König + 2mal Prinzessin: 30 Dokumente: P(X,Y) = 0,1
3mal König + 2mal Prinzessin: 3 Dokumente: P(X,Y) = 0,01
3mal König + 3mal Prinzessin: 6 Dokumente: P(X,Y) = 0,02
...
Das kann bei häufigen Wörtern (z.B. Zusammenhang zwischen "und" und "oder") auch bis ungefähr 500 Vorkommen in einem Text gehen.
In meinem Fall gälte dann für die Werte x, y und p (wenn ich es richtig verstanden habe) Folgendes, oder?
x1 = 1mal König
y1 = 1mal Prinzessin
x2 = 2mal König
y2 = 2mal Prinzessin
x3 = 3mal König
y3 = 3mal Prinzessin
Aus den oben genannten Ergebnissen ergäbe sich für p:
p1,1 = 0
p1,2 = 0,1
p1,3 = 0
p2,1 = 0
p2,2 = 0
p2,3 = 0
p3,1 = 0
p3,2 = 0,01
p3,3 = 0,02
Daher erscheint mir das recht viel Aufwand für das Programm, aber ich glaube, dass ich damit nun richtig liege. Kann das jemand bestätigen?
[h1]Edit[/h1]
Ich habe in meinem Buch mal eine Seite weiter geblättert, dort gibt es ein Diagramm zu den berechneten Werten. Der Autor schreibt:
Zitat:
When the word United occurs four times in a document, there is a 0.6 probability that the word States will also occur four times.
Die x-Achse stellt bei ihm die Anzahl der Vorkommen dar, die y-Achse die Wahrscheinlichkeit. Ist diese Technik richtiger / besser, als alle möglichen Zusammentreffen (also auch 4mal United und 1mal States) zu analysieren? Schneller auf jeden Fall, aber dafür nicht so genau, oder?