Ähnlichkeitsanalyse

In der Statistik, insbesondere der Multivariaten Statistik, interessiert man sich für die Messung der Ähnlichkeit zwischen verschiedenen Objekten und definiert dazu Ähnlichkeits- und Distanzmaße. Es handelt sich dabei nicht um Maße im mathematischen Sinn, der Begriff bezieht sich ausschließlich auf die Messung einer bestimmten Größe.

In der Regel werden Ähnlichkeitsmaße für nominal oder ordinal skalierte Variablen genutzt und Distanzmaße für metrisch skalierte Variablen (d. h. für Intervall- und Verhältnisskala).

Ähnlichkeitsmaß

Definition

Sei I = { 1 , 2 , , N } {\displaystyle I=\left\{1,2,\dots ,N\right\}} eine endliche Menge. Eine Funktion s : I × I R {\displaystyle s\colon I\times I\rightarrow \mathbb {R} } heißt Ähnlichkeitsmaß oder Ähnlichkeitsfunktion, falls für alle i , j I {\displaystyle i,j\in I} gilt:

  • s ( i , j ) = s ( j , i ) {\displaystyle s(i,j)=s(j,i)} und
  • s ( i , i ) s ( i , j ) {\displaystyle s(i,i)\geq s(i,j)} .

Zudem wird oft noch gefordert, dass für alle i , j I {\displaystyle i,j\in I} gilt:

  • s ( i , j ) 0 {\displaystyle s(i,j)\geq 0} und s ( i , i ) = 1 {\displaystyle s(i,i)=1} .

Die Funktionswerte s ( i , j ) {\displaystyle s(i,j)} lassen sich zu einer symmetrischen N × N {\displaystyle N\times N} -Matrix ( s ( i , j ) ) i , j {\displaystyle \left(s(i,j)\right)_{i,j}} anordnen. Diese Matrix heißt Ähnlichkeitsmatrix. In diesem Kontext wird s ( i , j ) {\displaystyle s(i,j)} auch als Ähnlichkeitskoeffizient bezeichnet.

Anwendung in der Bioinformatik

Ähnlichkeitsmatrizen wie PAM oder BLOSUM spielen eine wichtige Rolle beim Sequenzalignment. Ähnliche Proteine, Nukleotide oder Aminosäuren erhalten dabei höhere Scores (d. h. Ähnlichkeitswerte) als unähnliche. Die Ähnlichkeit ist hier durch die chemischen Eigenschaften der Bausteine und ihre Mutationsraten definiert.

Beispiel (AGCT steht für die vier Nukleinbasen Adenin, Guanin, Cytosin und Thymin):

A G C T
A 10 −1 −3 −4
G −1 7 −5 −3
C −3 −5 9 0
T −4 −3 0 8

Die Moleküle, deren Ähnlichkeit angegeben werden soll, werden in gleicher Reihenfolge spalten- und zeilenweise sortiert. Der Wert a i , j {\displaystyle a_{i,j}} an der Position ( i , j ) {\displaystyle (i,j)} gibt somit an, wie ähnlich das Molekül an der Spaltenposition  i {\displaystyle i} dem an der Zeilenposition  j {\displaystyle j} ist.

Laut obiger Ähnlichkeitsmatrix sind Cytosin und Tymin (Ähnlichkeits-Score 0) einander ähnlicher als Guanin und Cytosin (Ähnlichkeits-Score -5).

Ähnlichkeitsmaße für binäre Vektoren

Für p {\displaystyle p} binäre Variablen und zwei Beobachtungen i {\displaystyle i} und j {\displaystyle j} sei

n 00 = k = 1 p I ( x i k = 0 , x j k = 0 ) {\displaystyle n_{00}=\sum _{k=1}^{p}I(x_{ik}=0,x_{jk}=0)} , n 01 = k = 1 p I ( x i k = 0 , x j k = 1 ) {\displaystyle n_{01}=\sum _{k=1}^{p}I(x_{ik}=0,x_{jk}=1)} ,
n 10 = k = 1 p I ( x i k = 1 , x j k = 0 ) {\displaystyle n_{10}=\sum _{k=1}^{p}I(x_{ik}=1,x_{jk}=0)} , n 11 = k = 1 p I ( x i k = 1 , x j k = 1 ) {\displaystyle n_{11}=\sum _{k=1}^{p}I(x_{ik}=1,x_{jk}=1)} und
p = n 00 + n 01 + n 10 + n 11 {\displaystyle p=n_{00}+n_{01}+n_{10}+n_{11}\,} .

Dann kann man folgende Maße definieren:

Ähnlichkeitsmaß s ( i , j ) {\displaystyle s(i,j)}
Braun n 11 max ( n 11 + n 01 , n 11 + n 10 ) {\displaystyle {\frac {n_{11}}{\max(n_{11}+n_{01},n_{11}+n_{10})}}}
Dice 2 n 11 n 01 + n 10 + 2 n 11 {\displaystyle {\frac {2n_{11}}{n_{01}+n_{10}+2n_{11}}}}
Hamann ( n 00 + n 11 ) ( n 01 + n 10 ) p {\displaystyle {\frac {(n_{00}+n_{11})-(n_{01}+n_{10})}{p}}}
Jaccard (S-Koeffizient) n 11 n 01 + n 10 + n 11 {\displaystyle {\frac {n_{11}}{n_{01}+n_{10}+n_{11}}}}
Kappa 1 1 + p ( n 01 + n 10 ) 2 ( n 00 n 11 n 01 n 10 ) {\displaystyle {\frac {1}{1+{\tfrac {p(n_{01}+n_{10})}{2(n_{00}n_{11}-n_{01}n_{10})}}}}}
Kulczynski n 11 n 01 + n 10 {\displaystyle {\frac {n_{11}}{n_{01}+n_{10}}}}
Ochiai n 11 ( n 11 + n 01 ) ( n 11 + n 10 ) {\displaystyle {\frac {n_{11}}{\sqrt {(n_{11}+n_{01})(n_{11}+n_{10})}}}}
Phi n 11 n 00 n 10 n 01 ( n 11 + n 01 ) ( n 11 + n 10 ) ( n 00 + n 01 ) ( n 00 + n 10 ) {\displaystyle {\frac {n_{11}n_{00}-n_{10}n_{01}}{\sqrt {(n_{11}+n_{01})(n_{11}+n_{10})(n_{00}+n_{01})(n_{00}+n_{10})}}}}
Russel Rao[1] n 11 p {\displaystyle {\frac {n_{11}}{p}}}
Simple Matching (M-Koeffizient) n 00 + n 11 p {\displaystyle {\frac {n_{00}+n_{11}}{p}}}
Simpson n 11 min ( n 11 + n 01 , n 11 + n 10 ) {\displaystyle {\frac {n_{11}}{\min(n_{11}+n_{01},n_{11}+n_{10})}}}
Sneath n 11 n 11 + 2 n 01 + 2 n 10 {\displaystyle {\frac {n_{11}}{n_{11}+2n_{01}+2n_{10}}}}
Tanimoto (Rogers)[2] n 00 + n 11 n 00 + 2 ( n 01 + n 10 ) + n 11 {\displaystyle {\frac {n_{00}+n_{11}}{n_{00}+2(n_{01}+n_{10})+n_{11}}}}
Yule n 00 n 11 n 01 n 10 n 00 n 11 + n 01 n 10 {\displaystyle {\frac {n_{00}n_{11}-n_{01}n_{10}}{n_{00}n_{11}+n_{01}n_{10}}}}

Für nicht binäre nominale oder ordinale Variablen definiert man für jede Kategorie der Variablen eine binäre Variable und kann dann die Ähnlichkeitsmaße für binäre Variablen verwenden.

Wahl des Ähnlichkeitsmaßes

Welches Ähnlichkeitsmaß man zur Analyse wählt, hängt von der Problemstellung ab. Es gibt jedoch einige Hinweise, wann sich welches Maß gut eignet in Abhängigkeit von den Eigenschaften der binären Variable:[3]

  • Ist die Variable symmetrisch, d. h. beide Kategorien sind gleich wichtig (z. B. Geschlecht), dann ist oft das gleiche Vorhandensein ( n 11 {\displaystyle n_{11}} ) bzw. die gleiche Abwesenheit ( n 00 {\displaystyle n_{00}} ) wichtig für ein Ähnlichkeitsmaß. Dann können Simple Matching, Hamann oder Tanimoto verwendet werden.
  • Ist die Variable asymmetrisch, d. h. nur eine Kategorie spielt eine wesentliche Rolle (z. B. Krankheit aufgetreten), dann spielt oft nur das gleiche Auftreten ( n 11 {\displaystyle n_{11}} ) eine Rolle. Dann können Dice, Jaccard, Kulczynskl, Ochiai, Braun, Simpson oder Sneath verwendet werden.
  • Kappa, Phi und Yule können sowohl im symmetrischen als auch im asymmetrischen Fall verwendet werden.

Bei der Wahl des Ähnlichkeitmaßes sollten auch Zusammenhänge zwischen den Maßen berücksichtigt werden:

  • Dice, Jaccard und Sneath sind monotone Funktionen voneinander:
Sneath Jaccard Dice . {\displaystyle {\text{Sneath}}\leq {\text{Jaccard}}\leq {\text{Dice}}.}
Braun Dice Ochiai Kulczynski Simpson . {\displaystyle {\text{Braun}}\leq {\text{Dice}}\leq {\text{Ochiai}}\leq {\text{Kulczynski}}\leq {\text{Simpson}}.}
  • Auch Hamann, Rogers und Simple matching weisen einen Zusammenhang auf.

Distanzmaß

Definition

Sei I = { 1 , 2 , , N } {\displaystyle I=\left\{1,2,\dots ,N\right\}} eine endliche Menge. Eine Funktion d : I × I R {\displaystyle d\colon I\times I\rightarrow \mathbb {R} } heißt Distanzmaß oder Distanzfunktion, falls für alle i , j I {\displaystyle i,j\in I} gilt:

  • d ( i , j ) = d ( j , i ) {\displaystyle d(i,j)=d(j,i)} sowie
  • d ( i , j ) 0 {\displaystyle d(i,j)\geq 0} und d ( i , j ) = 0 i = j {\displaystyle d(i,j)=0\Leftrightarrow i=j} .

Die Funktionswerte d ( i , j ) {\displaystyle d(i,j)} lassen sich zu einer symmetrischen N × N {\displaystyle N\times N} -Matrix ( d ( i , j ) ) i , j {\displaystyle \left(d(i,j)\right)_{i,j}} anordnen. Diese Matrix heißt Distanzmatrix.

Falls die Funktion d {\displaystyle d} zusätzlich die Dreiecksungleichung erfüllt, ist sie eine Metrik. Häufig wird auch eine Metrik als Distanzfunktion bezeichnet.

Einige Distanzmaße

Für p {\displaystyle p} metrische Variablen und zwei Beobachtungen i {\displaystyle i} und j {\displaystyle j} kann man folgende Maße definieren:

Distanzmaß d ( i , j ) {\displaystyle d(i,j)}
L r {\displaystyle L_{r}} ( k = 1 p | x i k x j k | r ) 1 / r {\displaystyle \left(\sum _{k=1}^{p}|x_{ik}-x_{jk}|^{r}\right)^{1/r}}
Euklidisch
L 2 {\displaystyle L_{2}}
k = 1 p ( x i k x j k ) 2 {\displaystyle {\sqrt {\sum _{k=1}^{p}(x_{ik}-x_{jk})^{2}}}}
Pearson k = 1 p ( x i k x j k ) 2 s k 2 {\displaystyle {\sqrt {\sum _{k=1}^{p}{\frac {(x_{ik}-x_{jk})^{2}}{s_{k}^{2}}}}}}
mit s k {\displaystyle s_{k}} die Standardabweichung der Variable k {\displaystyle k}
City-Block
Manhattan
L 1 {\displaystyle L_{1}}
k = 1 p | x i k x j k | {\displaystyle \sum _{k=1}^{p}|x_{ik}-x_{jk}|}
Gower[4] k = 1 p | x i k x j k | r k {\displaystyle \sum _{k=1}^{p}{\frac {|x_{ik}-x_{jk}|}{r_{k}}}}
mit r k {\displaystyle r_{k}} die Spannweite der Variable k {\displaystyle k}
Mahalanobis ( x i x j ) T S 1 ( x i x j ) {\displaystyle {\sqrt {(x_{i}-x_{j})^{T}S^{-1}(x_{i}-x_{j})}}}
mit S {\displaystyle S} der Stichproben-Kovarianzmatrix der Variablen x i {\displaystyle x_{i}}

Zusammenhang zwischen Ähnlichkeits- und Distanzmaßen

Allgemein kann man ein Distanzmaß aus einem Ähnlichkeitsmaß definieren durch[5]

d ( i , j ) = s ( i , i ) + s ( j , j ) 2 s ( i , j ) {\displaystyle d(i,j)={\sqrt {s(i,i)+s(j,j)-2s(i,j)}}} .

Ein so gewonnenes Distanzmaß erfüllt aber im Allgemeinen nicht die Dreiecksungleichung und ist somit keine Metrik.

Siehe auch

Literatur

  • Joachim Hartung, Bärbel Elpelt: Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München 1984, ISBN 3-486-28451-7
  • Ludwig Fahrmeir, Alfred Hamerle: Multivariate statistische Verfahren. de Gruyter, Berlin 1984, ISBN 3-11-008509-7

Einzelnachweise

  1. P F Russel, T R Rao: On habitat and association of species of Anophe-line larvae. In: South-eastern Madras, Journal of Malaria Institute India. 3. Jahrgang, 1940, S. 153–178. 
  2. D.J. Rogers and T.T. Tanimoto: A Computer Program for Classifying Plants. In: Science. 132. Jahrgang, Nr. 3434, 21. Oktober 1960, S. 1115–1118, doi:10.1126/science.132.3434.1115 (sciencemag.org). 
  3. ShengLi Tzeng, Han-Ming Wu, Chun-Houh Chen: Selection of Proximity Measures for Matrix Visualization of Binary Data. In: Biomedical Engineering and Informatics, 2009. BMEI '09. 2nd International Conference on. 30. Oktober 2009, S. 1–9, doi:10.1109/BMEI.2009.5305137. 
  4. J. C. Gower: A General Coefficient of Similarity and Some of Its Properties. In: Biometrics. 27. Jahrgang, Nr. 4, Dezember 1971, S. 857–871 (jstor.org). 
  5. Wolfgang Härdle, Léopold Simar: Applied Multivariate Statistical Analysis. 1. Auflage. Springer Verlag, Berlin 2003, ISBN 3-540-03079-4, S. 381.