Beruflich Dokumente
Kultur Dokumente
PY
CO
Pref
acio
Estas notas elaboradas para o mini-curso a ser ministrado no XV SINAPE pretendem servir a, basicamente, dois propositos:
NO
T
DO
PY
ii
CO
DO
NO
T
Conte
udo
1 Conceitos B
asicos de Gen
etica Humana
1.1 Terminologia usada em genetica
humana . . . . . . . . . . . . . . . . . . . . . .
1.1.1 As leis de Mendel . . . . . . . . . . . . .
1.2 Estimacao de freq
uencias alelicas . . . . . . . .
1.2.1 Freq
uencias alelicas multinomiais . . . .
1.2.2 Estimacao por maxima verossimilhanca
1.2.3 Metodo dos momentos . . . . . . . . . .
1.2.4 Estimacao Bayesiana . . . . . . . . . . .
1.3 Desequilbrio . . . . . . . . . . . . . . . . . . .
1.3.1 Desequilbrio de Hardy-Weinberg . . . .
1.3.2 Desequilbrio de ligacao . . . . . . . . .
1.3.3 Desequilbrios genotpicos compostos . .
1.3.4 Testes m
ultiplos . . . . . . . . . . . . .
1.3.5 Testes de homogeneidade . . . . . . . .
1.4 Diversidade . . . . . . . . . . . . . . . . . . . .
1.4.1 Heterozigosidade . . . . . . . . . . . . .
1.4.2 Diversidade genetica . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
6
6
7
16
21
22
26
26
37
44
46
47
48
49
52
2 Correla
c
ao Familiar
59
2.1 Matrizes estocasticas: ITU . . . . . . . . . . . . . . . . . . . . 59
2.2 Conceito de correlacoes . . . . . . . . . . . . . . . . . . . . . 65
2.3 Componentes de vari
ancia . . . . . . . . . . . . . . . . . . . . 68
2.4 Teste de associacao . . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.1 Estudo caso-controle . . . . . . . . . . . . . . . . . . . 72
2.4.2 Estudo caso-genitores . . . . . . . . . . . . . . . . . . 72
2.4.3 Associacao entre fenotipos quantitativos e marcadores
geneticos . . . . . . . . . . . . . . . . . . . . . . . . . 74
iii
CONTEUDO
iv
3 An
alise de Segrega
c
ao
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Analise de segregacao classica . . . . . . . . . . . . . . . . .
3.2.1 Modelo poligenico para fen
otipos discretos . . . . . .
3.3 Analise de segregacao moderna . . . . . . . . . . . . . . . .
3.3.1 A distribuicao genotpica conjunta dos conjuges. . .
3.3.2 A distribuicao fenotpica condicionada no genotipo. .
3.3.3 Transmissao genetica do genotipo principal. . . . . .
3.3.4 Tipos de amostragem. . . . . . . . . . . . . . . . . .
3.3.5 Metodo de verossimilhanca . . . . . . . . . . . . . .
3.3.6 Selecionamento atraves do probando . . . . . . . . .
3.3.7 Testes de hip
oteses geneticas . . . . . . . . . . . . .
3.4 Modelos regressivos . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Fenotipos binarios . . . . . . . . . . . . . . . . . . .
3.4.2 Idade do incio da doenca . . . . . . . . . . . . . . .
3.4.3 Analise condicional dependendo do selecionamento .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
75
79
80
81
81
81
82
83
83
84
84
88
89
90
4 An
alise de Liga
c
ao
4.1 Recombinacao genetica . . . . . . . . . . . .
4.2 Analise pontual e multipontual . . . . . . .
4.3 Modelo parametrico . . . . . . . . . . . . .
4.4 Formas de heranca genetica . . . . . . . . .
4.5 Analise de dados familiares . . . . . . . . .
4.5.1 Exemplo de analise:
doenca autossomica dominante - fase
4.6 Testes de homogeneidade . . . . . . . . . .
4.7 Testes de heterogeneidade . . . . . . . . . .
4.8 Funcoes de mapeamento . . . . . . . . . . .
4.9 Analise nao-parametrica . . . . . . . . . . .
4.9.1 Pares de irm
aos afetados . . . . . . .
4.10 Analise multipontuais . . . . . . . . . . . .
4.11 Pacotes de computadores . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
103
104
105
108
109
desconhecida
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
109
112
113
114
114
115
117
119
5 An
alise de Dados Moleculares
5.1 Introducao . . . . . . . . . . . . . . .
5.2 Medidas de diversidade genetica . .
5.2.1 Medidas intrapopulacionais .
5.2.2 Medidas interpopulacionais .
5.2.3 Testando hip
oteses . . . . . .
5.3 Distancias entre seq
uencias de DNA
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
121
121
122
122
125
128
129
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
CONTEUDO
5.4
5.5
Bibliografia
v
129
135
135
136
136
138
144
145
150
154
155
157
159
162
168
171
CONTEUDO
DO
NO
T
CO
PY
vi
1.3
1.4
1.5
1.6
2.1
3.1
3.2
PY
Matriz de transmiss
ao genetica para um locus autossomico
com dois alelos. Cada casela e uma distribuicao genotpica
(puF uM AA puF uM Aa puF uM aa ) . . . . . . . . . . . . . . . . . .
Probabilidades de Transmissao para modelos de um u
nico
locus com dois alelos (A1 e A2 ). . . . . . . . . . . . . . . . . .
C
alculo da func
ao de verossimilhanca de um modelo autossomico com 50% de risco para o heterozigoto no heredograma
da Figura 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
DO
3.3
Amino
acidos. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Freq
uencias dos tipos de acasalamento e prole de uma populac
ao em equilbrio de Hardy-Weinberg com genotipos dos
genitores nas proporc
oes p2 : 2pq : q 2 . . . . . . . . . . . . . .
Freq
uencias genotpicas para os grupos sang
uneos M N entre
m
aes e pais. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Freq
uencias Alelicas e genotpicas para o locus Pgm em dados
de mosquitos (Weir, 1996) . . . . . . . . . . . . . . . . . . . .
Teste Exato para o EHW no locus Pgm para os dados da
tabela 1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Teste de homogeneidade dos dados de Mendel sobre a forma
da semente (R: redonda, W: enrugada) em 10 plantas F2
(Weir, 1996) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
NO
T
1.1
1.2
CO
Lista de Tabelas
3.3
3.3
3.3
3.2
vii
10
24
32
33
48
62
82
92
94
95
96
97
98
LISTA DE TABELAS
PY
viii
Continuac
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
4.3
5.1
5.2
5.3
N
umero de Substituicoes de Nucleotdeos . . . . . . . . . . . 132
Substituic
oes de Nucleotdeos . . . . . . . . . . . . . . . . . . 133
Delineamento para Analise de Variancia Molecular Hierarquica (AMOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Tabela de Contingencia (K posicoes). . . . . . . . . . . . . . . 147
Sum
ario dos Dados (Uma Posicao) . . . . . . . . . . . . . . . 154
Comparac
ao da Variacao entre os Compartimentos. indica
os dados cujas visitas estejam faltando. Estatsticas de teste
com ? se encontram acima do percentil 99.5 da distribuicao de
referencia e aqueles com ?? se encontram acima do seu maximo.171
DO
NO
T
5.4
5.5
5.6
CO
3.3
99
PY
CO
Lista de Figuras
2.1
2.2
C
alculo da identidade por descendencia . . . . . . . . . . . .
Mecanismos de associacao . . . . . . . . . . . . . . . . . . . .
60
71
3.1
Exemplo de Heredograma . . . . . . . . . . . . . . . . . . . .
91
4.1
4.2
4.3
4.4
Recombinac
ao - Loci Proximos . . . .
Recombinac
ao - Loci Distantes . . . .
Heredograma 1 . . . . . . . . . . . . .
Heredograma considerando duas fases
.
.
.
.
.
.
.
.
DO
NO
T
.
.
.
.
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
104
105
110
110
DO
NO
T
PY
CO
Captulo 1
Conceitos B
asicos de
Gen
etica Humana
1.1
ou Acido
Desoxirinucleico (DNA). O DNA tem quatro possveis bases de
nucleotdeo: Adenina (A), Citosina (C), Guanina (G) e Timina (T), onde
A pareia com T e G com C. RNA tambem tem quatro bases: A, C, G e
Uracila (U) no lugar de T. A e agora o complementar de U. Ao contrario
do DNA, o RNA e uma fita simples.
Cada grupo adjacente de 3 nucleotdeos constitui um c
odon (Tabela 1.1),
que especifica um aminoacido correspondente na cadeia polipeptdica (ou
proteica).
AUG codigo de incio para sntese polipeptdica.
UAA, UAG e UGA especificam o termino da sntese polipeptdica.
Uma protena e feita de uma seq
uencia de amino
acidos. Para transformar
as palavrasde DNA em aminoacidos, uma maquin
aria molecular sofisticada e necess
aria. A Transcric
ao e o processo pelo qual as duas fitas de DNA
sao abertas e uma molecula de RNA e construda ao longo de uma fita de
DNA pela enzima RNA polimerase para iniciar a sntese de protena. Cada
base deste RNA mensageiro (mRNA) e complementar `a base de DNA correspondente. O mRNA ent
ao carrega essa informacao genetica do DNA para
a fabrica de protenas, os ribossomos. No citoplasma, o mRNA e traduzido
em protena pela acao de varias moleculas de tRNA (RNA transportador),
cada uma especfica para um aminoacido. O tRNA traduz o codigo genetico
em amino
acidos. De um lado da molecula de tRNA possui uma estrutura
denominada anticodon que se liga ao codon complementar de mRNA e, o
outro lado carrega os amino
acidos. Como o ribossomo se move ao longo da
seq
uencia de mRNA, os aminoacidos s
ao ligados e separados do tRNA. O
processo continua ate que o ribossomo alcance um codon de parada.
Seq
uencias podem ser comparadas a nvel de nucleotdeo ou amino
acido.
Substituicoes de nucleotdeos podem ser avaliadas se causam mudancas nos
aminoacidos (n
ao sin
onimas) vs. substituicoes que nao causam mudancas
(silenciosas ou sin
onimas). Ainda, substituicoes entre purinas (A e G)
1.1. TERMINOLOGIA USADA EM GENETICA
HUMANA
Acido
Asp
artico (ASP)
Acido
Glut
amico (GLU)
Lisina (LYS)
Arginina (ARG)
Asparagina (ASN)
Glutamina (GLN)
Cisteina (CYS)
Metionina (MET)
Fenilalanina (PHE)
Tirosina (TYR)
Triptofano (TRP)
Histidina (HIS)
Prolina (PRO)
Codons
GGT, GGC, GGA, GGG
GCT, GCC, GCA, GCG
GTT, GTC, GTA, GTG
TTA, TTG, CTT, CTC, CTA, CTG
ATT, ATC, ATA
TCT, TCC, TCA, TCG, AGT, AGC
ACT, ACA, ACG, ACC
GAT, GAC
GAA, GAG
AAA, AAG
CGT, CGC, CGA, CGG, AGA, AGG
AAT, AAC
CAA, CAG
TGT, TGC
ATG
TTT, TTC
TAT, TAC
TGG
CAT, CAC
CCT, CCC, CCA, CCG
1.1. TERMINOLOGIA USADA EM GENETICA
HUMANA
locus. Se 2 alelos num locus sao distintos, o indivduo e dito ser heterozigoto.
1.1.1
As leis de Mendel
As doencas monogenicas s
ao tambem conhecidas como doencas Mendelianas, devido a Gregor Mendel, um monge austraco do seculo XIX que
deduziu importantes princpios geneticos baseados nos seus experimentos
com ervilhas. Mendel estudou sete fen
otipos da ervilha, cada qual determinado por um u
nico gene. Duas leis fundamentais emergiram do trabalho de
Mendel, que sao:
1. Primeira lei de Mendel: Lei da segrega
c
ao. Para cada locus,
cada genitor transmite um alelo, materno ou paterno, independentemente para cada indivduo na prole. O princpio basico desta lei afirma
que os genes permanecem intactos e distintos.
2. Segunda lei de Mendel: Lei da distribui
c
ao independente. Genes localizados em diferentes loci s
ao transmitidos independentemente.
1.2
Estima
c
ao de freq
u
encias al
elicas
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
1.2.1
Freq
u
encias al
elicas multinomiais
n!
k
Y
i=1 ni ! i=1
Qni i
(1.1)
V ar(Ni ) = nQi (1 Qi )
A proporcao amostral do n
umero de indivduos na categoria i numa
amostra de tamanho n e portanto:
Ni
Qi =
n
Qi (1 Qi )
V ar(Qi ) =
n
A covariancia entre as freq
uencias de duas categorias i e j, i 6= j e dada
por:
E(Qi ) = Qi
(1.2)
= n(n 1)Qi Qj n Qi Qj
= nQi Qj
j
pois, como Ni Bin(n, Qi ) e Nj | Ni = ni Bin (n ni ), 1Q
, podei
mos escrever
E(Ni Nj ) = E[E(Ni Nj | Ni )] = E Ni (n Ni )
Qj
1 Qi
Qj
nE(Ni ) E(Ni2 )
1 Qi
i
Qj h 2
=
n Qi (nQi (1 Qi ) + n2 Q2i )
1 Qi
= n(n 1)Qi Qj
Portanto
Qi Qj
Cov(Qi , Qj ) =
n
Vari
ancia das Freq
u
encias Al
elicas dentro da Popula
c
ao
Suponhamos que temos uma amostra com Nuu homozigotos Au Au e Nuv
heterozigotos Au Av , o n
umero Nu de alelos Au e :
Nu = 2Nuu +
X
v6=u
Nuv
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
E(Nu ) = 2nPuu +
nPuv
v6=u
1X
= 2n Puu +
Puv = 2npu
2 v6=u
e a variancia e:
V ar(Nu ) = V ar 2Nuu +
(1.3)
v6=u
Nu
2n
entao
E(pu ) = pu
V ar(pu ) =
pu + Puu 2p2u
2n
(1.4)
Lei de Hardy-Weinberg
Introduziremos agora o conceito de acasalamento (ou cruzamento) aleatorio e preferencial. Acasalamento aleat
orio e a escolha de um companheiro
aleatoriamente, i.e., um indviduo tem a mesma chance de cruzar com qualquer outro indivduo do sexo oposto, de tal forma que os genotipos sao
aleatoriamente pareados. Acasalamento preferencial e a escolha de um companheiro porque ele possui alguma caracterstica particular, por exemplo,
pessoas altas casam com pessoas altas. Conseq
uentemente os genotipos nao
sao aleatoriamente pareados. Isto induz um aumento na proporcao dos
genotipos homozigoticos em detrimento do genotipo heterozigoto.
Consideramos um locus com dois alelos, A1 e A2 , com as respectivas
frequencias, p e q = 1 p. A lei de Hardy-Weinberg diz que as freq
uencias
das tres combinacoes genotpicas serao:
Freq
uencias
Genotipos
p2
A1 A1
2pq
A1 A2
q2
A2 A2
Uma conseq
uencia importante desta lei e que as proporcoes dos gen
otipos
nao mudam de uma geracao para outra. Na geracao que suscede a populacao
10
Freq
uencias
2
p p2 = p4
2
p 2pq = 2p3 q
2pq p2 = 2p3 q
p2 q 2 = p2 q 2
p2 q 2 = p2 q 2
2pq 2pq = 4p2 q 2
2pq q 2 = 2pq 3
2pq q 2 = 2pq 3
q2 q2 = q4
A1 A1
p4
1/2(2p3 q)
1/2(2p3 q)
0
0
1/4(4p2 q 2 )
0
0
0
Prole
A1 A2
0
1/2(2p3 q)
1/2(2p3 q)
1(p2 q 2 )
1(p2 q 2 )
1/2(4p2 q 2 )
1/2(2pq 3 )
1/2(2pq 3 )
0
A2 A2
0
0
0
0
0
1/4(4p2 q 2 )
1/2(2pq 3 )
1/2(2pq 3 )
1(q 4 )
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
11
pu (1 pu )
2n
(1.5)
Xij =
12
para i 6= i0
E(
p2 ) = p2 +
V ar(
p) =
p + PA1 A1 2p2
2n
(1.6)
p + PA1 A1 2p2
2n
(1.7)
= p2 + pqf
PA1 A2
= 2pq(1 f )
PA2 A2
= q 2 + qpf
Logo,
V ar(
p) =
p(1 p)(1 + f )
2n
(1.8)
i=1
p1 =
P2
j=1 Xij
(1.9)
2n
Pn
p2 =
i=1
P2
j=1 Yij
(1.10)
2n
E(
p1 p2 ) =
XX
XX
1
(
E
X
)(
Yij )
ij
4n2
i
j
i
j
XX
XXX
1
E
X
Y
+
Xij Yij 0
ij
ij
4n2
i
j
i j6=j 0 j 0
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
13
XXXX
i
i0 6=i
Xij Yi0 j 0
j0
1
=
[2n 0 + nP12 + 4n(n 1)p1 p2 ]
4n2
1
= p1 p2 +
(P12 4p1 p2 )
(1.11)
4n
Note que o zero resulta do fato de que nao e possvel para o alelo j no
indivduo i ser ambos do tipo A1 e A2 . Subtraindo p1 p2 temos a covari
ancia
1
(P12 4p1 p2 )
(1.12)
4n
Para populacoes sem endocruzamento, com P12 = 2p1 p2 , a covariancia
reduz-se ao valor binomial
p1 p2
Cov(p1 , p2 ) =
(1.13)
2n
Cov(p1 , p2 ) =
Vari
ancia total das freq
u
encias al
elicas
A variancia de freq
uencias alelicas mostradas nas equacoes (1.4) ou (1.8)
se referem a variacao de repetidas amostras da mesma populacao. Para fazer
afirmacoes sobre freq
uencias alelicas que nao sao limitadas a uma particular
replica da populacao, a variancia total de uma freq
uencia alelica amostral
e utilizada. A variancia total deve tambem levar em conta a amostragem
genetica que d
a origem a` variacao que existe entre todas as possveis amostras replicadas de todas as possveis populacoes replicadas mantidas sob
as mesmas condicoes. Obviamente, a variancia total sera maior do que a
variancia dentro da populacao, pois esta contem uma contribuicao para a
variacao entre populacoes.
Como na secao anterior, Xij se refere ao j-esimo alelo no i-esimo indivduo amostrado, com Xij = 1 se o alelo e do tipo A. Valores esperados de
Xij , Xij2 , Xij Xij 0 tem a mesma forma, mas o produto Xij Xi0 j 0 deve mudar.
Neste caso, diferentes indivduos nao podem ser considerados amostrados
independentemente e o componente da variacao entre populacoes e dado
pela covari
ancia entre os indivduos dentro das populacoes. Portanto, trabalhando com variaveis indicadoras, temos para diferentes indivduos,
E(Xij Xi0 j 0 ) = PA/A
(1.14)
14
1
(pA + PAA 2PA/A )
2n
(1.15)
V ar(
pA ) = pA (1 pA ) FST +
FIT FST
1 FIT
+
n
2n
(1.16)
com tres componentes que podem ser identificados como a variacao entre
populacoes, entre indivduos dentro de populacoes e entre alelos dentro de
indivduos dentro de populacoes, respectivamente. O termo em parenteses
e o coeficiente do grupo coancestral, L . Note que o componente entre populacoes depende da relacao entre alelos de diferentes indivduos dentro das
populacoes e, este pode ser escrito com (FST 0), ao inves de somente FST ,
onde 0 indica que a relacao entre alelos de diferentes populacoes e zero.
Numa populacao de cruzamento aleatorio, pares de alelos tem a mesma
relacao sendo ou nao localizados no mesmo indivduo. Logo, FIT = FST e a
variancia total da freq
uencia alelica torna-se
V ar(
pA ) = pA (1 pA )FST + pA (1 pA )
1 FIT
2n
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
15
f=
X T 2
i
Ni
V ar(Ni ) +
X X T T
i
j6=i
Ni Nj
Cov(Ni , Nj )
X T 2
i
= n
X T 2
i
Ni
Ni
X T 2
i
Ni
Qi (1 Qi ) n
X X T T
i
Qi n
X T 2
Ni
Qi n
X T
i
Ni
Ni Nj
Q2i n
Qi Qj
X X T T
i
Ni Nj
Qi Qj
!2
Qi
(1.17)
X T 2
i
Ni
T
Qi n
n
2
16
1.2.2
Estimac
ao por m
axima verossimilhan
ca
n!
ki=1 ni !
e os estimadores de m
axima verossimilhanca, EMVs, dos 0j s sao aqueles
valores que maximizam esta funcao. Como maximizar L e equivalente a
maximizar ln(L) ent
ao neste caso, assim como em varios outros, e mais
facil trabalhar com a funcao de log-verossimilhanca. Para obter o EMV e
necessario obter a derivada de ln(L) com respeito a cada parametro j e
iguala-la a zero. Estas derivadas sao chamadas de Escores (Sj )
Sj =
lnL
j
nAA
h
inaa
n!
p2A
[2pA (1 pA )]nAa (1 pA )2
nAA !nAa !naa !
=0
pA
1 pA
1
pA =
(2nAA + nAa )
2n
=
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
17
L(pA , f ) =
SpA
Sf
+
pA
1 pA
pA + (1 pA )f
naa (1 f )
(1 pA ) + pA f
nAA (1 pA )
nAa
naa pA
=
+
pA + (1 pA )f
1f
(1 pA ) + pA f
18
ni ln mi
=
=
ln L X ln mi
ni
=
j
j
i
X ni mi
i
mi j
X mi
i
i
e a solucao e obtida igualando os Sj s a zero. Como i m
j = 0, Sj = 0 e
a solucao e o EMV. Para que os dois conjuntos de equacoes tenha solucao,
e necessario que s = k 1. O n
umero de parametros tem que ser igual ao
n
umero de categorias independentes.
Para ilustracao desse procedimento, retornaremos ao caso de estimar pA
e o coeficiente de endocruzamento f para um locus com dois alelos. Temos
duas categorias independentes (podemos tomar AA e Aa) e entao aplicamos
o metodo de Bailey:
pA =
(1.18)
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
19
=(i)
= (i) +
(i)
=
S(i)
I((i) )
S(i+1)
I((i+1) )
Obs:
1) O metodo falha quando a informacao e zero ou a matriz de informacao
e singular.
sempre vi
2)E
avel tentar varios chutes iniciais e comparar as verossimilhancas encontradas ap
os a convergencia.
Uma maneira de verificar a convergencia e adotando um criterio de
parada como, por exemplo, dado > 0 arbitrariamente pequeno, |(n)
(n1) | < .
Algoritmo EM
Este metodo iterativo e utilizado quando os dados sao incompletos. Em
cada iteracao obtem-se uma esperanca e uma maximizacao (EM).
Uma situacao na qual este metodo pode ser utilizado e na estimacao da
proporcao de genes num locus com dois alelos quando distingue-se somente
20
2pa (1 pa )
1 p2a
1
(n + 2naa )
2n Aa
1 2p0a (1 p0a )
(n naa ) + 2naa
2n 1 (p0a )2
(1.19)
pa =
naa /n
(1.20)
Tendo em vista que assumimos equilbrio de H-W, note que temos duas
classes observaveis ou 1 grau de liberdade e um par
ametro a ser encontrado.
Logo, poderamos usar o metodo de Bailey e encontraramos mais facilmente
o estimador dado na equacao (1.20). Note que o metodo se baseia numa
suposicao sobre as observacoes faltantes: eles foram estimados assumindo
equilbrio de H-W. Sem esta suposicao nao e possvel estimar freq
uencias
alelicas em loci que mostre dominancia.
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
21
V ar(
pa )
dp ) =
V ar(
a
1
pa (1 pa )
2n
1.2.3
M
etodo dos momentos
1
pu (1 pu )(1 + f )
2n
Ent
ao, somando para todos os alelos,
X
E(
p2u ) =
p2u +
X
1
(1
p2u )(1 + f )
2n
u
X
u
Puu ) =
X
u
p2u + (1
X
u
p2u )f
22
X
1
E(1
Puu ) = (1
2n
u
u
X
X
1
E(1
p2u )
E(1
Puu ) = (1
2n
u
u
(Puu p2u ) +
X
1
)f (1
p2u )
n
u
X
1
)(1
p2u )
n
u
(1
P
1
u Puu )
2n (1
P
1
u Puu )
2n (1
p2u ) +
u (Puu
2u )
up
(1.21)
(n 1)nAa /n
2n
pA pa nAa /2n
(1.22)
1.2.4
Estimac
ao Bayesiana
Freq
u
encias al
elicas
Suponha que uma populacao esta em equilbrio de Hardy-Weinberg e que
o alelo A tem proporcao populacional pA e contagem nA numa amostra de
2n alelos (n indivduos). A suposicao de H-W nos garante que a distribuicao
de NA dado pA e:
NA | pA Bin(2n, pA )
(2n)!
Pr(NA = nA | pA ) =
pnA (1 pA )2nnA
nA !(2n nA )! A
Uma analise Bayesiana requer uma distribuicao a priori para pA , e uma
escolha conveniente e a distribuic
ao beta, que e a analogia contnua da binomial. Para a distribuicao beta com parametros e , a notacao e funcoes
densidade sao
pA Be(, )
( + ) 1
(pA ) =
p
(1 pA )1
()() A
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
23
A func
ao gamma (x) geralmente precisa ser avaliada numericamente. No
entanto, se x e um inteiro (x) = (x 1)! e a similaridade entre as distribuicoes beta e binomial s
ao claras. A funcao integra no intervalo [0, 1]
Z
(pA )dpA = 1
0
A 1
p+n
(1 pA )+2nnA 1
A
+nA 1
(1 pA )+2nnA 1 dpA
0 pA
( + + 2n)
p+nA 1 (1 pA )+2nnA 1
( + nA )( + 2n nA ) A
R1
Ent
ao, a distribuicao a posteriori e tambem uma distribuicao beta, mas com
parametros modificados pelos dados, isto e, Be(+nA , +2nnA ). Em outras palavras, a beta e uma distribuicao conjugada para a binomial. Apesar
de toda a distribuicao a posteriori estar disponvel para a freq
uencia alelica
pA , e conveniente tomar um u
nico ponto desta distribuicao como sendo um
estimador Bayesiano de pA . Por exemplo, a media desta distribuicao e
+ nA
+ + 2n
nA
= x
+ (1 x)
+
2n
= xE(pA ) + (1 x)
pA
E(pA | NA = nA ) =
+ nA 1
+ + 2n 2
24
93
93
186
Como exemplo, Gunel e Wearden (1995) tomaram uma Be(61, 44) como
sendo a distribuicao a priori de (pM ) para o alelo M no sistema de grupos
sang
uneo M N . Eles se basearam em informacoes de amostras anteriores.
Da Tabela 1.3, nM = 201 e 2n = 372. Assumindo equilbrio de H-W, a
distribuicao a posteriori (pM | nM ) e Be(61+201, 44+171) = Be(262, 215).
A funcao de verossimilhanca de pM dado nM e
L(pM ) = P r(Nm = 201 | pM ) =
372!
(pM )201 (1 pM )171
201!171!
DE FREQU
ENCIAS
1.2. ESTIMAC
AO
ALELICAS
25
locus com m
ultiplos alelos. A essencia do metodo de estimacao sera mostrada
a seguir.
Suponha que os alelos Ai tem freq
uencias populacionais pi e contagens
P
P
amostrais ni , onde i pi = 1, i ni = 2n. Para uma populacao em equilbrio
de H-W, as contagens tem uma distribuicao multinomial.
Pr({ni } | {pi }) =
P
ni )! Y
Qi
(pi )ni
i (ni )!
i i )
({pi }) = Q
(pi )i 1
i (i )
ent
ao a distribuicao a posteriori e tambem Dirichlet, mas com parametros
i + ni
({pi } | {ni }) =
P
(i + ni )] Y
Q i
(pi )i +ni 1
i (i
+ ni )
i i
i ni
= xE(pi ) + (1 x)
pi
P
P
( i ni )!
Q
dpi
Y (i + ni )
( i i )
P
(ni )! ( i i + i ni ) i
(i )
P
(nA + na )!
(A + a )
(A + nA ) (a + na )
nA !na ! (A + a + nA + na ) (A )
(a )
Estimadores de maxima verossimilhanca dos parametros dessas distribuicoes requerem metodos numericos (Lange 1995).
26
1.3
1.3.1
Desequilbrio
Desequilbrio de Hardy-Weinberg
para homozigotos Au Au
Puv = 2pu pv , u 6= v
para heterozigotos Au Av
1.3. DESEQUILIBRIO
27
Coeficiente de desequilbrio
Desequilbrios sao denotados por Ds e para proporcoes alelicas em um
locus eles s
ao definidos pela relacao:
Puu = p2u + Duu
Puv = 2(pu pv Duv )
Ha ainda uma dependencia entre coeficientes causada pelas proporcoes
de genotipos que somam as proporcoes alelicas.
Puv
2 P
X
v6=u Puv
= pu
pv
2
v6=u
Duv = pu pv
X
Duv
v6=u
= pu (1 pu )
v6=u Puv
2
P
v6=u uv
= pu p2u
2
P
P
P
uv
v6=u
v6=u Puv
2
= Puu +
pu
2
2
= Puu p2u = Duu
P
portanto
Duu =
Duv
v6=u
Daa = DAa
DAA = Daa
Estimando o desequilbrio DA
Pela propriedade de invari
ancia dos estimadores de m
axima verossimilhanca, ou atraves do metodo de Bailey, podemos obter o EMV para DA :
A = PAA p2A
D
28
(1.23)
1.3. DESEQUILIBRIO
29
2
nD
A
pA 2 (1 pA )2
XA =
AA
nAA
npA 2
A
nD
AA
nAA
2npA (1 pA )
A
2nD
AA
nAA
n(1 pA )2
A
nD
XA =
genotipos
=
=
=
=
(observado esperado)2
esperado
2npA (1 pA
2
nDA
2
pA (1 pA )2
)2
30
Classe
Observado
Esperado
(0E)2
E
MM
MN
NN
600
419
400
(0.57)2
2(0.57)(0.43)
(0.43)2
461
696
262
41.9
110.2
72.2
Total
1419
1419
224.8
XA =
genotipos
1.3. DESEQUILIBRIO
31
(2n)!
(pA )nA (pa )na
nA !na !
32
40
1.3. DESEQUILIBRIO
33
Tabela 1.5: Teste Exato para o EHW no locus Pgm para os dados da tabela
1.4
Amostras Possveis
Probabilidade Desequi11 11 11
Probabilidade Acumulada
lbrio
2
9
1 30?
0.0000
0.0000
0.1686 34.67
8
3 29
0.0000
0.0000
0.1436 25.15
7
5 28
0.0001
0.0001
0.1186 17.16
6
7 27
0.0023
0.0024
0.0936 10.69
5
9 26
0.0205
0.0229
0.0686
5.74
0 19 21
0.0594
0.0823
-0.0564
3.88
4 11 25
0.0970
0.1793
0.0436
2.32
1 17 22
0.2308
0.4101
-0.0314
1.20
3 13 24
0.2488
0.6589
0.0186
0.42
2 15 23
0.3411
1.0000
-0.0064
0.05
? Amostra observada.
H0 : 0 vs Ha : , compara-se as duas funcoes de verossimilhanca,
L0 , que e a m
axima verossimilhanca sob H0 , e L1 , a maxima verossimilhanca
sob o modelo irrestrito, atraves da razao entre elas:
=
=
sup0 L()
sup L()
L0
L1
(1.24)
34
irrestrito, os EMVs sao as proporcoes amostrais, como foi visto anteriormente, ent
ao a maxima verossimilhanca L1 e
n!
)nAA (PAa )nAa (Paa )naa
(PAA
nAA !nAa !naa !
(nAA )nAA (nAa )nAa (naa )naa
n!
nAA !nAa !naa !
nn
L1 =
=
Entao temos
2nAa (n)n (nA )nA (na )nA
2 ln = 2 ln
2(21) 2(1)
(2n)2n (nAA )nAA (nAa )nAa (naa )naa
k(k+1)
2
uv = pu pv Puv
D
2
com uma log-verossimilhanca
ln L1 = Cte +
X
u
nuu ln
nuu
n
XX
u v>u
nuv ln
nuv
n
1.3. DESEQUILIBRIO
35
X
u
nu
nu ln
2n
2 ln = 2(ln L0 ln L1 )
sob a hip
otese de EHW tem distribuicao chi-quadrado com
hesta quantidade,
i
1 [k 1] = k(k1)
graus de liberdade.
2
O mesmo tipo de teste e encontrado atraves do teste de bondade de
ajuste em todas as classes de gen
otipos. Sob H0
k(k+1)
2
XT2 =
X (nuu n
p2u )2
n
p2u
X X (nuv 2n
pu pv )2
u
2n
pu pv
XT2
X [n(Puu p2 )]2
u
n
p2u
2
X nD
uu
u
p2u
X X [n(Puv 2
pu pv )]2
u
2n
pu pv
2
X X 2nD
uv
u
pu pv
36
2
(p2u Dvw + p2v Duw ) Duv
w6=u,v
2
D
uv
uv )
V ar(D
2
uv
2nD
pu pv [(1 pu )(1 pv ) + pu pv ] +
vw
p2u D
w6=u,v (
uw )
+ p2v D
1.3. DESEQUILIBRIO
37
2
X12
=
2
X13
=
2
X23
=
1.3.2
2
2nD
12
23 + p2 D
p1 p2 [(1 p1 )(1 p2 ) + p1 p2 ] + (
p21 D
2 13 )
2
2nD
13
23 + p2 D
p1 p3 [(1 p1 )(1 p3 ) + p1 p3 ] + (
p21 D
3 12 )
2
2nD
23
13 + p2 D
p2 p3 [(1 p2 )(1 p3 ) + p2 p3 ] + (
p22 D
3 12 )
Desequilbrio de liga
c
ao
O proximo passo no estudo da associacao entre genes e analisar as proporcoes alelicas em diferentes loci. Proporcoes de alelos em diferentes loci
mostram a associacao entre estes loci onde pode existir ou nao a ligacao .
Desequilbrio de gametas em dois loci
Neste caso nao e preciso se preocupar com associacoes de gen
otipos, pois
os dados a serem considerados sao avaliados em gametas. Para pares de alelos em dois loci, os procedimentos para definir, estimar e testar desequilbrio
sao totalmente analogos a`queles para pares de alelos num simples locus.
O coeficiente de desequilbrio para os alelos A e B em dois loci compara
a proporcao de gametas com o produto das proporcoes alelicas.
DAB = pAB pA pB
e inferencias sao baseadas na suposicao de distribuicao multinomial dos ga B
significam n
metas. Sendo que A,
ao-A e n
ao-B podemos colocar as proporcoes gameticas numa tabela de contingencia 2 2:
Freq
uencias
Locus A
Total
A
A
Locus B
B
nAB
nAB
B
nAB
nAB
Total
nA
nA
nB
nB
38
E(
pAB ) = pAB
E(
pA pB ) = E
= E
n2
= E(
p2AB + pAB pAB
AB pAB + pAB pAB
+p
)
= E(
p2AB ) + E(
pAB pAB
pAB pAB ) + E(
pAB pAB
) + E(
)
= [V ar(
pAB ) + E 2 (
pAB )] + [Cov(
pAB , pAB
pAB )E(
pAB
) + E(
)] +
+[Cov(
pAB , pAB ) + E(
pAB )E(
pAB )] +
+[Cov(
pAB , pAB
pAB )E(
pAB
) + E(
)]
pAB (1 pAB )
pAB pAB
2
=
+ pAB +
+ pAB pAB
+
n
n
pAB pAB
pAB pAB
+ pAB pAB +
+ pAB pAB
+
n
n
apos algumas manipulacoes algebricas
E(
pA pB ) =
pAB
(n 1)
+
pA pB
n
n
(1.25)
e portanto
AB ) = E(
E(D
pAB pA pB ) = E(
pAB ) E(
pA pB )
n1
pAB
= pAB (
+
pA pB )
n
n
(n 1)
=
(pAB pA pB )
n
(n 1)
=
DAB
n
e pela formula da aproximacao de Fisher para a variancia, para grandes
amostras, temos:
AB ) = 1 [pA (1 pA )pB (1 pB ) + (1 2pA )(1 2pB )DAB D2 ]
V ar(D
AB
n
1.3. DESEQUILIBRIO
39
Uma estatstica qui-quadrado para a hipotese de nao existencia de desequilbrio, H0 : DAB = 0 pode ser obtida atraves do quadrado da variavel Z
que tem, assintoticamente, distribuicao normal:
Z=
AB E(D
AB )
D
q
AB )
V ar(D
portanto, sob H0 ,
2
XAB
= Z2 =
2
nD
AB
pA (1 pA )
pB (1 pB )
A mesma estatstica e encontrada atraves do teste qui-quadrado de bondade de ajuste para as quatro classes de gametas:
Gametas
Freq
u
encias Observadas
Freq
u
encias Esperadas
AB
nAB
n
pA pB
AB
nAB
n
pA pB
AB
nAB
n
pA pB
AB
nAB
n
pA pB
Total
n
n
AB
AB
A
n!pnAB
pAABB pAB
pA
B
AB
AB
A
B
(pA pB )nAB nA !nA !nB !nB !
n!(pA pB )
(pA pB )
(pA pB )
=
n
n
nAB !nAB !nAB
n!n!pnAA pAA pnBB pBB
!nA
B
!
40
n!pAAB
pB
pAAB
pB
=
=
=
k X
l
X
(nuv n
pu pv )2
u=1 v=1
k X
l
X
n
pu pv
n
[
puv pu pv ]2
p
u=1 v=1 u v
k X
l
X
n 2
D
p
p uv
u=1 v=1 u v
1.3. DESEQUILIBRIO
41
Vari
ancias e covari
ancias do desequilbrio de liga
c
ao dos gametas
O interesse inicial esta na associacao entre alelos em dois loci, mas a
maioria dos conjuntos de dados contem proporcoes em mais de dois loci
e equilbrios de ordens superiores podem ser definidos. Se o desequilbrio
de ligacao dos gametas DAB e DBC sao estimados para os alelos A,B e
C em tres loci, espera-se que seus valores estejam relacionados por causa
possvel rearranjar a f
da dependencia em comum no alelo B. E
ormula da
aproximacao de Fisher para a variancia para obter as aproximacoes para
as covariancias das funcoes S e T de freq
uencias multinomiais Ni (estas
freq
uencias tem valores esperados nQi ):
X S T
1
S T
Cov(S, T ) =
Qi
n
N
N
n n
i
i
i
1
[pB (1 pB )DAC + (1 2pB )DABC DAB DBC ]
n
1
[DAC DBD + DAD DBC + DABCD ]
n
Note que desequilbrios entre gametas em tres e quatro loci, os quais ser
ao
obtidos na proxima secao, estao envolvidos.
Obs: Verifique que DAB = DAB = DAB
= DA
B
.
Desequilbrio de gametas em tr
es ou quatro loci
Os desequilbrios serao obtidos atraves da formula aditiva de Bennett
(1954), que subtrai os termos de desequilbrios de menores ordens. Para os
alelos A, B e C em tres loci:
DABC = pABC pA DBC pB DAC pC DAB pA pB pC
(1.26)
42
A = (1 2pA )
entao
1
2
[A B + A B DAB DAB
]
n
2
ABC ) = 1 [A B C + 6DAB DBC DAC + A (B C DBC DBC
)
V ar(D
n
2
2
+B (A C DAC DAC
) + C (A B DAB DAB
)
AB ) =
V ar(D
1 AB
AB
AB
PAB + PAB
+ PA
B
1.3. DESEQUILIBRIO
43
1 AB
AB
AB
+
P
PAB + PAB
AB
2
2 B
1 AB
AB
pABB = PAB
+ PAB
2
e os desequilbrios sao definidos como
DAAB = pAAB pA DAB pA DA/B pB DA p2A pB
DABB = pABB pB DAB pB DA/B pA DB pA p2B
O coeficiente de desequilbrio quadrigenico, apos remover todos os desequilbrios digenicos e trigenicos:
AB
AB
DAB
= PAB
2pA DABB 2pB DAAB 2pA pB DAB 2pA pB DA/B
2
2
p2A DB p2B DA DAB
DA/B
DA DB p2A p2B
Agora as freq
uencias de genotipos e que s
ao multinomialmente distribudas e isto deve ser refletido nas variancias amostrais, neste caso as variancias
A e D
B continuam as mesmas, mas D
AB se torna:
de D
AB ) =
V ar(D
1
2
2
AB
A B + A B DAB DAB
+ DA DB + DA/B
+ DAB
2n
1
2
2
AB
A B + A B DA/B DA/B
+ DA DB + DAB
+ DAB
2n
44
(1.28)
AB
D
AB
2
AB
V ar D
AB
1.3.3
2
XAB
=
2
2nD
AB
AD
B + D
2
A
B + D
A/B
2
XA/B
=
2
2nD
A/B
B + D
2
A
B + DA D
AB
1.3. DESEQUILIBRIO
45
Muitas vezes nao e possvel distinguir entre os dois tipos de duplos hete e AB/
AB
e dessa forma n
rozigotos AB/AB
ao e possvel fazer inferencias
sobre as freq
uencias gameticas. Sob a suposicao de cruzamento aleatorio, no
qual freq
uencias genotpicas sao assumidas sendo o produto das freq
uencias
gameticas, e possvel estimar freq
uencias gameticas utilizando o algoritmo
EM. Se quisermos evitar a suposicao de cruzamento aleat
orio, e possvel
trabalhar com um conjunto de coeficientes de desquilbrios compostos.
Mesmo nao sendo possvel observar separadamente as proporcoes digenicas pAB e pA/B , a soma delas pode ser:
AB
AB
pAB + pA/B = 2PAB
+ PAAB
+ PAB
+
B
1 AB
AB
PAB + PAB
(1.29)
BB B B
9
X
AA n1
n2
n3
ni = n
AA n4
n5
n6
i=1
AA n7
n8
n9
A freq
uencia digenica para AB + A/B e:
1
1
1
1
1
1
1
1
n1 +
n1 + n1 + n2 + n2 + n4 + n4 + n5
=
2
2
2
2
2
2
2
2
AB
A/B A/B AB A/B AB A/B AB
1
= 2n1 + n2 + n4 + n5
2
n(AB+A/B)
1
n1 +
2
AB
pA pB
n
Note que n e o n
umero de indivduos na amostra.
Nao h
a problemas com os desequilbrios trigenicos quando nao podemos distinguir entre os duplos heterozigotos, mas as definicoes podem ser
simplificadas
DAAB = pAAB pA AB pB A p2A pB
DABB = pABB pB AB pA B pA p2B
46
+ . . . 2AABB
Detalhes estao em Weir & Cockerham (1989).
Se os coeficientes quadrigenicos e trigenicos puderem ser ignorados, a
estatstica do teste para o desequilbrio de ligacao digenico composto e
2
XAB
=
1.3.4
2
n
AB
A )(
B)
(
A + D
B + D
Testes m
ultiplos
1.3. DESEQUILIBRIO
47
(1.30)
1.3.5
Testes de homogeneidade
48
Esperado
Esperado
Planta
X2
1
2
3
4
5
6
7
8
9
10
45
27
24
19
32
26
88
22
28
25
12
8
7
10
11
6
24
10
6
7
42.75
26.25
23.25
21.75
32.25
24.00
84.00
24.00
25.50
24.00
14.25
8.75
7.75
7.25
10.75
8.00
28.00
8.00
8.50
8.00
0.47
0.09
0.10
1.39
0.01
0.67
0.76
0.67
0.98
0.17
0.49
0.09
0.10
1.30
0.01
0.71
0.79
0.63
1.06
0.17
43.83
26.92
23.84
22.30
33.06
24.60
86.11
24.60
26.14
24.60
13.17
8.08
7.16
6.70
9.94
7.40
25.89
7.40
7.86
7.40
0.14
0.00
0.00
2.11
0.15
0.34
0.18
1.19
0.57
0.03
0.14
0.00
0.00
1.92
0.14
0.36
0.18
1.11
0.61
0.03
336
101
327.75
109.25
5.31
5.34
336
101
4.71
4.49
Total
X2
sao dados na Tabela 1.6. A estatstica tem valor 4.71 e tem distribuicao quiquadrado com 9 graus de liberdade sob a hipotese de homogeneidade (neste
caso a hip
otese n
ao e rejeitada). O teste G foi definido na equacao (1.24).
Uma simples estatstica qui-quadrado com 1 grau de liberdade pode ser
obtida para testarmos a hipotese de que os dados suportam uma razao de
3 : 1.
(336 327.75)2 (101 109.25)2
+
327.75
109.25
= 0.83
X2 =
1.4
Diversidade
1.4. DIVERSIDADE
49
1.4.1
Heterozigosidade
Uma simples medida de variabilidade genetica numa populacao e a heterozigosidade observada. Seja nluv o n
umero observado de heterozigotos
Au Av , u 6= v, num locus l numa amostra de tamanho n. Ent
ao a proporcao
amostral de heterozigotos no locus l e
l =
H
X X nluv
u u6=v
l e a soma de freq
Como H
uencias de heterozigotos que sao multinomialmente
l) =
Var(H
1
Hl (1 Hl )
n
l pode
onde Hl e a proporcao de heterozigotos no locus l na populacao. H
tambem ser escrita como
n
X
l = 1
Xjl
H
n j=1
em que
(
Xjl =
2
E(Xjl
) = Hl
E(Xjl Xj 0 l ) = Hl2 ,
50
1 X
Hl = H
m l
X
1X
l, H
l0 ) = E 1
Xjl
Cov(H
Xj 0 l0 Hl Hl0
n j
n j0
=
=
=
XX
1 X
Xjl Xjl0 +
Xjl Xj 0 l0 Hl Hl0
E
2
n
j j6=j 0
j
1
[nHll0 + n(n 1)Hl Hl0 ] Hl Hl0
n2
1
(Hll0 Hl Hl0 )
n
X
X
X
1
l) +
l, H
l0 )
Var(H
Cov(H
2
=
Var(H)
l l0 6=l
XX
1 X
[ Hl (1 Hl ) +
(Hll0 Hl Hl0 )
2
nm l
l l0 6=l
1 X
2
(Hl H)
m1 l
XX
1 X 2
1
lH
l0
Hl
H
m l
m(m 1) l l0 6=l
com
E(s2H ) =
1 X
1
Hl2 + Hl (1 Hl )
m l
n
1.4. DIVERSIDADE
51
XX
1
1
Hl Hl0 + (Hll0 Hl Hl0 )
m(m 1) l l0 6=l
n
2 ) = H 2 + Var(H
l ) e E(H
l H
l0 ) = Hl Hl0 + Cov(H
l, H
l0 ).
Note que E(H
l
l
Para obtermos a variancia entre populacoes, precisamos levar em consideracao a dependencia entre membros da mesma populacao causada pela
amostragem genetica. Seja
Ml = E(Xjl Xj 0 l ), j 6= j 0
em que Ml e a probabilidade de que dois indivduos na mesma populacao
sejam heterozigotos. Entao,
l ) = Hl
E(H
1 X 2 X X
l )]2
E
Xjl +
Xjl Xj 0 l [E(H
n2
0
j
j j6=j
l) =
Var(H
1
(Hl Ml )
n
Tomando a media sobre todos os m loci
X
XX
l = 1
= 1
H
xjl
H
m l
nm j l
= (Ml Hl2 ) +
Denote por Mll0 a probabilidade de que dois indivduos escolhidos aleatoriamente da mesma populacao sejam heterozigotos, um no locus l e outro no
locus l0 :
Mll0 = E(Xjl Xj 0 l0 )
Logo,
E(H)
1 X
1 X
E(Hl ) =
Hl
m l
m l
XX
XXX
1
2
E
Xjl
+
Xjl Xj 0 l
2
2
m n
j
j j 0 6=j l
l
Var(H)
XXX
j
l0 6=l
Xjl Xjl0 +
X X XX
j
j 0 6=j
Xjl Xj 0 l0 H 2
l0 6=l
XX
1 X
(Ml Hl2 ) +
(Mll0 Hl Hl0 )
2
1
m2 n
l l0 6=l
X
XX
(Hl Ml ) +
(Hll0 Mll0 )
l
l l0 6=l
(1.31)
52
Os quatro termos na expressao (1.31) podem ser rearranjados para mostrar como populacoes, loci e indivduos contribuem para a variancia da heterozigosidade media, colocando estes calculos num contexto similar ao usado
para uma analise de variancia.
Agora, um ndice i e adicionado a variavel indicadora para denotar a
populacao sendo amostrada, i.e.,
(
xijl =
1.4.2
Diversidade gen
etica
Uma medida de variacao alternativa, muitas vezes chamada de heterozigosidade media, mas mais apropriadamente conhecida como Diversidade
uma
Genetica, e formada da soma de quadrados das proporcoes alelicas. E
medida mais apropriada de variabilidade para populacoes endocruzadas,
onde ha muito pouco heterozigotos, mas pode haver muitos tipos diferentes
de homozigotos. Para populacoes de cruzamento aleatorio, seu valor ser
a
bem perto da heterozigosidade.
Seja plu a proporcao do u-esimo alelo no l-esimo locus, a diversidade
genetica neste locus e
Dl = 1
X
u
p2lu
(1.32)
1.4. DIVERSIDADE
53
1 XX 2
p
m l u lu
(1.33)
(1.34)
Entre amostras dentro de uma populacao, os valores esperados dos quadrados das proporcoes alelicas foram calculados na Secao 1.2. Ent
ao,
l) = 1
E(D
p2lu
1+f
2n
1 X
plu (1 plu )(1 + f )
2n u
Dl
Note que ha um pequeno vcio de (2n 1)/(2n) para populacoes sem endocruzamento, mas um vcio ainda maior caso contrario. A presenca do
depende tanto das proporcoes
termo f indica que o valor esperado de D
genotpicas como das alelicas.
A variancia requer a soma das variancias e covariancias dos quadrados
das freq
uencias alelicas no mesmo locus. Usando a aproximacao de Fisher,
temos
Var(
p2lu ) =
Cov(
p2lu , p2lv ) =
1 3
2p (1 plu )(1 + f )
n lu
1 2 2
2p p (1 + f ), v 6= u
n lu lv
Logo,
l) =
Var(D
Var(
p2lu ) +
Cov(
p2lu , p2lv )
u v6=u
XX
2(1 + f ) X 3
plu
!2
p2lu
Para m
ultiplos loci, nao h
a problema para calcular as proporcoes alelicas,
pois as proporcoes genotpicas em cada locus separadamente s
ao multinomialmente distribudas. H
a uma covariancia entre as freq
uencias alelicas em
diferentes loci, causada pelas freq
uencias sendo estimadas dos mesmos indivduos e, portanto h
a tambem uma covari
ancia entre os quadrados das proporcoes amostrais. Os momentos multinomiais mostram que a covari
ancia
54
2
plu pl0 u lu,l0 v
n
Esta u
ltima expressao nos da a covariancia das diversidades em diferentes
loci:
XX
l, D
l0 ) = 2
plu pl0 v lu,l0 v
Cov(D
n u v
A variancia da diversidade genetica media entre as amostras de uma mesma
populacao e dada por
=
Var(D)
XX X
1 X X
Var(
p2lu ) +
Cov(
p2lu , p2lv )
2
m
u
u v6=u
l
l
XXXX
l l0 6=l u
Cov(
p2lu , p2l0 v )
X
X
2 X
(1 + fl ) p3lu
p2lu
2
m n l
u
u
!2
2 XXXX
plu pl0 v lu,l0 v
m2 n l l0 6=l u v
(1.35)
em que fl representa a associacao entre os alelos no locus l e lu,l0 v representa a associacao entre alelos em diferentes loci. Simplesmente tomando
a variancia de diversidades em um u
nico locus iria ignorar as associacoes
entre locus, assim como tambem iria ignorar as diferencas na diversidade
esperada entre loci.
Quando a diversidade genetica e calculada para loci, em que todos tem
dois alelos, a equacao (1.35) pode ser simplificada. Se pl e a proporcao de
um dos dois alelos no locus l e ll0 e o coeficiente de desequilbrio de ligacao
composto entre estes alelos nos loci l e l0
Dl = 1
X
u
1.4. DIVERSIDADE
55
e
=
Var(D)
i
2 Xh
2
(1
+
f
)p
(1
p
)(1
2p
)
l l
l
l
m2 n l
+
=
2 XX
(1 2pl )(1 2pl0 )ll0
m2 n l l0 6=l
(1.36)
2 X
1
(Dl Hl )(1 2pl )2
m2 n l
2
+
2 XX
(1 2pl )(1 2pl0 )ll0
m2 n l l0 6=l
1
(pA + PAA 2PA/A )
2n
(1.37)
Mas,
PAA = p2A + pA (1 pA )FIT
PA/A = p2A + pA (1 pA )FST
Logo,
Var(
pA ) = pA (1 pA ) FST +
FIT FST
1 FIT
+
n
2n
(1.38)
(1.39)
1
plu (1 plu )(1 + FIT 2FST )
2n
56
l ) = Dl (1 FST )
E(D
1
(1 + FIT 2FST )
2n
(1.40)
XX
Pu|u|v|v
u
!2
Pu|u
X
X
X
X
1
+ 2
Pu|u|u
Puu
Pu|u + 2
Pu|u
n
u
u
u
u
!2
XX
1.4. DIVERSIDADE
57
E(
plu pl0 v ) = Plu|l0 v +
=
Var(D)
(
"
X X
1XX
plu plv (Plu,lv 4plu plv
+
2 u v6=u
)
XXXX
u
l0
=
Var(D)
(
Xh
+p2l2 )2
XX
(1.41)
l0
2
m2 n
(
Xh
l
XX
l0
58
Estimacao da variancia total requer dados de mais de uma populacao. No entanto, em geral, sugere-se que diferentes loci podem fazer o papel de replicas
de populacoes para que a variancia entre diversidades de diferentes loci sirva
como uma estimativa da variancia total.
e tomada como sendo 1/m
Utilizando esta tecnica, a variancia total de D
1 X
2
(Dl D)
m1 l
s2D
m
X
XX
l, D
l0 )
+ 1 (Dl D)2 +
Cov(D
= Var(D)
m1 l
0
l l 6=l
Como para a heterozigosidade, s2D pode servir como um estimador da variancia total da diversidade media somente quando cada locus tem a mesma
diversidade esperada e quando as diversidades em diferentes loci tem covariancia zero. Estas condicoes s
ao satisfeitas para populacoes de cruzamento aleatorio e loci independentes. Uma boa indicacao de que esta tecnica
nao e valida seria quando ha evidencias de desequilbrio de ligacao entre
loci. Nos casos de populacao de plantas com misturas entre si e cruzamento
aleatorio, a covariancia entre diversidades em dois loci e diretamente proporcional ao desequillibrio de ligacao (composto) entre loci e, s2D /m nao
deve ser usado para estimar a vari
ancia total de diversidade media se os
desequilbrios forem significativamente diferentes de zero.
PY
CO
Captulo 2
Correla
c
ao Familiar
DO
NO
T
Consideremos a relac
ao genetica entre pares de parentes, { X, Y}. Um ou
dois alelos de X podem ser identicos aos alelos de Y. Definimos, identico por
descendencia (IPD), se X e Y tem alelos que sao identicas copias de um alelo
derivado de uma replicac
ao em um ancestral comum e que e transmitido para
X e Y (Figura 2.1). Definimos, identico por estado (IPS), se os alelos sao
identicos em termos da composicao e funcao de DNA, mas sem considerar
a ancestralidade. Os alelos que sao IPD sao IPS, mas se os alelos sao IPS e
nao sao originado de um ancestral comum, eles nao sao IPD. Portanto, as
relacoes geneticas dependem do IPD e para cada locus autossomico, X e Y
compartilham 0, 1, ou 2 alelos IPD.
Definimos acasalamento consang
uneo (endocruzamento) como sendo o
acasalamento de indivduos que tem pelo menos um ancestral comum, e a
progenie (prole) deste acasalamento e definida como endocruzada. O acasalamento consang
uneo permite que alelos menos comuns tornem-se homozigoticos e, conseq
uentemente alguns dist
urbios recessivos raros aparecem
mais freq
uentemente na progenie deste endocruzamento. Parentes unilaterais sao aqueles relacionados biologicamente atraves de um lado da famlia
(por exemplo, meio-irm
aos, primos, tios, tias, sobrinhos, sobrinhas) e eles
somente compartilham 0 ou 1 alelos IPD. Parentes bilaterais sao aqueles relacionados biologicamente atraves do genitor maternal e paternal (por exemplo, irm
as, primos-duplos) e eles compartilham 0, 1 ou 2 alelos IPD.
2.1
Matrizes estoc
asticas: ITU
59
3 4
1 3
IPD=2
=1
CO
1 2
1 3
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
60
2 3
1 4
IPD=1
=1/2
IPD=0
=0
NO
T
AA
1 0 0
I = Aa 0 1 0
aa
0 0 1
DO
AA
p2 2pq q 2
2
U = Aa p 2pq q 2
2
2
aa
p 2pq q
2.1. MATRIZES ESTOCASTICAS:
ITU
PY
61
A matriz T (Transmiss
ao) e construda se X e Y compartilham 1 alelo IPD,
como genitor e prole.
p
q
0
AA
CO
NO
T
P (gY | gX ) =
i=0
R = cI I + cT T + cU U
para
cI
cT
cU
DO
Por exemplo, numa famlia nuclear com 2 genitores e 2 filhos, onde o pai
tem o gen
otipo, A1 A2 , e a m
ae tem o genotipo, A3 A4 , o n
umero de alelos
IPD dos filhos e representado pela seguinte tabela:
A1 A3
A1 A4
A2 A3
A2 A4
A1 A3
2
1
1
0
Y
A1 A4
1
2
0
1
A2 A3
1
0
2
1
A2 A4
0
1
1
2
com
cI
cT
cU
= P (IP D = 2) = 1/4
= P (IP D = 1) = 1/2
= P (IP D = 0) = 1/4
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
62
NO
T
CO
DO
Relacionamento
Gemeos univitelinos
Genitor-filho
N
ao relacionados
Irm
aos
Meio-irm
aos
Tio(a)-sobrinho(a)
Av
os-netos
Primos de 1o grau
Primos de 2o grau
Primos em 1o grau duplo
cI
1
0
0
1/4
0
0
0
0
0
1/16
cT
0
1
0
1/2
1/2
1/2
1/2
1/4
1/16
6/16
cU
0
0
1
1/4
1/2
1/2
1/2
3/4
15/16
9/16
K
1/2
1/4
0
1/4
1/8
1/8
1/8
1/16
1/64
1/8
r
1
1/2
0
1/2
1/4
1/4
1/4
1/8
1/32
1/4
Ent
ao a distribuic
ao conjunta dos genotipos e definida multiplicando-se
cada linha da matriz R, definida acima, pela probabilidade do genotipo para
2.1. MATRIZES ESTOCASTICAS:
ITU
PY
63
p2 0
0
J = P (gx , gy ) = 0 2pq 0 R
0
0 q2
com
E[xy] =
2
2 X
X
x=0 y=0
xyP (x, y)
xP (x), E[y] =
2
X
yP (y)
NO
T
E[x] =
CO
y=0
x=0
onde P(x) e a soma total de cada linha da matriz J e P(y) e a soma total
de cada coluna da matriz J. Conseq
uentemente, a variancia e a correlacao
genetica ser
ao
2
2
X
x P (x)
#2
xP (x)
x=0
x=0
" 2
X
Cov(x, y)
Corr(x, y) = p
.
V (x)V (y)
DO
p2 0
0
p
q
0
p3 p2 q 0
2
J = p q pq pq 2
2
3
0 pq
q
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
64
p2
p2 2pq q 2
CO
1
pq
=
Corr(x, y) =
2pq 2pq
2
NO
T
Portanto, a correlac
ao dos genotipos entre genitor e filho e 1/2.
Vamos agora definir a distribuicao condicional dos fenotipos. Primeiramente, vamos definir penetrancia. Penetr
ancia e definida como sendo a
probabilidade de um indivduo ser afetado dado o seu genotipo, i.e., P(ser
afetado | gen
otipo). Consideremos f o vetor de penetrancia, onde
Genotipo
AA
Aa
aa
P(afetado | genotipo)
fAA
fAa
faa
P (gen
otipo)P (afetada | gen
otipo) = p2 fAA +2pqfAa +q 2 faa .
Ent
ao o i-esimo elemento do vetor Rf e representado por
P (Y ser afetado | gx = i) =
gx
DO
2.2. CONCEITO DE CORRELAC
OES
PY
65
CO
3. s
ao estimadores consistentes da correlacao verdadeira se eles sao baseados em famlias aleatoriamente selecionadas da populacao. Se as
famlias s
ao selecionadas atraves de um probando, estes estimadores
s
ao viciados (subestimados).
2.2
NO
T
Definimos probando ou caso-ndice como sendo uma pessoa com um determinado fen
otipo que, independentemente de todas as outras pessoas com
o mesmo fen
otipo, faz com que sua famlia entrar no estudo. Para famlias
selecionadas atraves dos probandos, a associacao familiar e melhor caracterizada pela distribuic
ao de um fen
otipo entre as classes especficas de parentes
dos probandos. Por exemplo, no caso binario, P(afetado | parente do probando).
Conceito de correlaco
es
Em estudos geneticos, definimos estas correlacoes em duas classes: interclasse e intraclasse. A correlacao e de interclasse se ha duas classes de
parentes envolvidas. A correlac
ao e de intraclasse se ha somente uma classe
de parentes envolvida. Exemplos de correlacoes ignorando sexo, para interclasse s
ao: c
onjuges, genitor-filho, avos, tio(a)-sobrinho(a), e para intraclasse s
ao: irmandade, meio-irm
aos, primos. Quando sexo nao e ignorado,
irmaos do mesmo sexo pertencem `a intraclasse e irmaos de sexos diferentes
`a interclasse.
A correlac
ao de interclasse e a correlacao dos produtos dos momentos de
Pearson, que e calculada como
x
)(yi y)
SP (x, y)
p
=
P
SQ(x)SQ(y)
)2 i (yi y)2
i (xi x
DO
r = pP
i (xi
onde SQ e a soma dos quadrados, SP e a soma dos produtos, (x, y) representa n pares, e a somat
oria e sobre estes pares, que nao estao ordenados.
Por exemplo, no caso de correlacao mae-filho(a), e o par da mae (x) com
cada filho(a) (yi ).
FAMILIAR
CAPITULO 2. CORRELAC
AO
PY
66
CO
A correlac
ao de intraclasse envolve somente uma classe e ha somente uma
media e uma vari
ancia total. Mas esta correlacao tambem pode ser calculada
usando a correlac
ao de Pearson quando os pares sao includos duas vezes,
i.e., usando 2n pares.
Podemos calcular cada media como sendo sexo dependente, tanto para
interclasse como intraclasse. Entao, no caso da correlacao de intraclasse de
irm
aos, ela e obtida combinando a soma dos quadrados e o produto cruzado
para os 3 subtipos;
1/2SP (filho-filho) + SP (irmao-irma) + 1/2SP (irma-irma)
p
SQ(meninos)SQ(meninas)
Podemos tambem permitir que as medias sejam dependentes das variaveis
explanat
orias no c
alculo de SQ e SP, mas homoscedasticidade e freq
uentemente assumida em todos os grupos.
As correlac
oes podem tambem ser calculadas usando tres esquemas de
pesos diferentes:
NO
T
DO
3. Pesos iguais para famlias nucleares. Cada heredograma e dividido em famlias nucleares. Para cada famlia nuclear obtemos as
medias, uma media geral e obtida usando todas as famlias nucleares
dentro de um heredograma, e entao uma media final e obtida usando
todos os heredogramas. SP e SQ sao calculados para cada famlia
nuclear dentro de cada heredograma e dividida pelo n
umero de pares
contido em cada famlia. Estas medias sao entao somadas usando todas as famlias nucleares e todos os heredogramas. Obtemos os SQ e
SP totais e depois a correlacao.
2.2. CONCEITO DE CORRELAC
OES
PY
67
correlac
ao da irmandade. Assumimos um modelo linear aleatorio,
yij = + Ai + ij
CO
2
SS = 2 A 2 .
A +
onde SS representa a irmandade (it sibship). Portanto,
SS
=
DM QA DM QW
DM QA + (k0 1)DM QW
S
X
ki
2
i=1 ki
PS
i=1 ki
1
.
(S 1)
NO
T
i=1
PS
DO
F
M
D
D
D
S
S
F2
F M
2
M
F D F D F D F S F S
M D M D M D M S M S
2
D
DD DD DS DS
2
D
DD DS DS
2
D
DS DS
S2
SS
S2
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
68
e pode ser particionada,
V2 V23 V24
V3 V34
V4
CO
NO
T
Li = 1/2 ln | Vi | 1/2(yi i ) V1
i (yi i )
ao ha solucoes
e o log da verossimilhanca para N famlias e igual a N
i=1 Li . N
explcitas na estimac
ao dos parametros, so iterativas, exceto quando cada
fen
otipo tem uma media diferente, no nosso exemplo, sete medias para sete
pessoas.
Podemos usar a transformacao exata de Fisher para calcular a correlacao
quando temos famlias com irmandade de tamanho 2. Entao,
P
Z(
) N (Z(), Z2 ),
2
onde Z() = 1/2 ln 1+
lias com irmandade
1 e, Z = 1/(n 3). Para fam
de tamanho maior que 2, o uso de Z(
) e uma aproximacao conservativa.
Uma aproximac
ao recomendada para este caso e calcular um tamanho de
amostra efetivo.
DO
2.3
Componentes de vari
ancia
2.3. COMPONENTES DE VARIANCIA
PY
69
onde Y e o fen
otipo quantitativo, e a media total, g e o efeito do genotipo,
e o efeito do ambiente, e ig e o efeito de interacao entre o genotipo e o
ambiente. Portanto, a vari
ancia de Y e dada por
V (Y ) = g2 + 2 + 2Cov(g, ) + i2 .
CO
Quando n
ao h
a correlac
ao entre o genotipo e o ambiente, Cov(g, e) = 0
e, quando n
ao h
a interac
ao, o modelo linear pode ser representado por
Y = + g + ,
e
V (Y ) = g2 + 2 .
NO
T
onde a2 e a vari
ancia genetica aditiva, d2 e a variancia genetica dominante, e
2
ancia genetica epist
atica. A variancia genetica aditiva representa a
e e a vari
variac
ao no fen
otipo que e transmitida de pai para filho e e a maior causa de
semelhanca entre os parentes. A variancia genetica dominante representa a
variac
ao da interac
ao dos alelos em cada locus e contribui para a semelhanca
entre parentes que compartilham genotipos com 2 alelos IPD. A variancia
genetica epist
atica representa a variacao da interacao inter-loci.
Usando estas vari
ancias podemos definir a contribuicao relativa de cada
componente com respeito a vari
ancia total do fenotipo. Esta contribuicao
genetica e conhecida como herdabilidade. Definimos herdabilidade no sentido
amplo como sendo a proporc
ao da variancia total que e devida a variancia
genetica, i.e.,
g2
2 + d2 + e2
2
h = 2 = a
Y
Y2
DO
Esta medida pode ser estendida para efeitos geneticos principais. A herdabilidade no sentido restrito e
2
h2 = 2a
Y
Normalmente para se calcular estas medidas, certas suposicoes sao necessarias
como Cov(gen
otipo, ambiente) = 0, nao ha interacao entre o genotipo e o
ambiente, e n
ao h
a epistasis. A herdabilidade nao nos da informacao sobre
o mecanismo biol
ogico.
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
70
A vari
ancia ambiental pode ser particionada entre a variancia do ambiente compartilhado e a variancia do resduo ambiental, i.e.,
2 = c2 + r2 .
Cov(yi , yj ) =
CO
A vari
ancia do ambiente compartilhado e similar `a variancia entre grupos,
que e similar a correlacao intraclasse, pois conjuges e irmaos compartilham
o mesmo ambiente. A variancia do resduo ambiental e similar `a variancia
dentre grupos.
Neste caso, podemos estender a covariancia genetica para famlias de
gerac
oes m
ultiplas. Para simplificar, assumimos que a Cov(g,) = 0, nao
h
a interac
ao entre o genotipo e o ambiente e nao ha variancia do ambiente
compartilhado. Ent
ao, y representa um vetor de medidas (fenotipos) de
uma famlia, e V representa a matriz de covariancia de Y definida por
para i = j
a2 + d2 + 2
2
2
2Kij a + ij d para i 6= j
NO
T
N h
X
ln | Vi | (Yi i ) V1 (Yi i ) ,
i=1
DO
h
a limitac
oes quando se usa a normal multivariada, pois muitas vezes os
fen
otipos n
ao satisfazem esta suposicao. No entanto, podemos usar metodos
robustos como a distribuicao t-multivariada ou transformar os fenotipos, de
tal forma que satisfacam `a suposicao de normalidade.
2.4
Teste de associac
ao
2.4. TESTE DE ASSOCIAC
AO
PY
71
CO
O objetivo da an
alise de associacao e determinar se um dist
urbio investigado e associado com um determinado marcador genetico, ou melhor, com
um determinado alelo deste marcador. Dizemos que o marcador genetico
e polim
orfico se o alelo mais freq
uente ocorre em menos que 99% da populacao. Exemplos de marcadores polimorficos sao os variantes antigenicos,
variantes de protena, marcadores geneticos anonimos (restriction fragment
length polymorphisms (RFLP), variable number tandem repeats (VNTR),
microsatelite), gene candidato.
Seleo
(a)
m
Diferentes
raas
d
(c)
m
d
D
(e)
NO
T
(d)
(b)
DO
As causas de associac
ao s
ao varias. A Figura 2.2 mostra varios mecanismos. Para melhor interpretar a figura, vamos definir m, M , d, e D como
sendo o locus genetico do marcador, o marcador do fenotipo, o locus genetico
da doenca e o fen
otipo da doenca, respectivamente. A Figura 2.2a mostra o
caso em que o marcador genetico, m, sozinho causa a doenca, D. A Figura
2.2b mostra o caso em que ambos o marcador genetico, m e o locus genetico
da doenca, d, causam a doenca. Estes dois casos sao conhecidos como efeito
pleitropico. Definimos pleitropia quando um u
nico gene ou par de genes
produz efeitos fenotpicos diversos. A Figura 2.2c mostra o caso de selecao
conjunta do marcador e da doenca. A Figura 2.2d mostra a situacao em
que ha mistura de populac
oes nas quais as freq
uencias alelicas do marcador
genetico e as freq
uencias alelicas da doenca sao distintas. A Figura 2.2e mostra o caso de desequilbrio de ligacao, onde os alelos do marcador genetico
e os alelos da doenca n
ao s
ao independentes devido a recombinacao, normalmente dito estar em ligac
ao apertada. Ha varios tipos de planejamento
para se estudar associac
ao na populacao. Um deles e usar controle nao relacionado com o caso, mas devido ao impacto do confundimento dos efeitos
geneticos, quando se estuda populacoes mistas, foi proposto por Spielman e
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
72
Estudo caso-controle
CO
2.4.1
Nesta sec
ao vamos discutir testes de associacao em indivduos nao relacionados. Em epidemiologia isto e conhecido como o estudo caso-controle.
Neste caso, temos a seguinte situacao:
Marcador
+ (M M , M m)
- (mm)
Casos
a
c
c1
Controles
b
d
c2
r1
r2
N
NO
T
(ad bc)2 N
21
r1 r2 c1 c2
2.4.2
Estudo caso-genitores
DO
2.4. TESTE DE ASSOCIAC
AO
PY
73
M
m
CO
Alelos
Transmitidos
NO
T
Alelos
Transmitidos
M
m
a+b
c+d
2n
(b c)2
b+c
DO
Caso
Controle
PY
FAMILIAR
CAPITULO 2. CORRELAC
AO
74
CO
2n
2n
4n
HRR =
(a + b)(b + d)
.
(a + c)(c + d)
2.4.3
Associac
ao entre fen
otipos quantitativos e marcadores
gen
eticos
NO
T
DO
em que y e o fen
otipo quantitativo, m e a media do marcador genetico observado, g e o efeito genetico nao observado e e o efeito ambiental. Entao,
V (y) = g2 + 2 . Assumimos que a Cov(g, ) = 0 (nao ha correlacao entre
o gen
otipo e o ambiente) e nao ha interacao. Neste caso, podemos usar
ANOVA ou modelos lineares para estimar o efeito do marcador genetico observado, quando os indivduos nao sao relacionados, i.e., sao independentes.
A suposic
ao de normalidade e essencial para se fazer um teste de hipotese
v
alido. Quando selecionamos famlias, os resduos, depois de considerar o
marcador genetico observado, podem ser correlacionados entre os parentes
atraves dos poligenes e do ambiente comum. Podemos usar o modelo poligenico para estimar a covariancia poligenica. A variancia ambiental pode
ser particionada em duas variancias, o ambiente compartilhado e os resduos.
Podemos tambem aplicar metodos de verossimilhanca para componentes de
vari
ancia quando assumimos uma distribuicao normal multivariada. Allison
(1997) e Rabinowitz (1997) propuseram testes de associacao para fenotipos
quantitativos.
PY
CO
Captulo 3
An
alise de Segrega
c
ao
3.1
Introdu
c
ao
DO
NO
T
An
alise de segregac
ao pode ser definida como uma metodologia estatstica usada para determinar a forma de heranca de um determinado
fenotipo usando famlias de estrutura complexa ou heredograma, com foco
no efeito genetico principal. No caso de doencas mendelianas, analise de segregac
ao e uma ferramenta b
asica em genetica humana, especialmente para
futuros estudos de ligac
ao. No caso de doencas comuns onde nao ha um
efeito genetico principal, ela n
ao e de muita utilidade. Com o mapeamento
do genoma humano e a descoberta de milhoes de single nucleotypes repeats
(SNP) an
alise de segregac
ao e atualmente considerada, por alguns, como
uma metodologia arc
aica, mas para outros ainda e uma metodologia valiosa, especialmente no caso de doencas complexas raras que agregam em
famlias. Portanto, este captulo tem como objetivo introduzir varias etapas do desenvolvimento desta metodologia, desde o princpio do seculo XX
com a an
alise de irm
aos afetados ate os dias de hoje com o uso dos mo tambem importante salientar que o
delos probabilsticos e regressivos. E
desenvolvimento dela e devido ao acesso de computores com processadores
ultra-r
apidos, que sem os quais as analises sofisticadas seriam impossveis
de serem calculadas.
3.2
An
alise de segregac
ao cl
assica
O objetivo da an
alise de segregacao classica e detectar a razao mendeliana para doencas raras e fenotipos raros. Ela e realizada somente em
75
CAPITULO 3. ANALISE
DE SEGREGAC
AO
PY
76
CO
P (r | s, p) =
s r
p (1 p)sr
r
(3.1)
DO
NO
T
P (r > 0 | s, p) =
=
P (r | s, p)
P (r > 0)
s r
sr
r p (1 p)
1 (1 p)s
(3.2)
77
PY
CLASSICA
3.2. ANALISE
DE SEGREGAC
AO
(3.3)
CO
p =
onde R e o n
umero total de indivduos afetados na irmandade numa amostra
de s indivduos, J1 representa o n
umero de irmandades com somente um
indivduo afetado. A vari
ancia deste estimador e maior que a variancia do
estimador de m
axima verossimilhanca, mas menor do que o estimador de
Weinberg. Para amostras grandes, a variancia de (3.3) e
V ar(
p) =
(R J1 )(S R) 2J2 (S R)
+
(S J1 )3
(S J1 )4
(3.4)
DO
NO
T
onde J2 e o n
umero de irmandades com dois indivduos afetados (Davies,
1979).
A distribuic
ao binomial truncada representa somente a distribuicao de
indivduos afetados e sadios nas irmandades elegveis. Isto representa o caso
em que toda a irmandade elegvel e identificada com a mesma probabilidade
como se ela fosse selecionada na populacao geral. Entretanto, freq
uentemente irmandades com mais que 2 indivduos afetados serao selecionadas
mais freq
uentemente do que as irmandades com somente um indivduo afetado, e conseq
uentemente criando uma distorcao no n
umero de indivduos
afetados e n
ao afetados, sendo entao p um estimador viciado. Por esta razao,
o conceito de probando foi criado. Define-se probando (ou caso ndice) como
sendo um indivduo afetado que seleciona uma famlia para um estudo ou
amostra e, que e selecionado independentemente de todos os outros probandos. Famlias podem ter mais que 2 probandos (por exemplo, procura de
defeitos de nascimento usando um registro estadual). Famlias podem ter
indivduos afetados que n
ao s
ao probandos (por exemplo, indivduo nascido
em outro estado). Mas toda famlia selecionada tera um probando.
possvel obter um estimador nao viciado de p, se a probabilidade,
E
, de um indivduo afetado ser selecionado como probando e especificada.
Neste caso, v
arias suposic
oes s
ao necessarias. Se assumirmos que todos
os probandos s
ao selecionados independentemente, a distribuicao binomial
truncada pode ser usada para descrever a distribuicao de c probandos entre
r irmaos afetados numa famlia,
r c
(1 )rc .
c
P (c | r, ) =
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
78
(3.5)
CO
P (c > 0 | r, ) = 1 (1 )r .
(3.6)
A distribuic
ao das probabilidades dos probandos entre todos os indivduos
afetados precisa ser combinada com a distribuicao dos indivduos afetados
entre todas as irmandades para se obter a probabilidade de selecionar uma
irmandade (Elandt-Johnson, 1971). Entao, temos
P (c > 0 | s, r, ) =
r=1
s
X
s r
p (1 p)sr [1 (1 )r ]
r
s
X
s r
s r
p (1 p)sr
p (1 p)sr (1 )r
r
r
r=1
NO
T
s
X
r=1
= 1 (1 p)
s
X
r=1
s
[(1 )p]r (1 p)sr
r
= 1 (1 p)s .
(3.7)
P (r | c > 0, s, r, ) =
P (r | s, p) P (c > 0 | r, )
P (c > 0 | r, )
s r
sr [1 (1 )r ]
r p (1 p)
.
1 (1 p)s
T
(3.8)
DO
CLASSICA
3.2. ANALISE
DE SEGREGAC
AO
PY
79
s 1 r1
p (1 p)sr .
r1
CO
ou
P (y | p = 1/4)
maxp P (y | p)
NO
T
3.2.1
(rt)t (1)rt
1(1p)s
. Entao
Modelo polig
enico para fen
otipos discretos
DO
No caso de modelos poligenicos, assumimos que ha muitos loci autossomicos, onde os alelos em cada locus sao classificados como baixo e alto risco.
O risco de ser afetado depende somente do n
umero acumulado de alelos
de risco alto ou ac
ao genetica acumulada e de que os efeitos alelicos sejam
independentes e igualmente aditivos. Por exemplo, consideremos cinco loci
com os seguintes gen
otipos: genotipo 1 = AA Bb Cc dd EE; genotipo
2 = Aa BB Cc DD ee, onde a letra mai
uscula representa o risco alto e
a letra min
uscula o risco baixo. Os genotipos 1 e 2 tem o mesmo risco,
i.e., seis alelos de risco alto. Numa populacao de cruzamento aleatorio, a
proporc
ao de alelos de risco alto converge para uma distribuicao normal
quando o n
umero de loci aumenta. Portanto, o risco depende do genotipo
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
80
GT
GT
x2
1
e 2 dx
2
(3.9)
CO
X
i
para gen
otipos discretos, gi e
Z
P (gi )P (afetado | gi )
G2
1
GT
e 2
dG =
T
1 + 2
NO
T
(3.10)
3.3
An
alise de segregac
ao moderna
DO
MODERNA
3.3. ANALISE
DE SEGREGAC
AO
PY
3.3.1
81
A distribuic
ao genotpica conjunta dos c
onjuges.
freq
uencia
uF uM
2 )
2
uF (GF , G
uM (GM , G )
1
2W
onde (z, w) =
3.3.2
exp 12 zw
A distribuic
ao fenotpica condicionada no gen
otipo.
gen
otipo
(1)
u
(2)
uG
f.d.p.
contnuo
discreto
gu (z)
(z u , 2 )
fu
guG (z)
(z u G, 2 )
( Gu
)
NO
T
3.3.3
CO
cruzamento
(1)
uF uM
Transmiss
ao gen
etica do gen
otipo principal.
A heranca genetica de uma geracao para outra pode ser escrita como a
distribuic
ao genotpica do filho condicionada nos genotipos dos pais. Definimos puF uM u como a probabilidade de um indivduo ter genotipo u dado
que seus pais tem gen
otipos uF e uM , que e representada por
DO
puF uM u
uF uM se
(1
)
+
(1
uF ) se
=
uF
uM
uM
(1 uM )(1 uF ) se
u = AA
u = Aa
u = aa
CAPITULO 3. ANALISE
DE SEGREGAC
AO
PY
82
uF
AA
Aa
aa
AA
(1 0 0)
(1/2 1/2 0)
(0 1 0)
CO
aa
(0 1 0)
(0 1/2 1/2)
(0 0 1)
2
GF + GM G
,
)
2
2
NO
T
pois a populac
ao de valores de gametas transmitidos por qualquer poligene
2 /2 e quaisquer dois
e normalmente distribuda com media G/2, variancia G
gametas produzidos por G tem uma correlacao igual a 1/2 e o cruzamento
dos pais e aleat
orio. A distribuicao para o modelo misto, que contem os
componentes poligenicos e monogenicos, e obtida multiplicando-se as duas
distribuic
oes correpondentes, puF GF uM GM uG = puF uM u pGF GM G .
3.3.4
Tipos de amostragem.
DO
A populac
ao a ser estudada pode ser selecionada atraves de uma amostragem aleat
oria, que e uma populacao bem definida de unidades aleatorias
distintas, cada qual com a mesma probabilidade de ser selecionada. Todas
as pessoas morando numa determinada area geografica definem uma populac
ao de estrutura distinta. Podemos considerar uma amostra aleatoria de
indivduos, que s
ao os nossos probandos aleatorios. E aumentamos a amostra acrescentando os parentes destes indivduos. Esta amostra de famlias e
ent
ao considerada como uma amostra aleatoria da populacao. No caso de
doencas raras, a selec
ao aleatoria nao e eficiente porque a amostra sera constituda de indivduos sem a doenca, e conseq
uentemente nao informativa.
Neste caso, as famlias sao selecionadas para participar no projeto porque
pelo menos um elemento da famlia e afetado. Este tipo de amostragem e
83
PY
MODERNA
3.3. ANALISE
DE SEGREGAC
AO
3.3.5
M
etodo de verossimilhanca
CO
XX
...
u1 u2
un
onde P (ui ) = ui para os fundadores e igual a PuF uM ui para os naofundadores. Aqui usamos o algoritmo de Elston-Stewart para calcular a
funcao de verossimilhanca.
Usando os modelos mistos e unificados,
Z
NO
T
L=
XX
...
...
G1
u1 u2
G2
Gn
2 ) para os fundadores
onde P (ui ) = ui (Gi , G
e igual a PuF uM ui PGF GM Gi
para os n
ao-fundadores. O algoritmo de Elston-Stewart nao pode ser usado
exceto com uma aproximac
ao.
3.3.6
Selecionamento atrav
es do probando
A correc
ao de selecionamento na analise de segregacao classica e dada
por
1 (1 )r
1 (1 p)s
se e conhecido
DO
r t (1 )rt
t 1 (1 p)s
se e desconhecido e ha t probandos
Seja
(zi ) =
(zi ) se
1 (zi ) se
i e um probando
i nao e um probando
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
84
Ent
ao, para (z) desconhecido, o fator de correcao de selecionamento e
dado por
1
P
R
z1
ni=1 (zi )
R
n
z2 . . . zn i=1 [1 (zi )]
3.3.7
CO
onde
substitui quando z e discreto. O denominador e equivalente a
probabilidade do heredograma ter pelo menos um probando, que e por sua
vez igual a 1 - probabilidade do heredograma nao ter probandos.
Testes de hip
oteses gen
eticas
NO
T
1. Testar a hip
otese
e,
p de Hardy-Weinberg: H0 : Aa = 2 AA aa , isto
2
2
2p(1 p) = 2 (1 p) p .
2. Testar a hip
otese de transmissao mendeliana: H0 : AA = 1, Aa =
1/2, aa = 0
3. Testar a hip
otese de que nao ha componente poligenico, assumindo
transmiss
ao mendeliana: H0 : g2 = 0.
DO
4. Testar a hip
otese de que nao ha um gene principal, assumindo transmiss
ao mendeliana: H0 : AA = Aa = aa ou AA = Aa = 0.
3.4
Modelos regressivos
85
PY
CO
Estes modelos foram desenvolvidos por Bonney (1984, 1986) e eles sao
mais flexveis que os modelos propostos anteriormente porque eles permitem uma estrutura de correlac
ao mais flexvel para o componente poligenico
e computacionalmente s
ao mais razoaveis para heredogramas de estrutura
complexa (ou de tamanho grande). Estes modelos sao classificados como
dependentes de relac
oes biol
ogicas. O modelo regressivo classe A considera
a distribuic
ao poligenica de um indivduo condicionada na distribuicao dos
pais independentes e a correlac
ao poligenica da irmandade e uma funcao da
correlac
ao poligenica dos pai-filho e conjuges. O modelo regressivo classe B
ou C considera, alem da dependencia dos pais, a dependencia dos irmaos
mais velhos, i.e., a distribuic
ao poligenica dos irmaos mais novos condicionada na distribuic
ao dos pais e dos irmaos mais velhos sao independentes.
O modelo regressivo classe D considera a distribuicao poligenica de um indivduo condicionada na distribuicao dos pais e na soma dos componentes
dos irm
aos mais velhos independentes. No caso de famlias nucleares, os modelos mistos e unificados s
ao casos especiais desta classe. Antes de explicar
estes modelos em detalhes, vamos primeiramente revisar o seguinte teorema:
0
NO
T
y1
y2
1
2
eV
y1
y2
P P !
P11 P12
.
12
22
Entao a distribuic
ao de y1 | y2 e uma normal multivariada com
P0 P1
P
P
P0 P P
1.2 = 1 + 12 22 (y2 2 ) e 1.2 = 11 12 1
12 .
22
DO
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
86
V (yi ) = 2 ,
.
.
.
.
F M
P O
, V = 2 .
F M
1
P O
.
.
.
P O
P O P O
P O
.
1
.
.
.
SS
.
.
.
SS
.
.
.
. P O
.
.
.
.
.
.
.
.
.
1
CO
P O
NO
T
2
2
F M
2 F M
2
!!
Ent
ao a media condicional e a variancia condicional sao representadas
por
E(yM | yF ) = + F M (yF ),
V ar(yM | yF ) = 2 (1 2F M ),
3. A distribuic
ao de y1 | yF , yM e uma normal trivariada com
DO
yF
yF
2
2
E yM = , V yM = F M
y1
y1
2 P O
2 F M
2
2
P O
2 P O
2 P O .
2
Ent
ao a media condicional e a variancia condicional sao representadas
por
E(y1 | yF , yM ) = +
P O
P O
(YF ) +
(YM ),
1 + F M
1 + F M
87
w1 = V ar(y1 | yF , yM ) =
22P O
1
1 + F M
com
z1 = y1 b1F (YF ) b1M (YM )
P O
1+F M
em que b1F =
e b1M =
P O
1+F M .
PY
CO
4. Calculamos as distribuic
oes de y2 | yF , yM , y1 , y3 | yF , yM , y1 , y2 ate
yc | yF , yM , y1 , . . . , yc1 da mesma forma que o item 3, para obter
P
zi = yi biF (yF ) biM (yM ) i1
j=2 bij (yj ) e wi , para
i = 1, 2, . . . , c, em que
"
biF = biM
bij =
(i 1)(SS 22P O )
P O
1
=
1 F M
1 SS + (i 1)(SS 22P O )
1 SS
SS 22P O
, j = 2, . . . , i 1
+ (i 1)(SS 22P O )
NO
T
= yF uF
zM
= yM uM bM F (yF uF )
DO
onde
P (ui ) =
...
uc
ui
PuF uM ui
para i = F ou M
para i = 1, 2, . . . , c
Portanto, a func
ao e escrita como
X
P (uF )(zF , wF )
uF
uM
X
u1
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
88
...
P (ui )(zi , wi ).
uc
NO
T
CO
A somat
oria m
ultipla e necessaria por causa da dependencia entre a irmandade.
O modelo regressivo mais utilizado e o classe D por causa da sua propriedade de que os resduos do genotipo principal (RGP) de um indivduo
s
ao independentes dos RGP dos ancestrais condicionados no RGP dos pais
e irm
aos, i.e., o fen
otipo de um indivduo depende do fenotipo dos ancestrais somente atraves dos genotipos e fenotipos dos pais e dos irmaos. Para
famlias nucleares, os modelos regressivos classe D incluem o modelo misto
como caso especial. Para famlias de estruturas complexas, eles sao aproximados. Bonney (1984) mostrou que a diferenca na correlacao dos RGP dos
av
os-netos no modelo misto nao pode exceder 1/16. O modelo regressivo
classe D pode ser facilmente estendido para incluir regressao de mae-filho e
pai-filho, vari
ancia para sexo e genotipo especifico, i.e., um modelo dependente de covariadas pode ser escrito como
zi = yi i 2 xi1 2 xi2 . . .
3.4.1
Fen
otipos bin
arios
Quando o fen
otipo e binario , usamos o modelo classe A. Neste caso, em
vez de uma regress
ao linear, o modelo pode ser escrito como uma regressao
logstica (Bonney, 1986).
e yi i
,
P (yi ) =
1 + ei
yi = 0 ou 1, e
i = ui + M (yM ) + F (yF ) + S (yS ) + 1 xi + 2 x2 + . . .
DO
Assumimos que o ajuste familiar permite dependencias, tal que a verossimilhanca para uma famlia nuclear pode ser representada por
P (yF , yM , y1 , y2 , . . . , yc ) =
e yi i
eyF F eyM M c
1 + eF 1 + eM i=1 1 + ei
3.4.2
89
PY
CO
NO
T
DO
Outra definic
ao importante e a de susceptibilidade (). A susceptibilidade e definida como sendo a probabilidade de que uma pessoa selecionada
aleatoriamente na populac
ao seja afetada pela doenca quando sua idade
atingir o infinito. Ent
ao definimos as pessoas na populacao que nunca ficarao afetadas como sendo 1 . Somente as pessoas susceptveis terao
uma idade de incio da doenca. Normalmente, assumimos que a idade de
incio da doenca, a, tem uma densidade f (a) e uma distribuicao acumulada
F (a). Ent
ao, para um indivduo na populacao, definimos a sua susceptibilidade como sendo f (a), para um indivduo com a idade do incio da doenca
0
conhecida a, F (a ), para um indivduo afetado com a idade de incio da
0
doenca desconhecida, mas com a idade do dia do exame conhecida, a , e
0
1 F (a ) para um indivduo afetado com a idade do dia do exame co0
nhecida, a . Quando estas func
oes sao genotipos especficos, elas podem ser
CAPITULO 3. ANALISE
DE SEGREGAC
AO
PY
90
e+a
(1 + e+a )2
e+a
1 + e+a
CO
F (a) =
2
NO
T
e+a
1 + e+a
0
Ent
ao a chance de ser afetado na idade a e e+a e o logaritmo da chance
0
ser
a + a , que significa que o log da chance aumenta pelo fator para
0
cada unidade (ano) aumentada em a . Se o log da chance para um indivduo
0
com gen
otipo G e G + a entao para os indivduos susceptveis da mesma
idade, o aumento no log da chance para os indivduos portadores do gene
0
0
dominante A e (A. + a ) (aa + a ) = (A. aa ).
3.4.3
An
alise condicional dependendo do selecionamento
DO
No caso de selecionamento para que os estimadores de maxima verossimilhanca sejam consistentes da populacao, a funcao de verossimilhanca tem
que ser condicionada no evento que causa a famlia ser selecionada e, diferentes criterios de amostragem podem causar mais vcio do que outros, sendo
este vcio maior em certos parametros que em outros. Condicionando em
outros eventos, alem do selecionamento, pode dar resultados validos ou nao
v
alidos. Quanto mais condicionamento e usado menos eficientes sao os es importante esclarecer quando probandos nao sao selecionados
timadores. E
91
PY
CO
P(nao afetado)
0.0
0.5
1.0
NO
T
Gen
otipo
A1 A1
A1 A2
A2 A2
DO
Os par
ametros de transmiss
ao sao dados na Tabela 3.2.
Seguindo a notac
ao matricial desenvolvida por Smith (1976), o processo
seq
uencial condicional (equivalente ao processo de peeling de Cannings e
colegas (1978)) pode ser pensado como uma aplicacao serial de princpios
CAPITULO 3. ANALISE
DE SEGREGAC
AO
PY
92
CO
NO
T
Para um u
nico locus ligado ao X, as probabilidades de transmissao analogas
dependem do sexo da prole
DO
Tipo de
Acasalamento Paternal
A1 A1 A1 Y
A1 A1 A2 Y
A1 A2 A1 Y
A1 A2 A2 Y
A2 A2 A1 Y
A2 A2 A2 Y
Genotipo da
A1 A1 A1 A2
1
0
0
1
1/2
1/2
0
1/2
0
1
0
0
Filha
A2 A2
0
0
0
1/2
0
1
Genotipo do Filho
A1 Y A2 Y
1
0
1
0
1/2
1/2
1/2
1/2
0
1
0
1
A func
ao de verossimilhanca obtida e um polinomio complexo em termos
das freq
uencias alelicas p e q. Os coeficientes deste polinomio sao funcoes da
penetr
ancia e dos par
ametros de transmissao que sao fixados neste exemplo.
importante ressaltar que outras seq
E
uencias do peeling aplicadas ao mesmo
93
PY
DO
NO
T
CO
heredograma fornecer
ao verossimilhancas identicas, se os passos condicionais
sao feitos corretamente e toda a informacao disponvel e usada. Em outras
palavras, se o caminho reverso para este heredograma foi usado (onde o
G, J, K e L foram peeled em F; entao A, B, E e F foram peeled em D; e,
finalmente, C, D e I foram peeled na crianca nao afetada H), a funcao de
verossimilhanca teria o mesmo valor, como mostrado na Tabela 3.3. Para
qualquer heredograma, v
arias seq
uencias do peeling validas existem, mas
algumas s
ao computacionalmente mais eficientes do que outras.
Alem de avaliar a func
ao de verossimilhanca total para este modelo genetico em particular, como uma funcao de freq
uencias alelicas, este metodo
seq
uencial condicional e u
til para calcular a probabilidade de qualquer indivduo ter um determinado gen
otipo. No exemplo em questao, o vetor final
(3 1) de probabilidades genotpicas obtidas ao final do processo de peelingpode ser convertido em uma probabilidade apropriada para esta pessoa
pela simples divis
ao de cada elemento vetorial pela propria verossimilhanca.
Logo, se os fen
otipos de L s
ao desconhecidos porque ele ainda nao nasceu
(ou ainda n
ao foi concebido), o risco de algum(a) filho(a) de F e G poderia
ser facilmente calculado para qualquer valor dado da freq
uencia alelica ou
dentro de um intervalo de freq
uencias.
Claramente, este processo e muito exaustivo para calculo manual, mas
e instrutivo em v
arios nveis. Primeiro, esta notacao matricial permite ver
a contribuic
ao de cada indivduo na verossimilhanca total e em que pontos certos gen
otipos s
ao excludos por certos indivduos. Segundo, indo
pelo heredograma sistematicamente desta maneira, pode-se assegurar que
as combinac
oes geneticas menos provaveis nao sao ignoradas. Por exemplo,
se a caracterstica e um doenca genetica rara e facilmente diagnosticada, e
razoavel assumir que F e heterozigoto e G e homozigoto para o alelo normal, o que significa que o risco de L e 0.5, ignorando a possibilidade de nova
mutac
ao. No entanto, se a caracterstica e comum e/ou imperfeitamente
identificada, a contribuic
ao dos termos representando outros genotipos para
F e G pode ter um papel mais importante na determinacao do risco de
L. Para finalizar, a probabilidade de G ser heterozigoto ou F ser homozigoto para o alelo mutante deveria ser considerada. O calculo dos riscos
desta maneira sistem
atica levar
a em conta todas as possveis combinacoes
genotpicas.
CAPITULO 3. ANALISE
DE SEGREGAC
AO
PY
94
Passo I: Peel C, H e I em D
CO
Tabela 3.3: C
alculo da funcao de verossimilhanca de um modelo autossomico
com 50% de risco para o heterozigoto no heredograma da Figura 3.1
0.0
0.5
1.0
0.5
0.5
0.5
1.0
0.5
0.0
0.0
0.0
0.0
0.0
0.25
0.5
0.0
0.5
1.0
1.0
0.5
=
0.0
NO
T
1.0
0.5
0.0
0.5
0.25
0.0
0.0
0.0
0.0
DO
0.0
0.25
0.5
0.25
0.5
0.75
0.5
0.75
1.0
1.0
0.75
0.5
0.75
0.5
0.25
0.5
0.25
0
95
PY
CO
(cd)HI = (cd)I
(cd)H =
0
.19
.25
.19
.25
.19
.25
.19
0
4. Condicione D em C
NO
T
dCHI
= (I c? ) (cd)HI
0 pq q 2 0 0 0 0 0
0 0 pq q 2 0 0
0 0 0 0 0 0 0 pq
0 0
0
100
= 010 pq (cd)HI
q2
001
q2
0
.19
.25
.19
.25
.19
.25
.19
0
.19pq + .25q 2
= .25pq + .19q 2
.19pq
DO
p2
?
Considerando que C n
ao e afetado, c = 2pq
q2
0
0
0.5 = pq
1.0
q2
CAPITULO 3. ANALISE
DE SEGREGAC
AO
PY
96
CO
0
0
?
d = dCHI 0.5 = .13pq + .09q 2
1.0
.19pq
Passo II; Peel A, B, D, E em F:
1. Condicione A & B em D:
NO
T
?
(ab)D = T d =
0
.06pq + .05q 2
.13pq + .09q 2
.06pq + .05q 2
.11pq + .05q 2
.16pq + .05q 2
.13pq + .09q 2
.16pq + .05q 2
.19pq
2. Condicione A & B em E:
DO
(ab)E = T e =
0
0.25
1.0
0.25
0.5
0.75
0.5
0.75
1
97
PY
(ab)DE = (ab)D
(ab)E =
0
.016pq + .012q 2
.125pq + .094q 2
.016pq + .012q 2
.055pq + .023q 2
.117pq + .035q 2
.063pq + .047q 2
.117pq + .035q 2
.188q 2
4. Incorpore fen
otipo em A
0
p2
= pq 2pq (ab)DE
q2
q2
NO
T
(ab)? = (a b) (ab)DE
CO
0
0
0
4
2
.016p q + .012p3 q 3
.109p3 q 3 + .047p2 q 4
.117p2 q 4 + .035pq 5
.063p3 q 3 + .047p2 q 4
.234p2 q 4 + .070pq 5
.188q 6
DO
p2
0
0
a = 2pq 0.5 = pq
q2
1.0
q2
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
98
6. Incorpore fen
otipo em F:
f? = fAB
CO
1
.008p4 q 2 + .033p3 q 3 + .012p2 q 4
0.5 = .004p4 q 2 + .048p3 q 3 + .123p2 q 4 + .053pq 5
0
0
NO
T
(fg)J = Tj =
(fg)K = Tk =
0
0.25
0.5
0.25
0.5
0.75
0.5
0.75
1
DO
?
?
f g = f pq =
q2
0
5
3
.008p q + .033p4 q 4 + .012p3 q 5
.008p4 q 4 + .033p3 q 5 + .012p2 q 6
0
5
3
4
4
.004p q + .048p q + .123p3 q 5 + .053p2 q 6
.004p4 q 4 + .048p3 q 5 + .123p2 q 6 + .053pq 7
0
0
0
99
(fg)?JK
0
.001p5 q 3 + .006p4 q 4 + .002p3 q 5
.002p4 q 4 + .008p3 q 5 + .003p2 q 6
0
.001p5 q 3 + .012p4 q 4 + .031p3 q 5 + .013p2 q 6
.001p4 q 4 + .009p3 q 5 + .023p2 q 6 + .010pq 7
0
0
0
NO
T
CO
PY
= T (fg)?JK
DO
PY
CAPITULO 3. ANALISE
DE SEGREGAC
AO
DO
NO
T
CO
100
PY
CO
Captulo 4
An
alise de Liga
c
ao
DO
NO
T
O objetivo da an
alise de ligacao e localizar genes que causam doencas
geneticas nos cromossomos do genoma humano. Isto e realizado atraves de
coleta de heredogramas, pequenos ou grandes, com dois ou mais indivduos
afetados com a doenca. Dependendo de quanto se conhece do mecanismo de
transmiss
ao da doenca (ou quanto se pode estimar dos dados), podemos realizar an
alise de ligac
ao parametrica ou nao-parametrica. A analise de ligacao
parametrica requer algum conhecimento da transmissao da doenca, como heranca dominante ou recessiva, penetrancia, razao de fenocopia, freq
uencia
alelica. A an
alise de ligac
ao parametrica e freq
uentemente usada quando a
doenca e bem caracterizada ou quando grandes heredogramas com m
ultiplos
afetados est
ao disponveis, de forma que alguns dos parametros podem ser
estimados dos dados. Quando a forma da heranca e desconhecida ou mais
que um gene est
a envolvido, e/ou pequenos heredogramas com dois ou mais
indivduos afetados est
ao disponveis , realizamos analise de ligacao naoparametrica, que geralmente requer menos suposicoes.
Ligac
ao e a tendencia dos alelos em diferentes loci localizados no mesmo
cromossomo de serem transmitidos juntos, implicando numa associacao intrafamiliar dos fen
otipos e gen
otipos. Geralmente, esta associacao nao e
observada na populac
ao .
Cromossomos hom
ologos segregam de modo independente. Alelos para
locus de um mesmo cromossomo podem co-segregar para uma razao relacionada com a dist
ancia entre eles no cromossomo. Tal razao e a probabilidade
do evento recombinante ocorrer entre os dois loci ou fracao de recombinacao,
denotada por .
A frac
ao de recombinac
ao varia entre zero (quando os loci estao muito
101
CAPITULO 4. ANALISE
DE LIGAC
AO
PY
102
DO
NO
T
CO
pr
oximos) e 0.5 (quando estao muito distantes ou em cromossomos diferentes). Portanto, pode ser empregada como uma medida de distancia genetica,
bastante funcional para pequenas distancias. Entretanto, a fracao de recombinac
ao n
ao e uma medida de distancia aditiva (devido `a possibilidade de
ocorrencia de m
ultiplos crossing-overs).
A unidade de medida de ligacao genetica e a extensao genetica de um
cromossomo no qual se observa, em media, um evento de recombinacao
por meiose. Esta unidade e conhecida como Morgan. Um centiMorgan
(cM) e a extens
ao genetica na qual se observa uma recombinacao 1% das
vezes. Um cM e aproximadamente um milhao de pares de bases. Esta
estimativa sugere que cada cromossomo possui um comprimento aproximado
de 100 a 300 cM. Portanto, estima-se que ha, em media, 1 a 3 eventos de
recombinac
ao por cromossomo por meiose. Este fato e importante de ser
mencionado porque reforca o conceito da individualidade genetica humana,
isto e, um cromossomo herdado por uma crianca de um dos seus pais, jamais
e exatamente igual a uma das copias daquele cromossomo original. Na
realidade o cromossomo da crianca e uma colcha de retalho formada por
partes alternadas do cromossomo dos avos.
Dois loci s
ao ditos geneticamente ligados quando 0. O objetivo da
an
alise de ligac
ao e estimar e testa-lo contra a hipotese H : < 0.50. A
e uma proporcao de recombinacao
estimativa da frac
ao de recombinacao, ,
(proporc
ao de indivduos que possuem um cromossomo recombinado) em
todas as oportunidades para recombinacao e, inicialmente, varia no intervalo [0, 1]. Entretanto, a estimativa de maxima verossimilhanca e definida
no conjunto de valores admissveis do parametro, assim nao excede 0.50.
Quando h
a um crossing-over, metade dos gametas resultantes continuam
sendo n
ao recombinantes. Portanto, se um crossing-over ocorre a cada meiose, metade dos gametas continuam originais. Assim, pode alcancar, no
m
aximo o valor 0.5.
O termo ligac
ao refere-se a locus e nao para associar alelos `a locus. Nao e
correto dizer que o gene de uma determinada doenca esta ligado com o alelo
A pelo locus marcador. Isto e mais apropriado de ser usado nos estudos de
associac
ao, nos quais o objetivo e determinar a associacao entre um alelo do
gene candidato e o fenotipo de interesse.
Consideremos os alelos Tf e Mf herdados do pai , e Tm e Mm sao os
alelos herdados da m
ae. Entao definimos como a fracao de recombinacao,
a probabilidade de um gameta ser Tf Mm ou Tm Mf que, por sua vez, e a
probabilidade de um n
umero impar de crossing-over ocorrer entre 2 loci.
Consideremos a seguinte situacao. Dois loci com 2 alelos produzem 10
Ab
gen
otipos: AABB, AABb, AAbb, AaBB, AB
ab ou aB , Aabb, aaBB, aaBb,
GENETICA
4.1. RECOMBINAC
AO
4.1
AB
ab
Ab
aB ,
PY
aabb. Os gen
otipos,
103
Recombina
c
ao gen
etica
DO
NO
T
CO
deEste fen
omeno est
a intimamente ligado com a meiose celular. E
vido a ocorrencia de recombinacao que existe um aumento na variabilidade
genetica, conferindo igual variac
ao aos descendentes de uma especie formados a partir dessas celulas.
De forma resumida, pode-se dizer que a recombinacao baseia-se em quebras que ocorrem enquanto os cromossomos homologos estao emparelhados,
sendo que estas quebras sempre atingem duas cromatides irmas em pontos
correspondentes e s
ao seguidas de soldadura. Sua localizacao e casual, variando de celula para celula e o n
umero de recombinacoes e muito irregular.
As crom
atides que trocam pedacos, na seq
uencia da meiose, serao os novos
cromossomos que se distribuir
ao entre as celulas filhas e, dessa forma, o conjunto genico recebido pelos descendentes depende do resultado das trocas
ocorridas durante o processo de divisao celular.
No c
alculo da dist
ancia entre genes ao longo de um cromossomo, empregase a freq
uencia de recombinac
ao, pois esta depende da distancia entre os
pontos nos quais ocorrem as quebras e permutas. Na recombinacao, os alelos apenas trocam de posic
ao dentro do par de cromossomos homologos, de
modo que a estrutura e a func
ao cromossomica permanecem inalteradas.
Esse processo n
ao deve ser confundido com mutacao.
Na formac
ao de um gameta, os dois homologos sao copiados de cada
par de cromossomos. Na distribuicao de cromossomos homologos, a selecao
de qualquer um deles proveniente do pai ou da mae para uma celula filha
e aleat
oria. Quando os pares de cromossomos homologos alinham-se, pode
ocorrer um processo chamado de crossing-over, o qual resulta na recombinacao genetica.
Recombinac
oes ocorrem freq
uentemente e o n
umero de crossing-over depende do tamanho do cromossomo. Dessa forma, pode-se relacionar fracao
de recombinac
ao com dist
ancia genetica.
O fundamento da An
alise de Ligacao e que eventos de recombinacao ocorrem entre dois loci geneticos (genes, marcadores, aberracoes cromossomicas,
etc) segundo uma raz
ao relacionada com a distancia entre eles em um mesmo
cromossomo, isto e, loci que est
ao muito proximos tendem a serem herdados
juntos, conforme a Figura 4.1.
Quando os loci s
ao fisicamente distantes, maior torna-se a chance de
a
b
CO
A
B
PY
CAPITULO 4. ANALISE
DE LIGAC
AO
104
a
b
A
B
A
B
a
b
NO
T
crossing-over e, conseq
uentemente, a de recombinacao. Assim, de acordo
com a Figura 4.1, a presenca de recombinacao e um indicador da ausencia
de ligac
ao.
A Tabela 4.1 apresenta um sumario das possibilidades em uma analise
de ligac
ao.
Tabela 4.1: Resumo de Recombinacao
DO
Freq
uencia de
Crossing-Over
Ligac
ao
4.2
Mesmo Cromossomo
Muito Proximo Proximo Distante
Rara
Pouca
Freq
uente
Sim
0%
Sim
1-49%
Nao
50%
An
alise pontual e multipontual
Cromossomos
Diferentes
Freq
uente
Nao
50%
4.3. MODELO PARAMETRICO
A
B
A
b
a
B
CO
a
b
A
B
PY
105
a
b
recombinantes
NO
T
4.3
Modelo param
etrico
DO
Um teste de ligac
ao pode ser feito com um teste qui-quadrado (k recombinacoes e n k n
ao recombinac
oes comparadas com n/2 recombinacoes sob
H0 ). Mas, geralmente, n
ao e possvel contar o n
umero de recombinacoes
em heredogramas humanos. Portanto, podemos calcular a funcao de verossimilhanca com respeito a um conjunto de dados familiares se assumirmos
um modelo para cada locus e as probabilidades de transmissao de dois loci
dependendo de . Esta func
ao e representada por L(). Entao, assumiremos
CAPITULO 4. ANALISE
DE LIGAC
AO
PY
106
que:
CO
1. A distribuic
ao conjunta dos genotipos de um casal e geralmente considerada sendo o produto da distribuicao individual, a distribuicao do
locus do fen
otipo e geralmente estimada pela analise de segregacao
e, geralmente o locus do marcador mostra uma relacao 1-1 entre o
gen
otipo e o fen
otipo.
2. A distribuic
ao bivariada do fenotipo condicionada no genotipo e o
produto das duas distribuicoes univariadas.
3. A transmiss
ao genetica e definida como:
T M1 T M = 1/2(1 ) = T M1 tM
tM2
T M1 T M = 1/2 = T M1 tM
T M2
tM2
tM2
NO
T
4. N
ao h
a necessidade de usar o fator de correcao de selecionamento,
porque, se o selecionamento e atraves de uma das variaveis (geralmente o fen
otipo), entao ha uma independencia entre os dois loci na
populac
ao e, como o parametro a ser estimado e a fracao de recombinac
ao, a correcao feita pelo selecionamento se cancela na razao de
verossimilhanca.
Para testar a existencia de ligacao , as hipoteses sao
H0 : 0 = 0.5 (nao existe ligacao) contra H1 : 1 6= 0.5.
(4.1)
L(1 )
.
L(0 )
(4.2)
DO
(4.3)
(4.4)
4.3. MODELO PARAMETRICO
PY
107
A aplicac
ao mais comum de analise de ligacao e localizar, no genoma,
um gene respons
avel por uma doenca herdada de acordo com as leis Mendelianas.
Ent
ao, calculamos L() para varios valores de , (0,0.05,0.1,0.2,0.3,0.4,0.5),
e o resultado e representado como lod escores
L()
L(0.5)
CO
log10
L(M , F )
L(0.5, 0.5)
NO
T
Se as famlias s
ao independentes, o valor total dos lod escores e a soma dos
L()
pode ser
lod escores de cada famlia. Se os valor e escalar, 2 loge L(0.5)
2
comparado com uma 1 .
Nota: 2 loge (x) = 2 loge (10) log10 (x) ' 4.6 log10 (x).
Para o resultado ser significante, normalmemte o valor de
log10
L()
> 3,
L(0.5)
o que corresponde a
2 loge
L()
> 13.8
L(0.5)
DO
, para p valor = 103 104 , i.e., teste unilateral ( < 1/2 em vez de
6= 1/2). Assintoticamente, 25-30 informacoes completas das meioses nos
dao uma boa aproximac
ao para p-valores de 0.05 e 0.1. Entao, p 103
4
em vez de 10 . Porque o valor de p tem que ser pequeno? Para poder
permitir uma probabilidade a priori de ligacao entre dois loci aleatorios se
quisermos controlar a probabilidade de fazer um erro quando quisermos concluir que h
a ligac
ao ( 5%) (Morton, 1955). Entao, se a probabilidade a
priori e alta (gene candidato) n
ao necessitamos de um valor de p pequeno,
e nao necessitamos fazer correc
oes para marcadores m
ultiplos. Isto e baseado na suposic
ao de que estamos trabalhando com dois loci mendelianos.
Para uma doenca rara, a freq
uencia alelica nao e crtica para a analise de
ligacao, pois quando usamos os metodos de maxima verossimilhanca, erros no modelo, como n
umero de loci, forma de heranca familiar, valores dos
parametros, podem nos levar a estimativas inconsistentes, testes invalidos ou
falta de potencia do teste e, mais importante, as funcoes de verossimilhanca
PY
CAPITULO 4. ANALISE
DE LIGAC
AO
108
CO
4.4
Os padr
oes de heranca de uma determinada caracterstica sao diferentes
se o gene estiver nos autossomos ou nos cromossomos sexuais.
Na heranca autossomica dominante:
NO
T
DO
109
PY
4.5. ANALISE
DE DADOS FAMILIARES
3. A caracterstica n
ao e transmitida de pai para filho do sexo masculino.
Quando o traco dominante e ligado ao cromossomo X:
CO
1. Todas as filhas (mas nenhum dos filhos) de homens afetados apresentam o traco;
4.5
An
alise de dados familiares
4.5.1
NO
T
Aqui ser
ao realizadas an
alises de 2 pontos: um locus marcador e outro
da caracterstica de interesse. Os haplotipos dominantes sao representados,
respectivamente, como D no locus da doenca e 1 no marcador. Quadrados
representam indivduos do sexo masculino e figuras pintadas representam
indivduos afetados pela caraterstica de interesse.
Exemplo de an
alise:
doenca autoss
omica dominante - fase desconhecida
DO
1/2
1/1
CO
1/2
PY
CAPITULO 4. ANALISE
DE LIGAC
AO
110
1/2
1/2
1/1
1/1
NO
T
Cada uma das fases possui mesma chance de ocorrencia (sob a hipotese
de equilbrio de ligac
ao). Para proceder com a analise, e possvel analisar os
descendentes para contar as recombinacoes e as nao recombinacoes em cada
fase.
Pode ser retirado o que cada indivduo recebeu da mae e considerar o
heredograma reduzido (Figura 4.4), que inclui apenas os alelos derivados do
pai. H
a 3 hapl
otipos observados nos descendentes:
1. D2,
2. N1 e
3. N2.
DO
Fase 1: D1/N2
Fase 2: N1/D2
Fase 1:
Fase 2:
N2
D2
D2
N1
N1
N
R
R
N
R
N
R
N
R
N
4.5. ANALISE
DE DADOS FAMILIARES
PY
111
CO
(4.6)
(4.7)
NO
T
1 4
2 (1
) + 21 (1 )4
1
4
2 (0.5) (0.5)
+ 21 (0.5)(0.5)4
4 (1 ) + (1 )4
(0.5)4
(4.8)
(4.9)
DO
Como a func
ao lod escore e obtida tomando-se o logaritmo da verossimilhanca e o logaritmo e uma funcao monotona, tem-se que, maximizar
a func
ao Lod Score e equivalente a maximizar a verossimilhanca. Dessa
forma, o valor que maximiza o Lod Score e o estimador de maxima verossimilhanca da frac
ao de recombinacao . Nesse caso, o ponto maximo e
aproximadamente = 0.21 com Lod Score dado por:
Z( = 0.21) = log10 [(0.21)4 (1 0.21) + (0.21)(1 0.21)4 ] 4 log10 [0.5]
= 0.1249295.
(4.10)
PY
CAPITULO 4. ANALISE
DE LIGAC
AO
112
A an
alise de ligacao do heredograma (Figura 4.3) foi feita utilizando-se
o programa Linkage e foram obtidos os seguintes resultados:
Tabela 4.2: Analise do Heredograma 1
log10 (Verossimilhanca)
-8.592238
-8.489680
-8.519383
-8.582434
-8.613924
Lod Escore
0.021685
0.124243
0.094541
0.031489
0.000000
CO
0
0.1
0.2
0.3
0.4
0.5
NO
T
0.10
0.15
0.20
0.21
0.22
0.25
0.30
log10 (Verossimilhanca)
-8.592238
-8.513656
-8.489680
-8.488994
-8.489365
-8.495824
-8.519383
Lod Escore
0.021685
0.100267
0.124243
0.124930
0.124558
0.118099
0.094541
DO
4.6
Testes de homogeneidade
113
PY
CO
Ha v
arias formas de olhar este problema. Morton considerou a seguinte
situac
ao: se os heredogramas estao divididos em k grupos, e possvel que a
fracao de recombinac
ao seja diferente em cada classe? Se assumirmos que o
n
umero de meioses informativas em cada classe e grande, entao o teste sera
assintoticamente distribudo como 2k1 ou 22(k1) , quando considerarmos
duas vezes a diferenca nas func
oes de verosssilhanca se maximizarmos sob a
amostra total e sob cada classe separadamente. Por sua vez, Smith (1963)
considerou a seguinte situac
ao: se ha ligacao, em somente uma proporcao
dos heredogramas, ent
ao L(, ) = L() + (1 )L(1/2) com 0
1, 0 1/2. Quando testamos a hipotese de nao heterogeneidade,
H0 : = 1, o teste convergir
a para 1/2 21 + 1/2, i.e.,
P (teste < x) = 1/2 + 1/2P (21 < x)
e
NO
T
F 6= M . O teste de m
axima verossimilhanca, 2 loge L() loge L(M , F )
tem uma distribuic
ao assint
otica 21 .
4.7
Testes de heterogeneidade
DO
H0 =
= 1/2, e irrelevante
.
=
0, e irrelevante
PY
CAPITULO 4. ANALISE
DE LIGAC
AO
114
m
axima verossimilhanca, devido ao fato de que o parametro pode ser dife,)
4.8
Fun
c
oes de mapeamento
CO
Uma func
ao de mapeamento converte a fracao de recombinacao, 0
1/2, na dist
ancia aditiva genetica, x > 0, medida em Morgans (ou centiMorgans). Durante a epoca do cruzamento, cada par de cromossomo e representado como quatro cromatides. Para cada dois gametas que tem um crossingover, h
a dois gametas sem crossing-over. Cada crossing-over pode ser visto
microscopicamente como uma quiasma. Entao a distancia em Morgans entre
dois loci pode ser escrita como E(n
umero de crossing-over por cromatide) =
1/2E(n
umero de quiasma). Portanto, x
= . Ha varias funcoes de mapeamento.
NO
T
Dist
ancia em Morgans
x=
x = -[ln(1 - 2 )]/2
x = [tanh1 (2 )]/2
x = [tan1 (2 ) + tanh1 (2 )]/4
Morgan
Haldane
Kosambi
Carter & Falconer
A func
ao de mapeamento de Haldane resulta da suposicao de que os
eventos crossing-over sao independentes, resultando em uma distribuicao
Poisson. Por outro lado, se assumirmos que o n
umero de crossing-over tem
uma distribuic
ao negativa binomial, nos temos a seguinte funcao proposta
por Karlin,
h
i
1
x = 1/2N 1 (1 2) N ,
para = 1/2, x = 1/2N.
DO
4.9
An
alise n
ao-param
etrica
An
alise de ligac
ao envolvendo metodos de verossimilhanca assume que
a forma da heranca familiar e conhecido, o que nao e verdade para muitas doencas. Mas a ligacao da doenca com o marcador genetico produz
um metodo importante de detectar a segregacao genetica. Modelagem de
met
odos geneticos n
ao-parametrica sao baseadas na identidade por estado
4.9. ANALISE
NAO-PARAM
ETRICA
PY
115
4.9.1
Pares de irm
aos afetados
O m
etodo de Haseman-Elston (H-E)
CO
NO
T
onde a2 e a vari
ancia genetica aditiva e 2 e a variancia devido ao erro
ambiental. Se o locus do fen
otipo t esta em ligacao com o locus do marcador
m, com uma frac
ao de recombinacao , e jm sendo a proporcao de alelos
compartilhados IPD no locus do marcador para o j-esimo par de irmaos,
entao,
E(Yj | jm ) = + jm ,
DO
fij = P
PY
CAPITULO 4. ANALISE
DE LIGAC
AO
116
jm = f2j + 1/2f1j .
CO
P(0)
p4j
2p2j p2k
4p3j pk
4p2j pk pl
4p2j p2k
8p2j pk pl
8pj pk pl pm
P(i)
P(1)
1/2
1/4
1/2
1/2
1/2
P(2)
1/4
0
0
0
0
P(i)
P(1)
p3j
0
2p2j pk
0
pj pk (pj + pk )
2pj pk pl
0
NO
T
Gen
otipos
do par
Aj Aj Aj Aj
Aj Aj Ak Ak
Aj Aj Aj Ak
Aj Aj Ak Al
Aj Ak Aj Ak
Aj Ak Aj Al
Aj Ak Al Am
P(0)
1/4
3/4
1/2
1/2
1/2
P(2)
p2j
0
0
0
2pj pk
0
0
DO
Aj , Ak , Al , Am s
ao alelos distintos.
Este met
odo pode ser estendido para m
ultiplos locus e para fenotipos
qualitativos. Um problema com o metodo de H-E para analise de ligacao
pontual e que nem todos os pares na familia sao uteis. Eles sao ditos serem
n
ao informativos porque o n
umero de alelos compartilhados nao podem ser
calculados sem ambiguidade. Metodos que usam multiplos locus usam a
informac
ao dos marcadores na vizinhanca para estimar o IPD nestes casos
ambiguos, i.e., com marcadores polimorficos localizados proximos (cerca de
alguns cM). Este metodo e implementado nos pacotes S.A.G.E. e Genehunter.
As vantagens de usar pares de parentes afetados sao: nao ha penetrancia
incompleta porque estamos analisando so pares afetados, e as pessoas afetadas cooperam. As disavantagens sao: um grande n
umero de pares e necess
ario e presenca de casos esporadicos (fenocopias).
4.10. ANALISE
MULTIPONTUAIS
PY
4.10
117
An
alise multipontuais
CO
NO
T
yi = + Xi + ai + gi + i ,
DO
CAPITULO 4. ANALISE
DE LIGAC
AO
PY
118
NO
T
CO
Sij
onde i e j s
ao dois indivduos comparados e Sij = 0,1, ou 2, dependendo de
como os alelos s
ao compartilhados IPD. Se ha problemas em se determinar
a forma da heriditariedade, a estatistica Sij sera a media de todas formas
possiveis. Para se comparar Spairs com uma distribuicao estatistica, ela e
normalizada
Spairs E(Spairs )
Zpairs = q
var(Spairs )
DO
X h 2f
i=1 bi (h)!
119
PY
Pacotes de computadores
NO
T
4.11
CO
onde a e o n
umero de indivduos afetados num heredograma, h e o conjunto
de alelos gerado quando s
o um alelo e considerado para cada indivduo afetado (existem 2a possibilidades), 2f e o n
umero total de alelos fundadores
em um heredograma, i.e, o n
umero total de alelos de origens distintas que
sao diferentes, e bi (h) e o n
umero total de um especfico alelo fundador (i)
no conjunto (h). Esta estatistica e a media sobre todas as possveis formas de hereditariedade, normalizada, e ponderada sobre os heredogramas
da mesma maneira que a estatstica N P Lpairs .
O teste de signific
ancia e determinado atraves da comparacao do escore Z
com uma distribuic
ao normal padrao. O uso da distribuicao normal padrao
e uma aproximac
ao, e geralmente conservativa, i.e., o verdadeiro p-valor e
freq
uentemente menor que o p-valor obtido da tabela da distribuicao normal
padrao. Este metodo e implementado nos pacotes Genehunter e GenehunterPlus.
DO
5. Linkage realiza an
alise de ligacao parametrica para fenotipos qualitativos e quantitativos, usa heredogramas de tamanho grande mas poucos
marcadores.
6. Mendel realiza an
alise de ligaccao parametrica para fenotipos qualitativos e quantitativos, usa heredogramas de tamanho grande mas poucos
marcadores.
CAPITULO 4. ANALISE
DE LIGAC
AO
PY
120
CO
10. SOLAR realiza analise de ligacao nao-parametrica para fenotipos quantitativos, usa m
ultiplos marcadores e heredogramas de tamanho grande.
DO
NO
T
PY
CO
Captulo 5
An
alise de Dados
Moleculares
Introdu
c
ao
NO
T
5.1
A comparac
ao da variabilidade em um conjunto de seq
uencias, por
exemplo de HIV (human immunodeficiency virus), e fundamental para entender press
oes de selec
ao e outros processos dinamicos as quais essas seq
uencias
estejam sujeitas. Algumas das questoes que a metodologia deseja responder
a populacao
sao as seguintes. No caso do HIV, poderamos perguntar: E
viral mais homogenea no plasma do que no semen? A diversidade viral esta
sofrendo algum impacto dos agentes terapeuticos? Ao longo do tempo, a
diversidade viral se mantem em um determinado indivduo?
DO
5.2
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
122
NO
T
CO
Um grande n
umero de metricas tem sido construdas para medir distancias. Alguns exemplos dessas medidas sao a de Hamming, Nei e dist
ancia
de Mahalanobis, ... (Jorde, 1980; Lalouel, 1980; Chakraborty & Rao. 1991;
Seillier-Moiseiwitsch et al., 1994 entre outras). Elas estao em duas classes:
elas medem a variabilidade genetica dentre ou entre populacoes.
No presente contexto, um locus e simplesmente uma posicao ao longo
do genoma e os alelos, os aminoacidos ou nucleotdeos nessa posicao. Uma
populac
ao e um conjunto de seq
uencias com caractersticas comuns, como
estipulados pelo objetivo do estudo. Por exemplo, se o objetivo do estudo e
caracterizar a variac
ao global no gene envelope (env) do HIV, a populacao
de interesse e constituda de seq
uencias coletadas em diferentes pases, com
os subgrupos relevantes consistindo de seq
uencias do mesmo grupo. Para
ilustrar, num estudo longitudinal de diversidade, cada indivduo define uma
populac
ao e, conjunto de seq
uencias amostradas no mesmo tempo formam
os subgrupos a serem comparados. As metricas descritas abaixo sao apropriadas quando considera-se uma u
nica posicao ou um n
umero pequeno de
posic
oes, de tal forma que o n
umero total de possveis alelos nao seja muito
grande (com muitas posicoes, um alelo e constitudo de uma serie de labels, um para cada posicao). Em particular, elas sao u
teis para o estudo
conjunto das posic
oes da protease que escondem mutacoes resistentes a um
especfico inibidor dessa protease.
5.2.1
Medidas intrapopulacionais
Diversidade gen
etica
O Indice
de Simpson de diversidade ecologica (Simpson, 1949), tambem
conhecido como diversidade genetica (Nei, 1972; Lewontin, 1972) e uma
medida de variac
ao genetica num locus especfico. Se p1 , p2 , . . . , pk representam as verdadeiras freq
uencias populacionais dos k alelos em um locus,
a diversidade genetica nesse locus e
DO
h=1
k
X
p2i
(5.1)
i=1
123
PY
Indice de informa
c
ao de Shannon
O Indice
de informac
ao de Shannon
hs =
k
X
CO
que e n
ao-viciado (Nei & Roychoudhury, 1974; Nei, 1978).
pi loge pi
i=1
(5.2)
NO
T
k
X
i=1
k1
n
DO
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
124
CO
1
2 {h(p)
NO
T
ent
ao h(p) tem que ser da forma
"
h(p) = a 1
k
X
p2i
+b
i=1
onde a > 0 e b s
ao constantes. Este teorema, portanto, essencialmente
caracteriza o ndice de diversidade genetica (5.1) e seus relativos.
O Indice de Informac`ao de Shannon (5.2) e seus quatro ndices (Rao,
1982a; Rao & Boudreau, 1984),
Entropia de ordem alpha de Havrda e Charav
at
h (p) = [1
k
X
i=1
DO
hp (p) =
k
X
pi loge pi
i=1
k
X
(1 pi )loge (1 pi ),
i=1
hR (p) = (1 )1 loge (
i=1
Func
ao de -entropia
k
X
1/
pi ) ]/[1 21 ] for > 0, 6= 1,
h (p) = [1 (
i=1
125
PY
hH (p) =
" k
X
CO
pi
i=1
5.2.2
NO
T
e a base de uma outra metodologia para a unificacao das medidas de diversidade (Hill, 1973). Para v
arios valores de , reduz-se a conhecidos ndices.
Quando se comparam seq
uencias de DNA ou aminoacidos, as medidas de
diversidade acima envolvem um locus por vez. Elas seriam, portanto, inadequadas para o estudo de segmentos genomicos relativamente grandes. Se
assumirmos dependencia entre as posicoes, o Indice de Informacao de Shannon e sua vers
ao pareada podem ser medidas sobre todos os loci, por sua
propriedade de aditividade j
a citada. Entretanto, geralmente, em seq
uencias
de DNA, dependencias entre posicoes de nucleotdeos vizinhos sao fato concreto (Tavare & Giddings, 1989). Em seq
uencias de aminoacidos de HIV,
ligacoes entre as posic
oes j
a foram identificadas (Korber et al., 1993; Bickel
et al., 1996; Karnoub et al., 1999).
Medidas interpopulacionais
Dist
ancia de Mahalanobis
DO
D =
k1
X k1
X
(pi pi )V(pj pj )
(5.3)
i=1 j=1
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
126
vij =
2/(pk + pk )
for i 6= j, i, j = 1, 2, . . . , k 1
(5.4)
2/(pi + pi ) + 2/(pk + pk ) for i = j.
D2 =
CO
k
X
(pi pi )2
i=1
2 (pi + pi )
(5.5)
que e equivalente `
a dist
ancia de Sanghvi (Sanghvi, 1953). Quando {pi
pi , i = 1, ..., k} s
ao pequenos, (5.3) se aproxima da distancia de Bhattacharyya 2 (Bhattacharyya, 1946), definida por
cos =
k
X
pi pi
i=1
NO
T
Essas dist
ancias tem por objetivo principal a classificacao de populacoes
em detrimento de estudos evolutivos. Sob um modelo evolutivo definido, elas
n
ao seguem um padr
ao especfico: podem, por exemplo, deixar de crescer
com o tempo (Chakraborty & Rao, 1991).
Dist
ancia de Nei
k
1X
(pi pi )2
2 i=1
(5.6)
DO
Dm = ( J
J )2 + 2
J J (1 cos )
k
X
i=1
p2i , J =
k
X
i=1
p2i e e o angulo
5.2. MEDIDAS DE DIVERSIDADE GENETICA
PY
127
CO
(5.7)
k
X
pi pi ,
i=1
so depende do
angulo , visto que (Rao, 1982c)
DN = loge cos .
NO
T
Extens
oes para v
arios loci s
ao diretas: Dm deve ser calculada para cada
locus e, ent
ao, a media dessas estatsticas especficas para cada locus e calculada, enquanto que, para DN , os Js sao valores medios sobre os loci
considerados. DN e u
til nos estudos evolucionarios pois pode ser estimado
sob varios modelos (em termos de tempo evolucionario e tamanhos populacionais efetivos). Numa an
alise de aglomerados populacionais, como DN
nao e uma metrica pr
opria, Rao (1982c, 1984) sugere o uso de .
Dm e DN s
ao estimados pelo metodo dos momentos, por
b m = (1 Jb ) 1 [(1 Jb ) + (1 Jb )]
D
2
b N = log q
e D
e
Jb
Jb Jb
b e p
b
substituindo-se p e p por seus respectivos equivalentes amostrais p
b (Nei & Roychoudhury, 1974; Nei, 1978).
nos Js, a fim de obterem-se os Js
Os respectivos vcios dos resultantes estimadores sao
"
1 1 J 1 J
+
4
n
n
"
1 1 J 1 J
e
+
4 n J
n J
DO
e J , onde
para reduz-los, Nei (1978) substitui Jb e Jb por J
J
=
2 n
pb2i 1
2 n 1
2 n
e J
=
pb2i 1
2 n 1
5.2.3
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
128
Testando hip
oteses
b1 D
b2
D
b12 +
b22
CO
(Chakraborty & Rao, 1991). Com esses testes, podemos comparar diversib1 e D
b 2 estimativas
dade em dois loci ou duas populacoes. De fato, sejam D
da diversidade, respectivamente, entre n1 NSI e n2 SI seq
uencias num esb12 e
b22
pecfico stio de protease relacionada a resistencia a drogras. Se
denotam as estimativas de variancia para D1 e D2 , respectivamente, entao,
o teste a seguir
1/2
N (0, 1)
NO
T
n1
n +1
"
n1
5n(n 1) + 2 8(n 1)(n 2) 3(n 2)(n 3)
V (h) = 3
+
2n (1 + )
1 + )
2+
3+
n1
3
n
n1
2+
1+
!#
DO
Vb (h)1/2
N (0, 1)
129
PY
ENCIAS
5.3. DISTANCIAS
ENTRE SEQU
DE DNA
pode ser usado como um teste de neutralidade (Nei et al., 1976; Fuerst et
al., 1977).
Para comparac
oes entre populacoes, um teste baseado na distancia de
Sanghvi
k
X
i=1
(pi pi )2
n pi + n pi
2k1
CO
2 n n
NO
T
R
b m (, ; r) D
b m (, ; r)
1 X
D
r
R r=1
b m (, ; r) D
b m (, ; r)
V ar D
5.3
Dist
ancias entre seq
u
encias de DNA
DO
Para seq
uencias com grande divergencia, substituicoes m
ultiplas podem
ter ocorrido em stios muito polimorficos. O n
umero observado de diferencas de nucleotdeos subestima o real n
umero de substituicoes ocorridas
desde a divergencia entre as seq
uencias. Assim, para estudos comparativos
de seq
uencias de DNA (por exemplo, reconstrucao de relacoes filogeneticas
e avalic
ao de taxa de evoluc
ao), metodos estatsticos para estimacao do
n
umero de substituic
oes de nucleotdeos se baseiam em modelos de evolucao
molecular. Quando seq
uencias sao originarias do mesmo indivduo, nao e
muito prov
avel que tenham ocorrido repetidas mutacoes nos mesmos stios.
Nestes casos, a Dist
ancia de Hamming produz uma boa estimativa da real
distancia entre as seq
uencias.
5.3.1
Dist
ancias baseadas em modelos
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
130
CO
NO
T
Com a condic
ao inicial de que I(0) = 1,
1
I(t) = [1 + 3(1 8 + 162 )t ]
4
DO
K =
1
n FD (1 FD )
1 43 FD
onde n e o n
umero total de stios comparados (Kimura & Ohta, 1972).
Quando comparamos varias seq
uencias de cada dois grupos (geralmente
chamados de especies), devemos considerar a possibilidade de que quaisquer duas seq
uencias podem ser descendentes de diferentes seq
uencias na
131
PY
ENCIAS
5.3. DISTANCIAS
ENTRE SEQU
DE DNA
populac
ao ancestral. Seja S uma medida de similaridade intra-especie, que
depende do tamanho da populac
ao e da taxa de mutacao. Com a populacao
ancestral em equilbrio, (com relacao a mutacao e deriva genetica aleatoria),
b Levando
S e esperado permanecer constante com o tempo a algum valor S.
em conbsiderac
ao a variac
ao intra-especies, a distancia de Jukes-Cantor pode
ser modificada para
!
CO
KW
3
4Sb 1
= ln
4
4I 1
ni X
X
ni (ni 1)
i=1 j6=j 0
rijj 0
1
S = (S1 + S2 )
2
NO
T
Si
Se sjj 0 e o n
umero de bases identicas entre a seq
uencia j na populacao 1 e
seq
uencia j 0 na populac
ao 2, a similaridade entre populacoes e estimada por
I =
n1 X
n2
1 X
sjj 0
n1 n2 j=1 j 0 =1
1 1 4(+)t 1 8t
1 1
e
+ e
e Q Q(t) e8t .
4 2
4
2 2
DO
P e Q representam as proporc
oes de stios de nucleotdeos com, respectivamente, diferencas tipo transicao e transversao entre as duas seq
uencias
comparadas. Sob este modelo, k = + 2 e o n
umero de substituicoes
de nucleotdeos por stio por ano e, K = 2kt e o n
umero total de substituicoes de nucleotdeos por stio entre duas seq
uencias que divergiram do
seu ancestral comum t anos atr
as.
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
132
Tabela 5.1: N
umero de Substituicoes de Nucleotdeos
41 ln{1
( 2P 2Q)(1 2P 2R)(1 2Q 2R)}
w)
B1
2qA qT
p
3E12
pq ln
ln
F12 B1 +
pq
p
3qA qT
B1
2qC qG
q
3E34
ln
F34 B1 +
q
3qC qG
B1
CO
Par
ametros
1
2
3
DO
NO
T
duas seq
uencias consideradas, Q(t)
a proporcao de stios com TA ou CG,
e R(t) a proporc
ao de stios com TG ou CA:
P P (t) = [1 e4(+)t e4(+)t + e4(+)t ]/4
Q(t)
= [[1 e4(+)t + e4(+)t e4(+)t ]/4
Q
R R(t) = [1 + e4(+)t e4(+)t e4(+)t ]/4 .
Agora, o n
umero total de substituicoes de nucleotdeos por stio e K =
2( + + ) t.
No modelo de cinco par
ametros (Takahata & Kimura, 1981), w repre 1 , Q1 , P e Q sao
senta a frac
ao de A + T nas duas seq
uencias. S13 , S24 , Q
as frac
oes de stios tendo, respectivamente, AA ou TT, CC ou GG, AT,
GC, CT ou AG, e GT ou AC pares de nucleotdeos.
O modelo de seis par
ametros (Gojobori et al., 1982) e baseado no modelo
de tres par
ametros de Kimura (Kimura, 1981). Neste modelo, qA , qT , qC ,
e qG denotam, respectivamente, o conte
udo de A, T, C e G nas seq
uencias
em estudo:
p = qA + qT , q = qC + qG , B1 = pq (xAC + xAG + xT C + xT G )
E12 = (qA q xAC xAG )(qT q xT C xT G )
E34 = (qC p xAC xT C )(qG p xAG xT G )
F12 = xAA + xT T xAT p2 + 3qA qT e F34 = xCC + xGG xCG
q 2 + 3qC qG
onde xii representa a fracao de stios tendo o mesmo par de base i e, 2 xij (i 6=
ENCIAS
5.3. DISTANCIAS
ENTRE SEQU
DE DNA
PY
133
CO
DO
NO
T
Nucleotdeo Original
Modelo de Um Par
ametro
A
T
C
G
Modelo de Dois Par
ametros
A
T
C
G
Modelo de Tres Par
ametros
A
T
C
G
Modelo de Cinco Par
ametros
A
T
C
G
Modelo de Seis Par
ametros
A
T
C
G
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
134
NO
T
CO
j) a frac
ao de stios tendo diferentes pares de bases i e j (i, j = A, C, T, G).
Um processo de substituicao e dito ser tempo reversvel se a probabilidade de, comecando com o nucleotdeo i e mudando para o nucleotdeo j em
um intervalo de tempo, e a mesma da probabilidade de, comecando com j e
mudando para i no mesmo perodo, i.e., reversibilidade no tempo requer que
pij(t) i = pji(t) j para todo i e j e todo t; i e a probabilidade de equilbrio
do nucleotdeo i (Li, 1997) . Note que a reversibilidade no tempo se aplica
para os modelos de um, dois e tres parametros descritos na Tabela 5.2, pois
as matrizes de transicao sao simetricas e nos estamos assumindo freq
uencias
de bases iguais (i.e, i = 1/4 para todo i). Para os modelos de cinco e
seis par
ametros a propriedade de reversibilidade do tempo nao e valida, as
matrizes n
ao s
ao simetricas. Em reconstrucao filogenetica, se o processo e
tempo reversvel, qualquer no ou ponto da arvore pode ser tomado como o
n
o ancestral. Isto e devido ao chamado princpio da polia (pulley principal)
(Felsenstein, 1981). No entando, quando o processo nao e tempo reversvel,
n
os devemos selecionar uma seq
uencia para enraizar a arvore.
Todos os modelos descritos ate o momento assumem que as freq
uencias
de bases {A , C , T , G } sao iguais. Extensoes dos modelos acima com
a remoc
ao desta restricao tem sido propostos. Por exemplo, modelo de
Felsenstein (1981)
T
A
A T
A T
C
C
G
G
G
T
A
A T
A T
C
C
G
G
G
DO
1 T
1 A
2 A 4 T
3 A 5 T
2 C
4 C
6 C
3 G
5 G
6 G
5.3.2
Dist
ancia log determinante
135
PY
ENCIAS
5.3. DISTANCIAS
ENTRE SEQU
DE DNA
CO
d0xy
1
detFxy
ln q
4
(detFxx )(detFyy )
5.3.3
NO
T
Dist
ancia de Hamming
A Dist
ancia de Hamming e muito utilizada como analise descritiva (veja
Seillier-Moiseiwitsch et al. (1994) para uma revisao). Seja Xi = (Xi1 , Xi2 ,
. . . , XiK )0 um vetor representando a seq
uencia i de tamanho K. Xik e entao
o nucleotdeo ou amino
acido presente na posicao k. Considere Xi e Xi0 . A
dist
ancia de Hamming Hii0 e
Hii0
K
1 X
(Xik 6= Xi0 k )
K k=1
1
n
umero de posicoes onde Xi e Xi0 diferem
K
onde denota a func
ao indicadora (i.e., (A) = 1 se o evento A e verdade e
0 caso contr
ario). Enquanto esta distancia so deve ser tratada como uma estatstica descritiva em muitas situacoes, ela nos da uma estimativa razoavel
da atual dist
ancia quando as seq
uencias estao muito proximas em relacionamento (i.e., elas est
ao separadas por poucas replicacoes de tal forma que
numa posic
ao especfica, e muito raro ter ocorrido ambas, uma mutacao
reversa e forward).
DO
5.4
5.4.1
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
136
CO
1.0
0.0
1.1
1.6
1.4
1.1
0.0
0.7
NO
T
M=
0.9
1.6
0.7
0.0
DO
E=
0.0
0.5
0.8
0.6
0.5
0.0
0.5
0.9
0.8
0.5
0.0
0.4
0.6
0.9
0.4
0.0
Para fitas de DNA, esta matriz poderia guardar, por exemplo, se elas foram
amostradas do mesmo compartimento (com 0se elas sao e 1se nao sao).
5.4. MATRIZES DE DISTANCIA
PY
137
XX
mij eij
CO
NO
T
Sua distribuic
ao e obtida tomando as colonias numa ordem aleatoria para
uma das matrizes, i.e., a matriz M permanece como e e uma permutacao
aleatoria e escolhida para as colonias em E (chame esta matriz de ER ).
Z e ent
ao calculada a partir de M e ER . Repetindo-se este procedimento
utilizando todas as diferentes ordenacoes aleatorias para ER , obtemos a
distribuic
ao aleatorizada de Z. A ideia e que, se distancias ambientais e
morfol
ogicas n
ao s
ao correlacionadas, entao E e somente como uma das
matrizes de ordenac
ao aleat
oria ER e o Z observado e um tpico valor Z
aleatorio. Se as dist
ancias tem uma correlacao positiva (negativa), o Z
observado tende a ser maior (menor) do que os valores aleatorios.
Quando h
a poucas col
onias, e possvel calcular todos os valores de Z
aleatoriazados. A medida em que o n
umero de colonias aumenta, torna-se
impratic
avel enumerar todos os valores de Z aleatorizados. Entao, pode-se
fazer o teste de Mantel de duas maneiras. Gera-se um grande n
umero de
matrizes ER aleatorizadas e a distribuicao emprica dos valores de Z e uma
estimativa da verdadeira distribuicao aleatoria. Alternativamente, a media
E(Z) e vari
ancia V (Z) de Z aleatorio sao calculadas e, a distribuicao de
Z =
Z E(Z)
V (Z)1/2
AM =
L X
L
X
mij
BM =
DO
i=1 j=1
GM = A2M
AE =
GE =
L X
L
X
i=1 j=1
A2E
eij
L X
L
X
m2ij
DM =
i=1 j=1
HM = DM BM
BE =
L X
L
X
e2ij
i=1 j=1
HE = DE BE
L
X
L
X
i=1
mij
j=1
KM = GM + 2BM 4DM
DE =
L
X
L
X
i=1
eij
j=1
KE = GE + 2BE 4DE .
2BM BE +
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
138
KM KE
GM GE
4HM HE
+
L2
(L 2)(L 3) L(L 1)
L(L 1)
Z E(Z)
r="
BM
5.4.2
CO
A ligac
ao entre Z e o coeficiente de correlacao de Pearson entre os elementos
de M e E e a seguinte
G2M
L(L 1)
G2E
BE
L(L 1)
!#1/2
An
alise de vari
ancia molecular - AMOVA
NO
T
DO
(5.9)
(5.10)
5.4. MATRIZES DE DISTANCIA
PY
139
2 ) entre seq
Definimos uma dist
ancia metrica Euclidiana (jk
uencias Sj e Sk
como
2
jk
= (yj yk )0 W(yj yk ),
(5.11)
2
jk
=
S
X
CO
s=1
(5.12)
NO
T
D2 =
D211
D221
...
..
.
D212
D222
D22I
..
.
D2I1
...
...
D21I
..
...
.
. . . D2II
DO
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
140
N
X
)0 W(yj y
)
(yj y
j=1
1 X
N
1 NX
(y yk )0 W(yj yk ),
N j=1 k>j j
SQD(T otal) =
N
N X
1 X
(y yk )0 W(yj yk )
2N j=1 k=1 j
ou
CO
N
N X
1 X
2
2N j=1 k=1 jk
(5.13)
NO
T
(5.14)
DO
5.4. MATRIZES DE DISTANCIA
PY
141
entre populac
oes dentro de grupos (SQD(AP/W G) ) e variacao entre grupos
(SQD(AG) ).
Nig Nig
X
X
j=1 k=1
g=1 i=1
2Nig
(5.15)
CO
SQD(W P ) =
2
jk
Ig
G X
X
Nig Nig
X
X
Ig Nig Ig
i0 g
X
XXX
2
2
jk
jk
Ig
G
X
X
i=1 j=1 i0 =1 k=1
j=4 k=1
SSD(AP/W G) =
Ig
2N
ig
X
g=1
i=1
2N
ig
i=1
N
N X
X
G
X
i=1 j=1 i0 =1 k=1
NO
T
j=1 k=9
SSD(AG) =
2N
Mg Nig Ig
i0 g
X
XXX
2
jk
Ig
g=1
2Nig
(5.16)
2
jk
(5.17)
i=1
DO
X
2
Nig
Ig
G X
G
X
X
i=1
Nig
I
g
X
g=1 i=1
g=1
Nig
n=
i=1
G
X
g=1
Ig G
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
Ig
X
2
Nig
G
X
i=1
g
X
g=1
Nig
2
Nig
g=1 i=1
G Ig
XX
Nig
g=1 i=1
i=1
n0 =
Ig
G X
X
CO
G1
G
X
PG
g=1
PIg
i=1 Nig
Ig
X
Nig
g=1
i=1
Ig
G
XX
Nig
g=1 i=1
n =
PY
142
G1
NO
T
Total
N 1
PG
g=1 Ig
DM Q(W P )
e2
DO
Tomando valores esperados dos desvios quadrados medios (DM Q), podemos obter componentes de variancia de cada nvel hierarquico. A estrutura da an
alise e como a estatstica F descrita para o tratamento de
sistemas polim
orficos (Cockerham, 1969, 1973). Aqui tambem seria u
til empregar algo an
alogo para as medidas de correlacao entre seq
uencias, que
chamaremos de estatsticas . Teremos entao,
e2 = (1 ST ) 2 ,
b2 = (ST CT ) 2 ,
a2
(5.18)
= CT ,
5.4. MATRIZES DE DISTANCIA
PY
143
ST =
a2 + b2
,
2
CT =
a2
,
2
CO
SC =
b2
.
b2 + e2
(5.19)
Testando a signific
ancia dos componentes de vari
ancia e estatsticas
NO
T
DO
5.5
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
144
An
alise de vari
ancia para dados categ
oricos ou
seq
u
encias gen
omicas
NO
T
CO
DO
A motivac
ao aqui e apresentar modelos de an
alise de vari
ancia multivariada (MANOVA) e ferramentas de analise para dados categoricos de
dimens
ao elevada que sao qualitativos e nao ordenados. O foco cientfico
e a comparac
ao de seq
uencias genomicas do virus de imunodeficiencia humana (HIV). Por exemplo, se tivermos amostras de seq
uencias provenientes
de diferentes regi
oes geograficas para verificar se a variabilidade entre as
seq
uencias e similar em cada regiao. Estes sao exemplos tpicos de estudos
moleculares epidemiol
ogicos de seq
uencias genomicas que pertencem `a diferentes estratos, de tal forma que o componente entre-grupos pode precisar
ser particionado em v
arios subgrupos. Em todos esses casos a variavel resposta em cada posic
ao e o aminoacido ou o nucleotdeo. Logo, veremos uma
variac
ao qualitativa. Nesta situacao, os modelos classicos de MANOVA nao
s
ao apropriados. A elevada dimensao (i.e., varias posicoes) ainda aumenta
mais a complexidade da modelagem e do esquema de analise.
145
PY
5.5. CATANOVA
DO
NO
T
CO
O Indice
de biodiversidade Gini-Simpson (GSI) (Gini, 1912; Simpson,
1949) e expresso exclusivamente em termos de freq
uencias em cada categoria e e extremamente insensvel a qualquer informacao quantitativa que essas
categorias possam ter. Com base numa medida similar de diversidade, Light
e Margolin (1971, 1974) desenvolveram uma analise de variancia (CATANOVA) para dados categ
oricos para tabelas de contingencia sob um modelo
produto multinomial. Essa metodologia pode ser usada no presente contexto para comparar a variabilidade da resposta numa u
nica posicao, entre
e dentre grupos. Na an
alise de dados genomicos, uma u
nica posicao fornece
pouca informac
ao. Conseq
uentemente, precisamos de considerar regioes do
genoma. Para o HIV-1, as regi
oes de interesse variam de 35 a centenas de
amino
acidos. Geralmente, tanto a importancia relativa das posicoes como
seus padr
oes de dependencia estocastica podem ser desconhecidos.
Extrair informac
ao quantitativa de seq
uencias genomicas requer certo conhecimento de biologia molecular. Os conceitos basicos de biologia estao no
captulo 1. Baseados nos fundamentos biologicos, suposicoes para modelos
estatsticos e motivac
oes b
asicas sao apresentados na secao 5.5.1. Componentes de variac
ao s
ao derivados em analogia `a variac
ao para respostas quantitativas e diversidade para respostas qualitativas. Em qualquer dos casos, o
objetivo e decompor a variac
ao ou divergencia total em componentes identificaveis. Esses an
alogos com a Analise de Componentes de Variancia sao
apresentados em detalhes nas secoes subseq
uentes. Seq
uencias genomicas
nao sao consideradas em suas caractersticas individuais mas como contribuidoras na variabilidade total de uma distribuicao categorica com alta dimensao. A formulac
ao de uma medida de diversidade para dados desse tipo
e em si mesma uma tarefa estatstica complexa cuja solucao ainda nao foi
encontrada em toda sua generalidade. Para apresentar as ideias basicas de
forma simples, n
os particionamos as medidas de diversidade com respeito
a alguns fatores (usualmente de natureza epidemiologica), assumindo independencia entre as posic
oes e desenvolvemos uma estatstica de teste para a
hipotese nula de homogeneidade entre os grupos (Secao 5.5.7). Uma breve
ilustrac
ao em um conjunto de dados e feita na Secao 5.5.8.
5.5.1
Motivac
ao estatstica
Em an
alises de seq
uencias genomicas, encontramos dados com um grande
n
umero de posic
oes para v
arios grupos. Para cada posicao a resposta e
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
146
DO
NO
T
CO
categ
orica com 4 a 20 categorias. A natureza destas categorias (i.e., nucleotdeos ou amino
acidos) e totalmente qualitativa. Logo, lidamos com
conjuntos de dados como o que esta resumido na Tabela 5.4. As relacoes
espaciais dos stios podem nao ser conhecidas nem podem ser consideradas estatisticamente independentes. Neste contexto de dimensao elevada, e
difcil incorporar modelos de analises de variancia multivariada (MANOVA)
padr
ao e ferramentas de analises para fazer inferencia. Modelos de analise de
vari
ancia categ
oricas (CATANOVA) sao em geral mais apropriados nessas
situac
oes n
ao-padr
oes.
Light e Margolin (1971, 1974) desenvolveram um modelo CATANOVA
e um esquema de an
alise para tabelas de contingencia. Eles investigaram
as propriedades dos componentes de variacao sob um modelo multinomial
comum e, tambem estudaram o comportamento dos testes propostos para
pequenas amostras. Anderson e Landis (1980, 1982) estenderam o procedimento CATANOVA para tabelas de contingencia envolvendo varios fatores.
Uma analogia `
a an
alise de variancia de delineamento de experimentos nos
ajuda a entender sua estrategia: os grupos, seq
uencias e posicoes fazem o
papel dos blocos, plots e split plots, respectivamente. Como geralmente ha
um n
umero muito grande de stios (por exemplo, o V3 loop do gene env do
HIV contem 35 amino
acidos, i.e. 105 nucleotdeos). Fatores com um grande
n
umero de nveis criam problemas. O principal interesse e a diferenca entre
grupos, sendo as posicoes um fator secundario. Conseq
uentemente, ha uma
natural motivac
ao pelo uso de modelos do tipo MANOVA, em que se tratem as posic
oes como coordenadas de respostas multivariadas. No entanto,
devido ao grande n
umero de posicoes com relacao ao n
umero de seq
uencias,
a tradicional MANOVA pode acabar tendo pouco poder. Logo, modelagens
e esquemas de an
alise alternativos devem ser utilizados.
Como j
a comentado, nosso interesse principal e quantificar a heterogeneidade entre os grupos. Havendo K( 2) stios, nos estaremos diante de uma
formulac
ao MANOVA em que a dispersao entre os grupos sera testada contra a componente de variancia dentro dos grupos. Seja pcgk a probabilidade
(populacional) de uma unidade amostral pertencer `a categoria c, no grupo
g e posic
ao k (c = 1, . . . , C; k = 1, . . . , K; e g = 1, . . . , G). A hipotese nula
de homogeneidade dos G grupos pode entao ser formulada como
pcgk = pck g = 1, . . . , G
c = 1, . . . , C
k = 1, . . . , K.
147
CO
PY
5.5. CATANOVA
Grupo
1
1
..
.
Posic
ao
1
2
..
.
1
n111
n112
..
.
Categorias
2
...
n211 . . .
n212 . . .
..
.
...
1
Total
2
2
..
.
n11K
n11
n121
n122
..
.
n21K
n21
n221
n222
..
.
2
Total
...
G
G
..
.
n12K
n12
...
n1G1
n1G2
..
.
n22K
n22
...
n2G1
n2G2
..
.
n1GK
n1G
n1
n2GK
n2G
n2
Total
n11 = N
n12 = N
..
.
nC1K
nC1
nC21
nC22
..
.
n1K = N
n1 = N K
n21 = N
n22 = N
..
.
nC2K
nC2
...
nCG1
nCG2
..
.
n2K = N
n2 = N K
...
nG1 = N
nG2 = N
..
.
nCGK
nCG
nC
nGK = N
nG = N K
n = N GK
NO
T
1
2
..
.
...
...
...
...
C
nC11
nC12
..
.
DO
G
Total
TOTAL
...
1
2
..
.
K
...
...
...
...
...
...
...
...
...
...
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
148
para g = 1, . . . , G.
Nossa hip
otese nula pode, entao, ser, diretamente descrita pela propria
homogeneidade desses Pg s, sob as restricoes adicionais de que
C
X
pcgk = 1, k = 1, . . . , K e g = 1, . . . , G.
CO
c=1
2
DO
NO
T
149
PY
5.5. CATANOVA
DO
NO
T
CO
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
150
5.5.2
CO
Variac
ao em dados categ
oricos e seq
u
encias gen
omicas
NO
T
N
1 X
2=
=
(Xi X)
N 1 i=1
n
2
!1
X
(Xi , Xj ),
i<j
DO
N
X
= 1
onde X
Xi . De forma analoga, a soma dos quadrados e definida
N i=1
como
SS =
N
X
N X
N
X
1
2= 1
(Xi X)
(Xi Xj )2 =
2N i=1 j=1
N
i=1
d2ij (5.1)
1iN
151
PY
5.5. CATANOVA
dij =
CO
A variac
ao para respostas categoricas X1 , . . . , XN e
(5.2)
N X
N X
N
N
1 X
1 X
d2ij =
dij ,
2N j=1 i=1
2N j=1 i=1
(5.3)
onde dij e definido como em (5.2) (Gini, 1912). Assumindo cada resposta
um e s
o um valor entre C categorias possveis, os dados sao sumarizados
pelo vetor = (n1 , . . . , nC ), cuja componente ni e o n
umero de respostas
na categoria i (i = 1, . . . , C), de forma que
C
X
ni = N . Portanto, a variacao
i=1
nas respostas e
(
C
X
ni 2
NO
T
N
1 X
ni nj =
2N i6=j
2
DN
i=1
(5.4)
C
X
p2i
(5.5)
p2i ,
(5.6)
i=1
e sua vers
ao amostral
=1
0p
IS (p) = 1 p
C
X
i=1
DO
onde pi = ni /N (i = 1, . . . , C) representa a proporcao amostral. Chamaremos IS o ndice Simpson-Gini (GS) de diversidade. Desta forma,
DN =
N
IS (p)
2
As definic
oes (5.4) e (5.5) s
ao motivadas por duas propriedades:
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
152
(a) A variac
ao de N respostas categoricas e mnima se e somente se todas
pertencerem `
a mesma categoria, i.e., pi = 1, i = 1, . . . , C.
(b) A variac
ao de N respostas categoricas e maxima se e somente se as
respostas foram distribdas por todas as categorias da forma mais homogenea possvel, i.e., pi = 1/C, i = 1, . . . , C.
CO
C
X
pc log pc ,
c=1
NO
T
C
X
c=1
R(p) = (1 )
loge (
C
X
c=1
DO
153
PY
5.5. CATANOVA
IU GS =
C
X
c=1
CO
sob investigac
ao. Em particular, se nos colocarmos = 110 I, teremos
H(p) = 1 p0 p = IS (p). H
a dificuldades em se escolher um adequado
em nossa aplicac
ao, por ser a estrutura tridimensional das protenas praticamente desconhecida. Conseq
uentemente, para adotar a medida de entropria
quadr
atica de Rao, pode ser vantajoso explorar diferentes funcoes de utilidade. Sen (1999) considerou a seguinte medida
uc pc (1 pc ),
DO
NO
T
onde os uc s denotam os pesos de utilidade. No contexto de ndices de pobreza, Sen (1999) ilustrou o uso de apropriados pesos de utilidade. Ele
tambem apontou o valor de um tal ndice to tipo Gini-Simpson com orientacao de utilidade para estudos de qualidade de vida, entre outros. Para
seq
uencias gen
omicas, dependendo de seu tipo (aminoacidos or nucleotdeos),
podemos colocar pesos apropriados de acordo com sua importancia no espectro de diversidade. Para seq
uencias de nucleotdeos, substituicoes (do consenso) dentro do grupo de purinas ou do grupo de piramidinas podem nao
ser tao relevantes quanto substituicoes entre os grupos. Para aminoacidos,
pode ser a polaridade sua caracterstica crucial (enquanto outros aspectos,
como o tamanho, podem ser menos relevantes). Estes pesos de utilidade
podem ser escolhidos como n
ao-negativos ou pertencendo ao intervalo [0, 1].
Novamente, GS corresponde ao caso particular cujos pesos uc s sao todos
iguais a 1.
Se nosso interesse consiste de um u
nico stio com um certo n
umero
de respostas (qualitativamente diferentes), entao podemos utilizar um dos
ndices aqui discutidos na quantificacao das variacoes intra e entre os grupos. De fato, sob essa perspectiva, o problema se reduz a comparar algumas
populac
oes multinomiais (a menos da ordem das categorias) e o trabalho
de Light e Margolin (1971, 1974) e Nayak (1986a, 1986b) sobre CATANOVA e bastante pertinente. Sua implementacao e detalhada na proxima
secao. O problema, entretanto, e de que temos um certo (e grande) n
umero
de posic
oes e, portanto, estamos diante de um analogo multidimensional
dos procedimentos CATANOVA. Nos modelos MANOVA usuais (ou suas
extens
oes via modelos mistos), os padroes de dependencia das variaveisresposta s
ao fundamentais. Sob esse aspecto, como os stios nao sao em geral mapeados tridimensionalmente, identificar suas interacoes e, no mnimo,
uma tarefa difcil. Por essa raz
ao, na Secao 5.5.8, nos apresentamos uma
situac
ao tpica, ilustrada com a discussao da metodologia estatstica basica
e sugest
oes de formulac
oes vi
aveis na pratica.
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
154
5.5.3
CO
1
x11
x12
x13
..
.
x1N
x2N
NO
T
Seq
uencias
1
2
3
..
.
Grupos
2
3
...
x21 x31 . . .
x22 x32 . . .
x23 x33 . . .
..
..
..
.
.
.
x3N
...
G
xG
1
xG
2
xG
3
..
.
xG
N
Seja
dij =
6 Xjg
1 se Xig =
0 se Xig =
6 Xjg .
DO
o total n
umero de respostas e
NG =
G
X
g=1
ng =
C
X
c=1
nc =
C X
G
X
ncg
c=1 g=1
onde ncg e o n
umero de respostas na categoria c para o grupo g e N =
ng =
C
X
c=1
ncg e o n
umero de respostas para o grupo g, que e simplesmente o
155
PY
5.5. CATANOVA
n
umero de seq
uencias em cada grupo. o Indice Total de Simpson (IT S) e
T SI = 1
C
X
nc 2
(5.7)
NG
c=1
a dispers
ao dentro do g-esimo grupo (i.e., entre {xg1 , xg2 , . . . , xgN }) e
ncg
ng
c=1
!2
CO
C
X
(5.8)
G
C
X
ncg
1 X
1
ISW =
G g=1
ng
c=1
!2
C
G X
X
ncg 2
=1G
g=1 c=1
NG
(5.9)
NO
T
C
G X
X
ncg 2
g=1 c=1
NG
C
X
nc 2
c=1
NG
(5.10)
5.5.4
DO
Seguindo-se a notac
ao anterior, referimo-nos `a Tabela 5.4 e assumimos
g
g 0
haver K posic
oes em cada seq
uencia. Temos tambem Xgi = (Xi1
, . . . , XiK
)
e Xg = (Xg1 , . . . , XgN )0 . Para cada k (= 1, . . . , K), definimos IT S, ISB e
ISW da mesma forma que nas secoes anteriores; chamaremos essas medidas
de (IT Sk , ISBk , ISWk )0 . Portanto, consideramos uma matriz 3 K cujas
colunas s
ao os vetores (IT Sk , ISBk , ISWk )0 (k = 1, . . . , K). Lembre-se de
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
156
NO
T
CO
G
X
ng =
C
X
nc =
c=1
g=1
K
X
nk =
K
G X
C X
X
ncgk .
(5.11)
k=1
C
X
DO
c=1
ncgk
ngk
!2
=1
C
X
ncgk 2
c=1
C
X
c=1
ncg
ng
!2
=1
C
X
ncg 2
c=1
NK
(5.12)
157
visto que ng = N K.
Sao, portanto, as medidads de dispersao,
G
C
X
1 X
ncg
ISW =
1
G g=1
NK
c=1
IT S = 1
C
X
nc 2
c=1
N GK
ISB = IT S ISW = G
2 )
=1G
C
X
ncg 2
N GK
c=1
(5.13)
(5.14)
CO
PY
5.5. CATANOVA
G X
C
X
ncg 2
g=1 c=1
N GK
C
X
nc 2
c=1
N GK
(5.15)
5.5.5
NO
T
Na formulac
ao acima, n
os tratamos as K posicoes como estocasticamente
independentes. Na pr
oxima secao, discute-se esse ponto e descreve-se um
modelo probabilstico adequado.
O modelo probabilstico
Seja ncgk o n
umero de respostas na c-esima categoria, k-esima posicao, gesimo grupo e tome-se pcgk (> 0) como a probabilidade de sorteio da c-esima
categoria, k-esima posic
ao, g-esimo grupo (c = 1, . . . , C; k = 1, . . . , K; g =
1, . . . , G). Assumindo que respostas em diferentes grupos sao independentes,
para o g-esimo grupo e k-esima posicao, as respostas (n1gk , n2gk , . . . , nCgk )
seguem uma distribuic
ao multinomial
Pr{n1gk , n2gk , . . . , nCgk } =
onde
C
X
N
n1gk . . . nCgk
! C
Y
(pcgk )ncgk ,
(5.16)
c=1
pcgk = 1, k = 1, . . . , K e g = 1, . . . , G.
c=1
DO
Note que
E(ncgk ) = N pcgk
Cov(n
( c1 g1 k1 , nc2 g2 k2 ) = N pc1 g1 k1 pc2 g2 k2
1 se g1 = g2 e k1 = k2
onde =
0 c.c.
e
(5.17)
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
158
g=1 k=1
G Y
K
Y
g=1 k=1
N
n1gk . . . nCgk
! C
Y
(pcgk )ncgk
c=1
(5.18)
e um vetor
CO
Ent
ao, Vg (n1g1 . . . nCg1 n1g2 . . . nCg2 . . . n1gK . . . nCgK
CK 1 e V (V1 V2 . . . VG )0 e um vetor GCK 1 com
)0
(5.19)
= N (11 12 1K 21 2K GK )(5.20)
onde gk e uma matriz C C da forma
(5.21)
DO
NO
T
e assumamos que
ncgk , c = 1, . . . , C, g = 1, . . . , G; k = 1, . . . , K sao variaveis de Poisson
independentes com respectivos parametros cgk .
159
PY
5.5. CATANOVA
A lei de distribuic
ao conjunta para os ncgk s e agora dada por
C Y
G Y
K
Y
cgk
cgk
cgk
(ncgk )!
g=1 k=1
.gk
.gk
.gk
CO
G Y
K
Y
(5.22)
(n.gk )!
(5.23)
5.5.6
NO
T
DO
T=
1
1
(UKG IC ) =
T
(N GK)2
(N GK)2
(5.24)
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
160
1
IG
G(N K)2
Defina-se
h
M1 UK IC
1
W .
G(N K)2
Ent
ao,
G
[(IG UK ) IC ]
(N GK)2
CO
(5.25)
IT S = 1 V0 TV
ISW
Conseq
uentemente,
(5.26)
= 1 V WV
(5.27)
(5.28)
onde
NO
T
G
1
(UKG IC ) +
[(IG UK ) IC ]
(N GK)2
(N GK)2
G
1
1
IG UK ) UKG IC
B
(5.29)
2
(N GK)
G
G(N K)2
B = T + W =
=
K
G X
C
X
X
1
1
p2 N p2c
= 1
+
N GK
N (GK)2 c=1 g=1 k=1 cgk
E(ISW ) = 1 tr(W) 0 W
DO
C X
G
K
X
X
1
1
= 1
+
p2 N p2cg
NK
N GK 2 c=1 g=1 k=1 cgk
e E(ISB) =
G1
1
+
N GK
N (GK)2
1
N GK 2
"
C
G X
K
X
X
p2
cgk
c=1
"K
C X
G
X
X
c=1 g=1 k=1
N p2c
g=1 k=1
p2cgk
N p2cg
161
PY
5.5. CATANOVA
Defina a variac
ao populacional dentro do g-esimo grupo, na k-esima
posicao como
IS (pgk ) = 1
C
X
p2cgk
(5.30)
c=1
CO
A hip
otese nula H0 : pcgk = pck para todo g implica em que
IS (p1k ) = IS (p2k ) = = IS (pGk ) = IS (pk ) ,
i.e., variac
ao intragrupal na k-esima posicao e igual para todos os grupos e
que
|| p1k ||=|| p2k ||= || pGk ||
(5.31)
NO
T
onde pgk = (p1gk p2gk . . . pCgk )0 e um vetor C 1 representando as respectivas probabilidades de pertencer as categorias c = 1, . . . , C no g-esimo
grupo e k-esima posic
ao.
Se estamos interessados na hipotese colocada por (5.31), a hipotese de
homogeneidade entre grupos (pcgk = pck ) nao precisa de ser necessariamente
verdadeira. Aqui, consideramos uma hipotese nula mais restritiva: H0 :
pcgk = pck , c, k. Sob essa hip
otese H0 ,
C
K
X
X
1
1
E0 (IT S) = 1
+
p2 N Gp2c
N GK
N GK 2 c=1 k=1 ck
"
C
K
X
1
1 X
E0 (ISW ) = 1
+
p2 N p2c
NK
N K 2 c=1 k=1 ck
"
K
C X
G1
1 X
p2
E0 (ISB) =
1
N GK
K c=1 k=1 ck
"
(5.32)
(5.33)
(5.34)
DO
V d
N( N , )
N
(5.35)
onde = 1 2 G , g = g1 g2 gK , g = 1, . . . , G
e gk e dado por (5.21).
Sob H0 , para qualquer um g = 1, . . . , G,
gk = 0k
g = ?0 = 01 02 0K
(5.36)
onde 0k e a matriz C C
0k = Dk k 0k
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
162
(5.37)
CO
(5.38)
A estatstica de teste
NO
T
5.5.7
ISB
.
ISW
(5.39)
DO
No modelo ANOVA normal, sob uma hipotese nula adequada, F1N tem
a distribuic
ao da raz
ao de variancias, que, para grandes valores do denominador DF, pode ser aproximada por uma 2 , a menos de uma constante. A
situac
ao aqui e bem diferente. Primeiramente, mesmo sob H0 , a distribuicao
exata de F1N e dificilmente escrita numa forma fechada. Em segundo lugar,
reescalonamentos de F1N nao tem, em geral, uma distribuicao assintotica
2 . Para o especfico caso de K = 1, Nayak (1986a, 1986b) derivou essa distribuic
ao assint
otica. Nos apresentamos um resultado similar para K 1.
Precisamos de introduzir alguma notacao e primeiramente considerar alguns
resultados correlatos.
Note que ISB pode ser reescrito como
0
ISB = V BV =
G X
C
X
g=1 c=1
"
#2
ncg
nc N K G
.
(N GK)2
NK G
(5.40)
163
G X
K
X
cgk = nc N G
g=1 k=1
K
X
pck
k=1
PY
5.5. CATANOVA
ISB =
cg
c
NK G
2
N K G (N GK)
2
= 0 B =
CGK
X
i=1
CO
N (0, 0 )
(5.41)
N
onde 0 segue (5.38). Logo,
i 21
1
0 B .
G(N K)2
(5.42)
onde 21 i s s
ao vari
aveis aleat
orias independentes 2 com 1 grau de liberdade e {i , i = 1, . . . , CGK} e o conjunto de razes caractersticas de
NO
T
1
B
N GK 2 0
1
1
?
(I
U
)
I
=
G
K
KG
C (IG 0 )
N GK 2
G
N B0 =
C
X
c=1
DO
(5.43)
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
164
covari
ancias multinomiais n`ao e uma tarefa trivial. Roy et al. (1960) estudaram esse problema sem, no entanto, apresentarem uma expressao fechada
para as razes. A equacao caracterstica, para cada k, e dada por
(
C
X
p2ck
pck
c=1
!) C
Y
(pck ) = 0
c=1
(5.44)
CO
f
E
acil ver que = 0 e uma raz, mas a identificacao das outras razes
deve ser feita numericamente.
IT S = 1 V0 TV
Como N T0 n
ao e idempotente, a distribuicao de V0 TV nao e
2(rank(T ),0 T) . Sob H0 , entretanto,
C
C
K
X
X
X
1
1
2
n
=
[
+
N
G
pck ]2
c
(N GK)2 c=1 c
(N GK)2 c=1
k=1
V0 TV =
C
1 X
= T + 2
p2 + A0
K c=1 c
0
NO
T
(5.45)
KCG
X
i 21
i=1
V0 TV
KCG
X
i=1
i 21
A0 N(0, N A0 0 A)
+ N(0, N A0 0 A) + 1
DO
C
1 X
p2 = 0 T sob H0
K 2 c=1 c
(5.46)
165
PY
5.5. CATANOVA
Para ISW = 1 V0 WV temos, sob H0
G X
C
X
1
n2
G(N K)2 g=1 c=1 cg
G X
C
C
G X
C
X
X
1
2
1 X
2
p
+
p2
c c
G(N K)2 g=1 c=1 cg N GK 2 c=1
GK 2 g=1 c=1 c
= 0 W + A0 + 1
Novamente,
V0 WV =
por (5.13)
CO
V0 WV =
por(5.46)
(5.47)
CGK
X
1
0
21 + N(0, N A0 0 A) + 1
V
W
V
i
i
G(N K)2
i=1
NO
T
"
C
K
X
X
1
1
+
p2 N G p2c ,
E0 (IT S) = 1
N GK
N GK 2 c=1 k=1 ck
"
C
K
X
1 X
1
+
p2 N p2c .
E0 (ISW ) = 1
NK
N K 2 c=1 k=1 ck
"
DO
Var(ISW ) = 2 tr(WN )2 + 4N 0 WN WN
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
166
e, sob H0 , assintoticamente
2
2
1
B
=
tr(B 0 )2
Var0 (ISB) = 2 tr
0
2
N GK
(N GK 2 )2
2
4
Var0 (IT S) =
tr(T 0 )2 +
0 T 0 T
2
4
N (GK)
N (GK)4
2
4
Var0 (ISW ) =
tr(W 0 )2 +
0 W 0 W
(N G)2 K 4
N G2 K 4
Seja
TN,1 ISB 1 ,
TN,2 IT S 2 ,
Note que
(i)
KCG
X
i 2G
i=1
i
CO
= Op (N 1 )
TN,3 ISW 3
NO
T
(iii) 1 =
C
1 X
p2 = O(1) .
K 2 c=1 c
Ent
ao,
TN,2 = 1 V0 TV 2
DO
C
1 X
1
1/2
p2
1 Op (N ) + Op (N
)+ 2
K c=1 c
C
1 X
1 + O(N 1 ) 2
p2
K c=1 c
Op (N 1/2 )
Similarmente,
TN,3 = 1 V0 WV 3 = Op (N 1/2 )
167
PY
5.5. CATANOVA
e
ISB = V0 BV = 0 B = Op (N 1 )
Portanto,
1
N (ISB) TN,3
= Op (N 1/2 ), N (ISB) = Op (1)
32
CO
F1N
ISB
ISB
ISB
TN,3
N
=N
=N
1+
ISW
TN,3 + 3
3
3
ISB
ISB
= N
+ Op (N 1/2 ) = N
+ Op (N 1/2 )
3
3
C
1 X
p2 + O(N 1 ) = 3 + O(N 1 )
K 2 c=1 c
NO
T
X
ISB
1 CGK
i 21
i
3
3 i=1
(5.48)
3
GK3
K c=1 k=1 ck
"
E0 (F1N ) =
Var0 (F1N ) = N
Var0 (ISB)
2tr(B 0 )2
=
(3 )2
(GK 2 3 )2
DO
PY
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
168
n2cg =
ISW ,
2
2N K g=1 c=1
2
(5.49)
C
X
N GK
1
N GK
n2 =
IT S ,
2
2N GK c=1 c
2
(5.50)
T SS =
BSS =
CO
W SS =
G X
C
X
C
X
1
N GK
G
n2cg
n2c =
ISB .
2N GK
2
g=1 c=1
c=1
(5.51)
BSS/(G 1)
ISB/(G 1)
(N GK G)
=
=
F1N .
W SS/(N GK G)
ISW/(N GK 1)
N (G 1)
NO
T
F1? =
5.5.8
An
alise de dados
Na pr
atica e muito difcil conseguirmos grandes conjuntos de dados e,
quando o conjunto de dados nao e grande o suficiente para que os resultados
assint
oticos sejam v
alidos, necessitamos de alguma tecnica de reamostragem,
tal como o bootstrap. Aqui, temos um resumo do procedimento:
(a) Estimar pck dos dados, i.e., pck =
F1 .
nc1k + nc2k
e calcular a estatstica
2N
DO
169
PY
5.5. CATANOVA
#F1 F1 obs
.
1000
Quando seq
uencias dentro de um grupo nao sao independentes, como por
exemplo quando s
ao amostradas de um mesmo indivduo (i.e., cada paciente
define um grupo), a distribuic
ao de referencia precisa de ser alterada para
refletir as relac
oes filogeneticas. Devemos, entao, apelar `a reproducao da
evoluc
ao das seq
uencias e gerar sua distribuicao com base nas seq
uencias
simuladas.
Dos dados de seq
uencias, em cada posicao, estimamos a distribuicao de
freq
uencia dos nucleotdeos/aminoacidos. Tendo em vista a nao ocorrencia
de algumas categorias em posic
oes especficas (pelas restricoes estruturais),
nao e razo
avel extrapolar estimativas de stios diferentes em estimadores
globais. Tomemos as freq
uencias observadas como taxas de substituicao.
Para o HIV, isso e desej
avel, por as freq
uencias observadas refletirem tanto
restric
oes estruturais como press
oes seletivas por imunidade.
O evento de mutac
ao num stio especfico e modelado num processo de
duas etapas. Primeiramente, mudancas numa posicao sao governadas pela
taxa geral do estudo gen
omico em questao. No contexto de seq
uencias de
HIV, essa e a taxa de erro da transcriptase reversa, i.e., 0.0005 por stio
por replicac
ao (Preston et al., 1988). Em seguida, em caso de mutacao, a
substituic
ao especfica segue a matriz de transicao descrita acima.
A simulac
ao comeca com a seq
uencia de consenso como semente que e
sujeita a um processo de mutac
ao um n
umero aleatorio de vezes: colocamonos entre 100 e 2400. Na realidade, para o HIV, mutacoes ocorrem na hora
da replicac
ao. Replicac
oes ocorrem a uma taxa de 240 vezes ao ano e esse
n
umero representa quantas replicacoes sao feitas antes da transmissao. Essa
seq
uencia d
a ent
ao origem a seq
uencias descendentes. Na presente aplicacao,
esse processo de ramificac
ao imita a transmissao de HIV: nenhum descendente, com probabilidade 0,20; de 1 a 5 descendentes, com probabilidades
0,16 cada (Blower e McLean, 1994). A arvore cresce pela repeticao desse
procedimento um n
umero grande de vezes (com as seq
uencias da geracao
anterior como sementes). Obtemos com isso um total de 10,000 a 20,000
seq
uencias. Amostramos sem reposicao o mesmo n
umero de vezes que o
tamanho dos dados originais. Desses, calculamos a estatstica de teste. Essa
amostragem e realizada um grande n
umero de vezes (aqui 1,000) para construir a distribuic
ao de referencia.
Aplicamos esse procedimento para seq
uencias virais de oito indivduos
que foram tratados com uma protease inibidora. Seq
uencias sao amostradas do sangue e do semen em diferentes tempos. Ha 1041 nucleotdeos e
se colocam na regi
ao codificadora da protease e transcriptase reversa. Para
DO
NO
T
CO
O p-valor e ent
ao
CAPITULO 5. ANALISE
DE DADOS MOLECULARES
PY
170
DO
NO
T
CO
171
PY
5.5. CATANOVA
2
3
Sangue
Semen
DO
Estatsticas
15.51
55.90??
13.29
51.78??
NO
T
Semanas
0
12
16
24
0
8
0
4
12
40
56
0
22
26
0
3
4
8
0
8
13
25
29
49
58
0
12
32
0
12
16
24
41
48
CO
Pacientes
1
52.46?
0.01
23.58??
12.06
PY
CO
Bibliografia
[1] Agresti A. 1990. Categorical Data Analysis. John Wiley & Sons.
NO
T
[4] Amos CI. 1994. Robust variance components approach for assessing genetic linkage in pedigrees. American Journal of Human Genetics 34:535-543.
[5] Amos CI, de Andrade M. 2001. Genetic linkage methods for quantitative
traits. Statistical Methods in Medical Research 10:3-25.
[6] Anderson R J, Landis, J R .1980. CATANOVA for Multidimensional
Contingency Tables: Nominal-scale response. Communications in Statistics - Theory and Methods 9:1191-1206.
[7] Anderson R J, Landis, J R. 1982. CATANOVA for Multidimensional
Contingency Tables: Ordinal-scale response. Communications in Statistics - Theory and Methods 11:257-270.
[8] Bahadur R R. 1961. A Representation of the Joint Distribution of Responses to n Dichotomous Items. In Studies in Item Analysis and Prediction, Stanford University Press, pp. 158-176.
DO
[9] Bhattacharyya A. 1946. On a measure of divergence between two multinomial populations. Sankhya 7:401-406.
[10] Bickel P, Cosman P, Olshen R, Spector P, Rodrigo A, Mullins J. 1996.
Covariability of V3 loop amino acids. AIDS Research and Human Retroviruses 12:1401-1411.
171
BIBLIOGRAFIA
PY
172
CO
[12] Blower SM, McLean AR. 1994. Prophylactic Vaccines, Risk-BehaviorChange and the Probability of Eradicating HIV in San Francisco. Science
265:1451-1454.
NO
T
DO
173
PY
BIBLIOGRAFIA
[23] Cockerham CC. 1969. Variance of gene frequencies. Evolution 23: 7284.
[24] Cockerham CC. 1973. Analyses of gene frequencies. Genetics 74:679700.
CO
[25] Cockerham CC. 1984. Drift and Mutation within a finite number of
allelic states. Proceedings of the National Academy of Sciences of the
U.S.A. 81:530-534.
[26] Curtis D. 1997. Use of siblings as controls in case-control association
tests. Annals of Human Genetics 61:319-333.
[27] David WH, Lemeshow S. 1989. Apllied Logistics Regression. John Wiley
& Sons.
[28] Davies AM. 1979. The singles method for segregation analysis under
incomplete ascertainment. Annals of Human Genetics 41:507-512.
NO
T
[29] de Andrade M, Amos CI, Thiel TJ. 1999. Methods to Estimate Genetic Components of Variance for Quantitative Traits in Family Studies.
Genetic Epidemiology 17:64-76.
[30] Donner A, Eliasziw M. 1988. Confidence Interval construction for
parent-offspring correlations. Biometrics 44:727-737.
[31] Elandt-Johnson RC. 1971. Probability Models and Statistical Methods
in Genetics. John Wiley & Sons, New York.
[32] Elston RC, Stewart J. 1971. A General Model for the Genetic Analysis
of Pedigree Data. Human Heredity 21;523-542.
[33] Elston RC, Yelverton KC. 1975. General Models for Segregation Analysis. American Journal of Human Genetics 27:31-45.
[34] Elston RC. 1975. On the correlation between correlations. Biometrika
62:133-140.
DO
[35] Elston RC, Rao DC. 1978. Statistical Modeling and Analysis in Human
Genetics. Annu Rev Biophys Bioeng 7:253-286.
[36] Elston RC. 1980. Segregation Analysis. In Current Developments in
Anthropological Genetics, Edited by JH Mielke and MH Crawford, Vol 1,
pages 327-354.
BIBLIOGRAFIA
PY
174
[37] Ewens WJ, Spieman RS. 1999. Disease associations and the transmission/disequilibrium test (TDT). Current Protocols in Genetics 12, (Supplement 20), 1.12.1-1.12.15.
CO
[38] Excoffier L, Smouse PE, Quattro JM. 1992. Analysis of Molecular Variance Inferred from Metric Distances among DNA Haplotypes: Application
to Human Mitochondrial DNA Restriction Data. Genetics 131:479-491.
[39] Felsenstein J. 1981. Evolutionary trees from DNA sequences: A maximum likelihood approach. Journal of Molecular Evolution 17:368-376.
[40] Fuerst PA, Chakraborty R, Nei M. 1977. Statistical studies on protein polymorphism in natural populations: I.Distribution of single locus
heterozygosity. Genetics 86:455-483.
[41] Gini CW. 1912. Variabilita e Mutabilita. it Studi Economico-Giuridici
della R. Universita di Cagliari 3-159.
NO
T
[42] Gojobori T, Ishii K, Nei M. 1982. Estimation of average number of nucleotide substitutions when the rate of substitution varies with nucleotide.
Journal of Molecular Evolution 18:414-423.
[43] Gojobori T, Moriyana EN, Kimura M. 1990. Statistical Methods for
Estimating Sequence Divergence. Methods in Enzimology 183:531-550.
[44] Gunel E, Wearden S. 1995. Bayesian Estimation and testing of gene
frequencies. Theor Appl Genet 91:534-543.
[45] Hassted S. 1994. Pedigree Analysis Package (PAP), version 4.0. University of Utah.
[46] Hasegawa M, Kishino H, Yano T. 1985. Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. Journal of Molecular
Evolution 22:160-174.
DO
[47] Hill MO. 1973. Diversity and evenness: A unifying notation and its
consequences. Ecology 54:427-431.
[48] Hoeffding W. 1948. A Class of Statistics with Asymptotically Normal
Distribution. Annals of Mathematical Statistics 19:293-325.
[49] Hutcheson K. 1970. A test for comparing diversities based on the Shannon formula. Journal of Theoretical Biology 29:151-154.
175
PY
BIBLIOGRAFIA
CO
[53] Karnoub M, Seillier-Moiseiwitsch F, Sen PK. 1999. A conditional approach to the detection of correlated mutations. In Statistics in Molecular
Biology. Seillier-Moiseiwitsch F (Eds.). Institute of Mathematical Statistics Lecture Notes Series 33:221-235.
NO
T
[54] Khoury MJ, Beaty TH, Cohen BH. Fundamentals of Genetic Epidemiology. Oxford University Press, New York, 1963.
DO
[59] Kong A, Cox NJ. 1997. Allele sharing models - LOD scores and accurate
linkage tests. American Journal of Human Genetics 61:1179-88.
[60] Korber BTM, Farber RM, Wolpert DH, Lapedes AS. 1993. Covariation
of mutations in the V 3 loop of HIV -1: an information theoretic analysis.
Proceedings of the National Academy of Sciences of the U.S.A. 90:71767180.
BIBLIOGRAFIA
PY
176
[61] Kruglyak L, Daly MJ, Reeve-Daly MP, Lander ES. 1996. Parametric
and nonparametric linkage analysis: A unified multipoint approach. American Journal of Human Genetics 58:1347-1363.
CO
[64] Lange K. 1976. Stable gene equilibria for mixtures of random and assortive mating. Mathematical Biosciences 29:49-57.
[65] Lange K, Boehnke M. 1983. Extensions to Pedigree Analysis. IV. Covariance Components Models for Multivariate Traits. American Journal
of Medical Genetics 14:513-524.
[66] Lange, K. 1995. Applications of the Dirichlet distribution to forensic
match probabilities. Genetica 96:107-117.
NO
T
[67] Lewontin RC. 1972. The Apportionment of Human Diversity. Evolutionary Biology 6:381-398.
[68] Li WH. 1997. Molecular Evolution. Sinauer Associates, Sunderland,
Massachusetts.
[69] Li CC, Mantel N. A simple method of estimating the segregation ratio under complete ascertainment. American Journal of Human Genetics
20:61-81, 1963.
[70] Liang K, Zeger SL, Qaqish B. 1992. Multivariate Regression Analyses
for Categorical Data. Journal of the Royal Statistical Society, Series B
54:3-40.
[71] Light RJ, Margolin BH. 1971. An Analysis of Variance for Categorical
Data. Journal of the American Statistical Association 66:534-544.
DO
[72] Light RJ, Margolin BH. 1974. An Analysis of Variance for Categorical
Data II: Small Sample Comparisons with Chi Square and Other Competitors. Journal of the American Statistical Association 69:755-764.
[73] Lockhart PJ, Steel MA, Hendy MD, Penny D. 1994. Recovering evolutionary trees under a more realistic model of sequence evolution. Molecular
Biology and Evolution 11:605-612.
177
PY
BIBLIOGRAFIA
[74] Mahalanobis PC. 1936. On the generalized distance in statistics. Proceedings of the National Institute of Sciences of India 2:49-55.
[75] Manly BFJ. 1985. The Statistics of Natural Selection on Animal Populations. Chapman and Hall, London.
CO
[76] Magurran AE. 1988. Ecological Diversity and Its Measurement. Princeton University Press.
[77] Morton NE. 1955. Sequential tests for the detection of linkage. American Journal of Human Genetics 7:277-318.
[78] Morton NE, MacLean CJ. 1974. Analysis of family resemblance III.
Complex segregation quantitative traits. American Journal of Human Genetics 26:489-503.
[79] Nayak TK. 1986a. An analysis of diversity using using Raos quadratic
entropy. Sankhya: The Indian Journal of Statistics Series B 48:315-330.
NO
T
DO
[85] Nei M, Fuerst PA, Chakraborty R. 1976. Testing the neutral mutation
hypothesis by distribution of single locus heterozygosity. Nature 262:491493.
[86] Nei M. 1978. Estimation of average heterozygosity and genetic distance
from a small number of individuals. Genetics 89:583-590.
[87] Nei M. 1987. Molecular Evolutionary Genetics. Columbia University
Press, New York.
BIBLIOGRAFIA
PY
178
[88] Ott J. 1999. Analysis of Human Genetic Linkage. 3rd edition. Johns
Hopkins University Press.
[89] Peet RK. 1974. The measurement of Species diversity. Annual Review
of Ecology and Systematics 5:285-307.
CO
[90] Pinheiro HP, Seillier-Moiseiwitsch F, Sen PK, Eron JJr. 2000. Genomic
sequences and quasi-multivariate CATANOVA. In Handbook of Statistics,
Bioenvironmental and Public Health Statistics. Rao CR, Sen PK (Eds.).
Vol. 18. Elsevier, Amsterdam. pp. 713-746.
[91] Pinheiro HP, Seillier-Moiseiwitsch F. 2000. Quantifying heterogeneity
in the HIV genome. Computational and Evolutionary Analysis of HIV
Molecular Sequences. Rodrigo AG, Learn Jr. GH (Eds.). Norwell, Massachusetts, pp. 91-119.
[92] Preston BD, Poiesz BJ, Loeb LA. 1988. Fidelity of HIV -1 Reversetranscriptase. Science 242:1168-1171.
NO
T
DO
[98] Rao CR, Boudreau R. 1984. Diversity and Cluster Analyses of Blood
Group data on Some Human Populations. In Human Population Genetics:
The Pittsburgh Symposium, Chakravarti A (Ed.). Van Nostrand Reinhold,
New York. pp. 331-362.
[99] Risch N. 1990. Linkage strategies for genetically complex traits. I. Multilocus models. American Journal of Human Genetics, 46:222-228.
[100] Risch N, Zhang H. 1995. Extreme discordant sib pairs for mapping
quantitative trait loci in humnas. Science 268:1584-1589.
179
PY
BIBLIOGRAFIA
[101] Risch N, Zhang H. 1996. Mapping quantitative trait loci with extreme
discordant sib pairs: Sampling considerations. American Journal of Human Genetics 58:836-843.
CO
[102] S.A.G.E. (1994) Statistical Analysis for Genetic Epidemiology, Release 3.1 Computer program package available from the Department of
Biometry and Genetics, LSU Medical Center, New Orleans.
[105] Searle SR. 1982. Matrix Algebra Useful for Statistics. John Wiley &
Sons, New York.
NO
T
[106] Seillier-Moiseiwitsch F, Margolin BH, Swanstrom R. 1994. Genetic Variability of the Human Immunodeficiency Virus: Statistical and Biological
Issues. Annual Review of Genetics 28:559-596.
[107] Seillier-Moiseiwitsch F, Man ZM, Swanstrom R. 1999. Detecting Linked Genomic Mutations. In Statistics in Genetics, Halloran ME, Geisser S
(Eds.). Springer-Verlag, New York. 112:119-131. IMA Volume in Mathematics and its Applications.
[108] Self S, Liang K-Y. 1987. Asymptotic properties of maximum likelihood
estimators and likelihood ratio tests under non-standard conditions. Journal of American Statistical Association 82:605-610.
[109] Sen PK. 1999. Utility-oriented Simpson-type indexes and inequality
measures. Calcutta Statistical Association Bulletin 49:00-00.
[110] Sham PC, Curtis D. 1995. An extended transmission/disequilibrium
test (TDT) for multi-allelic marker loci. Annals of Human Genetics
59:323-336.
DO
BIBLIOGRAFIA
PY
180
[114] Spielman RS, McGinnis RE, Ewens WJ. 1993. Transmission test for
linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus. American Journal of Human Genetics 52:506-516.
CO
[115] Takahata N, Kimura M. 1981.A model of evolutionary base substitutions and its application with special reference to rapid change of pseudogenes. Genetics 98:641-657.
NO
T
[119] Weir BS. 1996. Genetic Data Analysis II. Sinauer Associates. Inc. Publishers.
DO
[120] Wright S. 1951. The genetical structure of populations. Annals of Eugenics 15:323-354.