Some people think football is a matter of life and death. I assure you, it's much more serious than that.

segunda-feira, 8 de julho de 2013

Obtendo um retrato perfeito

Nada mais justo que o Deus das Sabermetrics estar olhando esse post de cima


Quando alguém está tentando fazer um preview da NFL, especialmente se for pra algum time, a fórmula pra isso em geral segue um padrão bastante simples. Primeiro se pega a atuação do time na ultima temporada (no caso em questão, a temporada 2012) e analisa o quão boa a equipe foi, olhando o seu record, pontos feitos e cedidos por jogo, etc. Com isso se chega em um ponto de partida pra onde começar sua analise, aonde o time estava ao final da temporada anterior. Em seguida, se olha o que mudou no time de um ano pro outro: Se trouxe bons calouros, se assinou Free Agents de impacto, se perdeu jogadores importantes, eventuais trocas, se um time cheio de jovens talentos teve mais um ano pra se desenvolverem - e se usa isto pra ver se um time "melhorou" ou "piorou" de um ano pro outro. Aí, aproveitando-se do "ponto de partida" anterior (no caso, o record do time na temporada anterior), usa-se a "melhora" ou "piora" da equipe pra ajustar o record, e pronto, você tem sua previsão pra temporada seguinte. Ou seja, se um time cheio de calouros acaba 8-8 na temporada e pro ano seguinte consegue um bom FA e boas picks de Draft, esperamos que ele acabe lá pros 10-6. Não é perfeito, mas é assim que sempre fizemos e é o que funciona. 

Ou pelo menos era o que nós achávamos.

Quando nos anos 90/2000 Bill James (E depois o Oakland Athletics) revolucionou o baseball usando suas estatísticas avançadas (ou Sabermetrics - escrevi um post extenso sobre o assunto, pra quem tiver curiosidade), mudança retratada no excelente livro/bom filme Moneyball, era apenas uma questão de tempo para que esse tipo de abordagem analítica avançada espirrasse para os outro esportes americanos.  E embora seja impossível medir qualquer outro esporte tão perfeitamente como o baseball (um esporte individual disfarçado de esporte coletivo com uma base amostral de 162 jogos onde TUDO pode ser dividido em numeros), isso levou muitos estudiosos a olhar mais de perto alguns dados e analisar de forma mais profunda a validade de certas "certezas" que existiam no mundo da NFL ou da NBA. E isso trouxe alguns resultados muito interessantes.

Focando na NFL, em particular, uma das certezas antigas que foram jogadas pela janela é a noção de que os numeros finais de uma temporada sejam um bom indicativo de quão bom é aquele time e de onde ele se encontra naquele momento. Pense da seguinte maneira: A NFL tem uma temporada extremamente curta, apenas 16 jogos. O pressuposto básico de qualquer estatística é que para ela ter valor analitico (ou simplesmente ser significativa) é que ela tenha uma base amostral grande o suficiente para cancelar os desvios, vieses e outliers de cada amostra. Uma temporada de 16 jogos apenas não serve a esse propósito, especialmente quando falamos de records: A influencia do acaso ou da sorte em apenas 16 jogos é muito grande e dificilmente serve como uma indicação da qualidade de um time, de modo que nos atermos muito firmemente a apenas um record bruto anterior é besteira. Da mesma forma, um time enfrenta apenas 13 de 32 times durante uma temporada regular, o que obviamente gera um viés muito grande: Alguns times enfrentarão adversários muito melhores ou piores que outros (o Denver Broncos ano passado teve seis jogos contra Raiders, Chargers e Chiefs, enquanto o Cardinals enfrentou seis contra 49ers, Seahawks e Rams, por exemplo). Então ainda que coisas como o numero de vitórias de um time e seus numeros de ataque e defesa sejam um ponto de partida, eles estão na maioria das vezes longe de serem um retrato adequado da qualidade de um time.

Pense nisso como uma escavação arqueológica. O arqueólogo, durante uma escavação, se depara com uma linda adaga de ouro incrustrada de pedras preciosas. Mas quando ele a encontra, ela está presa a uma camada de rochas, coberta de lodo e diversas outras impurezas. Antes de expô-la num museu, o arqueólogo vai ter que remover ela da rocha, jogar ácido pra derreter o lodo, remover as impurezas e polir a adaga até que ela esteja brilhando, para ai sim enviá-la para uma exposição. Em futebol americano é a mesma coisa: O record e os numeros brutos dos times precisam ser peneirados, estudados e removidas as impurezas para podermos ver o que de importante tiramos daquilo tudo.

Então essa é a minha proposta pra daqui até a temporada regular começar: Usar algumas ferramentas analíticas mais avançadas (algumas são até bem simples, é só saber onde olhar) para analisar os 32 times da NFL, quais devem regredir, quais devem evoluir, quais deram azar e o que esperar que se repita da temporada anterior. E embora tenhamos umas 10 ou mais ferramentas diferentes de análise para esse assunto, vamos nos focar nas cinco que eu acho mais importantes, mais diretas e, pra falar a verdade, mais divertidas. Então vamos conhecer essas ferramentas, e começando amanha vamos falar, um por um, dos 32 times da NFL.


Pythagorean Expectations

O melhor indicador de performance de um time, em uma temporada, que vocês irão encontrar não é o número de vitórias, mas sim a diferença entre os pontos marcados e cedidos. Bill James descobriu isso nos anos 80 quando estudava baseball, e com o tempo se descobriu que isso se aplica a praticamente qualquer esporte, especialmente aqueles com pontuaçōes altas. Como vamos ver daqui a pouco, jogos decididos por poucos pontos normalmente dependem demais de sorte, e por isso goleadas significam mais pra um time do que vitórias apertadas, e logo se comprovou que esse "Point Diferential" era realmente um indicador mais preciso. E já que o PD é um indicador mais preciso do que o numero real de vitórias e derrotas, Bill James criou uma fórmula pra extrair um record win-loss mais preciso de acordo com o Point Diferential de cada time, que representa melhor o verdadeiro nível daquele time ao longo da temporada. A fórmula primitiva de James foi, naturalmente, modificada ao longo dos anos para melhor se adaptar ao futebol americano, mas o princípio ainda é o mesmo. 

A fórmula utiliza a relação Point Diferential/Pontos Totais (Cedidos + Marcados) pra nos dar o número "esperado" de vitórias de um time. Acreditem ou não, mas esse é historicamente um método muito preciso pra se indicar quando um time atua acima das possibilidades ou abaixo, e também um indicador futuro de que um time deve regredir. Isso não importa tanto quando a diferença é de 1 ou 1,5 vitórias, mas a partir de 2 vitórias de diferença já é um sinal importante de que algo deu errado naquela temporada fora do controle do time e que deve se "ajustar" no ano seguinte. Historicamente, apenas UM time consistentemente superou suas Pythagorean Expectations por tempo suficiente pra ser estatisticamente significante: O Colts de Peyton Manning entre 2001 e 2010. Todos os outros sofreram "regressōes" com seu win-lose record em direção às Pythagorean Expectations.

Um exemplo recente? Claro! Em 2011, o Minnesota Vikings terminou a temporada 3-13, o terceiro pior record da Liga. Em 2012, o time deu a volta por cima, terminou 10-6 e foi aos playoffs. Ainda considerando um ano monstro do Adrian Peterson, um começo quente do Christian Ponder (que depois voltou a ser ruim, mas enfim) e boas adiçōes na offseason (em especial Matt Kahil), parece absurdo supor que tenha sido suficiente pra um time ganhar 7 jogos a mais de um ano pra outro, certo? Ai você vê que, pelas Pythagorean Expectations, o 11' Vikings deveria ter terminado 6-10 (já vamos entrar no porquê), era um time muito melhor do que seu 3-13 record indicava, e portanto alguma evolução simplesmente por regressão à média já era esperado. Juntando isso à evolução de alguns jovens jogadores, adiçōes do time e Adrian Peterson sendo um MVP, esse salto de 6-10 pra 9-7 em record esperado faz muito mais sentido (pra quem seguia nosso twitter na época talvez lembre que eu disse que o Vikings ia terminar 9-7 e perder os playoffs por pouco), e também o 10-6 e uma vaga nos playoffs.


Jogos decididos por uma posse de bola

Outra descoberta de Bill James sobre baseball que logo se descobriu que era aplicável a qualquer esporte com um bom número de pontos (NFL, NBA, MLB, etc) é que jogos decididos por uma posse de bola ou menos são muito mais aleatórios do que se supōe. Dada a enorme quantidade de pequenas coisas aleatórias que influenciam uma posse de bola, a expectativa é que cada time ganhe cerca de 50% desses jogos, independente de ser um bom time ou não. Embora isso seja um pouco contra intuitivo - um bom time deveria ser capaz de ganhar mais jogos apertados, certo? - isso não se verifica historicamente. Isso não quer dizer que um time não possa ganhar um grande numero de jogos decididos por uma posse de bola um dado ano, mas é muito improvável que ele repita no ano seguinte. Como o grande Bill Barnwell bem apontou, em 2011 Raiders, 49ers, Packers, Saints e Steelers combinaram pra um record de 27-8 em jogos decididos por uma posse de bola. Em 2012, combinaram para 16-16 (e um empate).

Ainda assim, esse número não é exatamente 50% pra todos os times. Assim como no baseball alguns fatores (qualidade do bullpen e SLG% do time) podem influenciar a quantidade esperada de vitórias em jogos decididos assim, no futebol americano isso também ocorre com base em uma única variável: Quarterbacks de elite. Times com Quarterbacks de elite como Tom Brady e Peyton Manning (pra citar dois exemplos modernos) historicamente tem apresentado um pequeeeeeno diferencial positivo em relação ao resto da Liga (que estatisticamente sempre convergem para 50%), então é possível esperar uma atuação um pouco melhor deles. Mas assim como no baseball (ano passado o Orioles teve um dos melhores bullpens da história da MLB e mesmo assim esperava-se que ganhasse apenas 60% desses jogos), isso não quer dizer que seja uma grande mudança em relação ao padrão: Esse número aumenta de 50% pra cerca de 56%, 58%, mas não de forma absurda que signifique que um record de 9-2 em jogos decididos por uma posse de bola seja sustentável mesmo que você tenha Brady como seu QB, por exemplo.

Voltando ao exemplo do Vikings de 2011, eles terminaram o ano 3-13 quando sua Pythagorean Expectation era de 6-10. A principal causa dessa diferença foi que o Vikings deu muito azar em jogos decididos por uma posse de bola apenas, terminando 2-9 nesses jogos, um numero absurdamente deslocado da expectativa de 5.5-5.5 nesse caso. Supondo que o Vikings terminasse com um realista 5-6 nesses jogos, o record deles teria sido de... Wait for it... 6-10 exatamente!! E caso vocês imaginem que esse 2-9 aconteça por ter um QB ruim, em 2012 o Vikings ganhou 5 e perdeu 2 jogos decididos por 7 pontos ou menos rumo a um record de 10-6. So yeah, digamos que funciona.

(Importante: Jogos decididos por oito pontos não contam como uma posse de bola por um simples motivo: Two-point conversions, depois de um TD, acontecem apenas 50% do tempo, então estatisticamente jogos decididos por oito pontos contam com uma posse de bola e meia e não entram nessa estatística).


Força do calendário

Como eu disse anteriormente, dos 31 times restantes da Liga, cada time enfrenta apenas 13 adversários, o que naturalmente gera um viés. Alguns times enfrentarão adversários muito mais fracos do que outros, e em apenas 16 jogos não existe uma amostra grande o suficiente para "normalizar" essa diferença de calendário. Então obviamente alguns times terão vida mais fácil que outros ao longo de uma temporada e isso tem uma influência grande no record final dos times.

Essa é uma questão bem fácil de entender e intuitiva, então não vou perder tempo nela, mas não da pra negar o impacto dessa variável: O Arizona Cardinals terminou o ano 5-11 (sua Pythagorean Expectation foi essa mesmo), mas também teve o calendário mais difícil da NFL em 2012. Com um calendário supostamente mais fácil em 2013, é esperado que o Cardinals tenha uma certa melhora geral. Embora seja dificil dizer se o Cardinals foi um time em 2012 melhor que, digamos, o Colts (que teve o calendário mais fácil), e por isso seja até mesmo desnecessário tentar comparar os dois dessa maneira (embora seja possível), mas é sempre importante observar essa variável do calendário ano a ano.

Uma coisa importante também sobre ela é que é muito dificil dizer se um calendário eé forte ou não no começo do ano. Em geral se usa os numeros dos times no ano anterior pra isso, mas muita coisa pode acontecer e mudar de uma no pro outro, de modo que no final um time possa ter uma vida muito mais fácil do que esperado (ou mais dificil). Ano passado, antes da temporada, o Broncos projetava pra ter um dos calendários mais dificeis da NFL; acabou tendo o segundo mais fácil. Então é mais fácil olhar pra temporada que passou e imaginar uma certa normalização do que prever a força do calendário a seguir.


Ajustando ataque e defesa

Saindo agora um pouco de performance geral da equipe pra numeros específicos de ataque e defesa. Normalmente, quando as pessoas querem ver a performance de uma equipe de um dos lados da quadra, eles olham pra pontos cedidos e pontos anotados por jogo como o melhor indicador. Mas como acabamos de falar, isso é bastante influenciado pelos times enfrentados por essas equipes: Algumas oferecem melhores defesas do que outras, e é muito mais dificil (e requer um ataque muito melhor) pra anotar 30 pontos por jogo enfrentando 49ers e Seahawks do que enfrentando Raiders e Colts, por exemplo. Então se queremos ver o quão bom um time foi no ataque ou na defesa, é preciso levar em conta os times enfrentados por essas equipes acima de tudo.

Um exemplo prático: 49ers foi o 11th melhor ataque da NFL ano passado em pontos por jogo, com 24,8 pontos por jogo. O  Bengals foi o 12th melhor ataque, com 24,4 ppg. No entanto, o 49ers enfrentou a sexta tabela mais difícil em termos de defesas, enquanto o Bengals enfrentou a terceira mais fácil. Ajustando esses números pelo agregado das defesas enfrentadas ao longo dos 16 jogos, temos que o 49ers na verdade foi o quinto melhor ataque da NFL em 2012, enquanto que o Bengals foi apenas o 17th melhor ataque da NFL, abaixo da média da Liga.

O reverso também é verdade: Em 2012, o San Diego Chargers teve a 16th melhor defesa da NFL em ppg, cedendo 21,8 pontos por jogo. Cardinals teve a 17th, cedendo 21,5 ppg. No entanto, o Chargers enfrentou adversários com (no agregado) ataques relativamente fracos, enquanto o Cardinals enfrentou uma dieta de Packers, 49ers e Seattle o ano inteiro, de longe o calendário mais difícil que qualquer defesa teve de enfrentar. Quando normalizamos pelas defesas enfrentadas, notamos que o Cardinals teve a sexta melhor defesa de toda a NFL, enquanto o San Diego continuou com um medíocre 18th lugar.

Então sempre é importante, quando vamos falar de ataque e defesa, levar em conta que nem todos enfrentaram os mesmos adversários. Então quando eu falar que o Cardinals na verdade é um time decente ou melhor porque tem uma das melhores defesas da NFL, mesmo tendo a 16th em pontos por jogo, é por causa disso. Sempre tomem cuidado com fatores que influenciam esses números porque alguns deles podem mudar de ano a ano.


Fumbles recuperados

Por fim, chegamos aos fumbles recuperados. Forçar fumbles (na defesa) e evitar fumbles (no ataque) são duas habilidades importantes pra quaisquer jogadores ou times, e se você não acredita, é só assistir Charles Tillman jogando ano a ano pra ver que forçar fumbles é uma arte. Mas uma vez que o fumble está no chão, não tem NADA na história da NFL que indique que recuperar fumbles seja um talento mais do que seja sorte. Ou seja, entre todos os fumbles que um certo time vê acontecerem - dos dois lados da quadra - ele tende a recuperar exatamente metade deles.

Embora seja obviamente uma estatística menos importante que as outras quatro que foram cobertas nesse post, eu acho essa bem divertida por um simples motivo: Ela é muito legal de se acompanhar ao longo da temporada, mesmo numa variedade semana a semana, e ela é sutilmente responsável por diversas tendências interessantes que observamos na NFL.

Exemplo, pegue o Washington Redskins de 2012, que começou a temporada 3-6 antes de ganhar seus últimos sete jogos pra terminar 10-6. Embora seja inegável que o Redskins tenha evoluido ao longo da temporada, especialmente com um calouro de Quarterback, olhando mais de perto percebemos algumas tendências interessantes nessas duas sequencias na temporada. Seu fraco começo (3-6) foi marcado por um record de 1-5 em jogos decididos por uma posse de bola, e não coincidentemente foram jogos nos quais o Redskins recuperou cerca de 30% dos fumbles que aconteceram no jogo. Considerando que fumbles significam uma mudança na posse ou não de bola (ou seja, uma posse a mais pra um dos times), não recuperar 70% dos fumbles é algo que vai dar ao adversário mais posses de bola que você e um jogo e vai influenciar imensamente em um jogo decidido por uma posse. Com o Redskins dando azar nessas recuperaçōes, eles tiveram menos posses do que deveriam e perderam 5 de 6 jogos assim. Na segunda sequencia, as 7 vitórias seguidas, o Redskins foi 4-0 em jogos decididos por uma posse de bola ou mais. Não coincidentemente, durante essas 7 vitórias seguidas o Redskins recuperou 75% dos fumbles que aconteceram. Tirem suas próprias conclusōes.

Então sim, essa variável tem maior interesse pegando jogo a jogo e ao longo da temporada, mas pode ser uma variável importante pra se olhar quando um time depende muito de saldo de turnovers positivo. Em 2011, Tennesse se aproveitou desse saldo (+1) pra ter uma campanha mais respeitável (9-7), recuperando 62% dos fumbles. Em 2012, o time caiu para -4 porque recuperou apenas 31% dos seus fumbles. Washington recuperou apenas 32% dos fumbles em 2011; esse numero subiu pra 58% em 2012. Então embora ela seja de menor importância no grande esquema das coisas, ainda vale a pena prestar alguma atenção nela.


Então essas são as cinco variáveis que eu vou prestar mais atenção quando estiver fazendo o preview que começa amanhã. Alguns times são normais sob a maioria delas, alguns (Colts! Colts!) apresentam algumas aberraçōes que precisam ser destrinchadas pra obter um cenário mais claro de onde esses times se encontram. E vamos ver, juntando com as melhoras e pioras que a offseason trás, quais são os times que devem se preparar pros playoffs esse ano.

Um comentário: