Biologia sintética: A gramática matemática da biologia

Biologia Sintética: A Gramática Matemática da Biologia

Opinião | Imagem: Embrapa
Michel E. Beleza Yamagishi – Pesquisador do Laboratório Multiusuário de Bioinformática da Embrapa (LMB)

A Biologia Sintética (BS) trouxe desafios que transcendem os seus limites. Novas ferramentas, como a técnica denominada CRISPR-CAS, prometem revolucionar a biotecnologia, seja na saúde humana, seja na agropecuária. Sem dúvidas, editar genomas com a mesma facilidade de um editor de texto é um salto tecnológico disruptivo. Entretanto, da mesma forma que modificar um texto exige noções de aspectos gramaticais distintos, tais como ortografia, sintaxe e semântica, a alteração de sequências de organismos vivos demanda o domínio de um complexo conjunto de regras, muitas das quais, infelizmente, ainda desconhecidas. E esse conhecimento incompleto é tanto um fator de risco quanto de limitação da BS, pois uma maior fluência na “linguagem do DNA” garantiria alterações “gramaticalmente” corretas, aumentando assim as chances de serem bem-sucedidas.

As ciências biológicas têm feito um trabalho magnífico revelando regras relacionadas à função biológica das sequências genômicas. Entretanto, há também uma classe de Regras Intrínsecas do DNA (RID) que é pouco conhecida, mas que é obedecida pela maioria das sequências biológicas. A primeira delas foi descoberta pelo bioquímico Erwin Chargaff em 1951. Denominada “Primeira Regra de Paridade de Chargaff” (PRPC), afirma que a quantidade de nucleotídeos Adenina (A) é igual a quantidade de Timina (T), a mesma paridade ocorrendo entre Citosina (C) e Guanina (G). Uma apreciação apressada da PRPC poderia levar à conclusão errônea de se tratar de uma simples “curiosidade”, sem grandes consequências práticas. Na verdade, é difícil exagerar na sua importância. A PRPC foi usada, com os raios-X de Rosalind Franklin, como uma das principais pistas que resultou na estrutura em dupla-hélice do DNA. Obviamente, as ligações químicas entre os pares A-T e C-G na fita dupla do DNA explicam completamente esta primeira regra.

Depois de 17 anos, o genial e incansável Chargaff, em 1968, analisando a fita simples do DNA, descobriu mais uma relação entre os nucleotídeos. Desta vez observou que, na fita simples, a quantidade de A era aproximadamente igual a quantidade de T; o mesmo valendo para C e G. Esta é a “Segunda Regra de Paridade de Chargaff” (SRPC). Diferentemente da PRPC, não se conhece nenhuma explicação definitiva para esse fenômeno. Em comparação ao contexto atual onde as descobertas científicas ocorrem diariamente, o simples espaçamento temporal entre essas duas sugere o grau de dificuldade do assunto. A próxima descoberta só ocorreu após o advento do sequenciamento sanger e a disponibilidade de um número maior de sequências no formato digital. Foram necessários 25 anos para o “Princípio de Simetria” (PS), descoberto por Vinayakumar Prabhu, se unir, em 1993, às regras de Chargaff. Prabhu computou a frequência de oligonucleotídeos (conjunto de dois ou mais nucleotídeos), e observou que a frequência de um determinado oligonucleotídeo é aproximadamente igual à frequência do seu reverso-complementar. Não é difícil perceber que o PS é uma generalização da SRPC.

A partir de 2005, as Novas Tecnologias de Sequenciamento fizeram o preço por base sequenciada despencar. O volume de nucleotídeos começou a ser medido em Petabytes (1015 bytes). Essa revolução no sequenciamento fez com que o gargalo se deslocasse da produção para a análise das sequências. Neste novo cenário, a Bioinformática assumiu o protagonismo, e começou a empregar metodologias multidisciplinares para explorar os dados e obter novos insights. Para ficar num único exemplo da sinergia entre as ciências, algoritmos sofisticados de Inteligência Artificial (IA) foram aplicados na busca por padrões escondidos nas sequências, e muitos avanços científicos resultaram dessa estratégia. Contudo, nenhuma nova RID foi revelada por essa abordagem. Devido à abundância de material e às avançadas técnicas de mineração, e como historicamente todas as RID foram essencialmente descobertas empíricas, esperava-se encontrar muitas outras.

Como isso não ocorreu, e por causa do longo período transcorrido desde a última descoberta, a existência de novas RID começou a ser questionada. Talvez, o paradigma “gramatical” simplesmente não fosse pertinente ou a “gramática do DNA” fosse pobre. Porém, muitos dos que dedicaram suas careiras à genômica, e contemplaram tanto a complexidade quanto a harmonia interna dos genomas, nunca compartilharam dessas dúvidas. O Dr. Francis Collins, coordenador do Projeto Genoma Humano e atual diretor do National Institutes of Health (NIH), é um exemplo. Ele escreveu um livro cujo ponto de vista pode ser inferido a partir do título escolhido: “A Linguagem de Deus”. A metáfora encontra-se originariamente em um discurso, revisado por ele, e proferido pelo então presidente Bill Clinton, por ocasião da publicação do genoma humano. Se o DNA é ou não a linguagem de Deus não vem ao caso. Importa que seja semelhante a uma “linguagem” cuja “gramática”, certamente, é ordens de grandeza mais sofisticada que aquela das línguas naturais.

Para os gregos antigos, a natureza era matematicamente projetada. Coincidência ou não, as poucas regras conhecidas são relações quantitativas. Talvez, aquelas ainda incógnitas também o sejam. Daí a ideia de aplicar um formalismo matemático capaz de revelar padrões invisíveis tanto à observação direta quanto às abordagens já empregadas. A matemática “enxerga” entidades abstratas e as relações entre elas. E era exatamente isso que faltava. O livro “Mathematical Grammar of Biology” (Gramática Matemática da Biologia), de minha autoria, conta essa história em mais detalhes. Culmina com a apresentação de quatro novas RID matematicamente deduzidas, que, parafraseando Dr. Collins, “eram conhecidas anteriormente somente por Deus”. Elas enriquecem a “gramática do DNA”, e revelam mais uma centelha da beleza matemática escondida no código da vida. A publicação em inglês pode ser consultada na biblioteca da Embrapa Informática Agropecuária em Campinas, ou adquirida através deste link.

Faz parte da natureza paradoxal do Conhecimento expandir as fronteiras do desconhecido. E estas últimas, como diria Nelson Rodrigues, “são vastíssimas”. Exceção feita à PRPC que está diretamente ligada à estrutura do DNA, não se conhece o papel ou a significância das demais RID. Sabe-se, entretanto, que foram preservadas ao longo da evolução. Isso implica que são importantes? Ou não passam de artefatos irrelevantes à adaptação e à sobrevivência dos organismos? A resposta só será conhecida quando a comunidade científica se debruçar seriamente sobre a urgentíssima “gramática da biologia”.

[+] Veja mais Opinião aqui

Publicidade