Random Forest são algoritmos de classificação poderosos que podem ser treinados para ajudar especialistas em finanças a tomar melhores decisões e detectar irregularidades no mercado.
“O bater das asas de uma borboleta no Brasil desencadeia um tornado no Texas?” Esta questão, colocada por Edward Lorenz, seria a base do que a ciência popular hoje chama de “Efeito Borboleta”. A ideia é que pequenas mudanças podem causar repercussões com consequências em grande escala.
Para ser mais preciso, o Efeito Borboleta faz parte da Teoria do Caos e pode ser resumido como a dependência sensível das condições iniciais em que uma pequena mudança num estado de um sistema não linear determinístico pode resultar em grandes diferenças num estado posterior.
O mundo financeiro está atormentado por efeitos borboleta, e talvez um dos maiores exemplos tenha sido a Segunda-feira Negra, quando o mercado de Hong Kong caiu, o seu índice caiu rapidamente e as perdas aumentaram num local de pequeno-almoço. Antes que alguém pudesse compreender o que aconteceu, as consequências foram sentidas em todo o mundo.
Que tal 2007? Quando o colapso de uma parte reconhecidamente pequena do mercado hipotecário dos EUA causou uma crise generalizada que se fez sentir em todo o mundo. Foram necessários resgates, ajuda governamental e diferentes formas de apoio para reiniciar e normalizar a economia global.
As finanças são complexas, pois dependem tanto das forças económicas como da psicologia dos investidores. Basta um empurrão e os dominós começam a cair. Por que isso acontece e como a tecnologia pode nos ajudar a evitá-lo?
A fragilidade dos sistemas financeiros
Andrew Haldane, diretor executivo de estabilidade financeira do Banco de Inglaterra, apresentou um artigo académico onde observou que o sistema financeiro se tinha tornado progressivamente mais complexo, mas cada vez menos diversificado. O que isso implica?
Imagine os sistemas financeiros como um edifício: quanto mais diversificado for um sistema, mais fundações terá para suportar a pressão. Quanto mais complexa, maior e mais complicada é a infraestrutura (colunas e vigas que distribuem o peso junto com a estrutura).
Hipoteticamente, você poderia ter poucas fundações, mas ter uma infraestrutura que distribua o peso e mantenha o edifício em pé. Infelizmente, se uma das fundações falhar, isso causaria um efeito cascata em todo o edifício e, independentemente da infraestrutura, acabaria por ruir.
Por outras palavras, quanto menos diversificado for o nosso sistema financeiro, menos redes de segurança terá para suportar mudanças repentinas e choques aleatórios. Não importa quão elegante seja o seu edifício, você não pode construí-lo sobre gelo fino.
Uma introdução às florestas aleatórias
Antes de entender a floresta, primeiro temos que falar das árvores (desculpem o trocadilho). Árvores de decisão são algoritmos poderosos de aprendizado de máquina usados para classificação. É uma estrutura semelhante a um fluxograma onde cada nó representa um “teste” de um atributo.
Embora possa parecer complicado, na verdade é bastante simples. Na verdade, usamos inconscientemente árvores de decisão o tempo todo.
Por exemplo, se você quiser comer tacos, mas não quiser ir muito longe, poderá usar uma árvore de decisão. Primeiro você faz uma lista de todos os restaurantes que conhece na cidade, depois os classifica em duas categorias, os que têm tacos no cardápio e os que não têm.
Em seguida, classificamos aqueles com tacos em seus cardápios como “próximos” ou “longe”, dependendo de quão próximos estão de nossa localização atual. Depois, finalmente, classificamo-los mais uma vez, desta vez como “dentro do nosso orçamento” ou “muito caros”. Por fim, terminamos com uma lista de restaurantes de tacos próximos que são acessíveis.
Na vida real, um único especialista, por melhor que seja, pode cometer erros, por isso contamos com comitês. Em um comitê, mesmo que um especialista cometa um erro, você terá diversas outras opiniões divergentes que o ajudarão a fazer a escolha certa no final.
As Random Forests são como comitês digitais, em vez de termos uma única árvore de decisão, temos várias árvores trabalhando em uníssono, cada árvore da floresta faz uma previsão e, assim como no Congresso, os votos são computados. A previsão mais votada é o resultado do modelo. É o aprendizado de máquina reforçado pelo poder da democracia.
Random Forest funciona porque cada árvore individual tem pouca ou nenhuma correlação com outras árvores, o que uma árvore prevê não está ligado ao que as outras árvores prevêem. Em termos humanos, poderíamos dizer que todos têm pontos de vista diferentes, o que por sua vez garante que não existe um preconceito sistemático.
Este algoritmo é uma solução elegante para fazer previsões em sistemas altamente voláteis e para trabalhar com problemas complexos que podem ter uma quantidade quase infinita de pontos de dados. Por outras palavras, o tipo de problemas que enfrentamos constantemente nas finanças.
Florestas aleatórias em finanças
Pesquisas mostraram que as florestas aleatórias superam quase todas as outras formas de previsão relativas aos preços das ações, análise qualitativa das ações e preço de opção e spread de crédito. Há duas coisas a serem observadas aqui.
Primeiro, há o fato de que as ferramentas de previsão tradicionais dependem de regressões lineares, que é um algoritmo extremamente poderoso, mas somente quando as relações que você está estudando são de natureza linear (em outras palavras, não importa quantas variáveis A mudem, a Variável B irá continue mudando em conjunto).
As relações da vida real são muitas vezes mais complexas do que isso, por exemplo, a altura e o peso humanos. Existe uma relação linear aí (pessoas mais altas tendem a pesar mais), mas isso é verdade até certo ponto. Depois disso, o peso pode aumentar enquanto a altura estagna.
O que isso significa é que um modelo de regressão linear para prever a altura a partir do peso só funcionará até certo ponto. Algo semelhante acontece com os preços das ações, embora alguns valores prevejam um aumento nos preços das ações, em certos limites essas relações mudam.
O outro ponto é que Random Forests obriga os cientistas a redefinir os seus problemas em termos de análise de classificação. Em vez de enquadrar o problema como “Se X aumentar, então quanto Y aumentará”, perguntamos “o valor X vai mudar?”. Isso pode não parecer muito, mas você ficaria surpreso ao ver como mesmo uma pequena reformulação pode mudar nossa percepção do problema.
Com os dados certos, as florestas aleatórias podem ajudar-nos a avaliar se uma pequena mudança num mercado local pode ter enormes ramificações na economia global. E graças às tecnologias IoT, IA, computação em nuvem e mineração de dados, coletar e processar dados financeiros nunca foi tão fácil.
Para ser justo, as Random Forests não são perfeitas, como qualquer outro algoritmo, o modelo é tão bom quanto os dados com os quais você o treina. É um fato bem conhecido que as Florestas Aleatórias são extremamente suscetíveis a pequenos vieses. Alimente-o com dados ruins e você acabará com um modelo não confiável.
As Random Forests não revolucionarão o mundo financeiro, mas são certamente uma ferramenta poderosa que pode ser aplicada a uma infinidade de problemas, proporcionando novas formas de enquadrar questões e de prever o comportamento do mercado.
Fonte: BairesDev