Digitalização é a quarta Revolução Industrial

Digitalização é a quarta Revolução Industrial

A quarta revolução industrial foi iniciada pela digitalização. A digitalização significa a transferência de muitos aspectos da vida humana do mundo real para o virtual, bem como o desenvolvimento de infra-estruturas eletrônicas que tornam isso possível. À medida que a digitalização avançava, também avançavam os métodos de interação humana com computadores e dispositivos eletrônicos. Hoje em dia é difícil operar sem pelo menos conhecimentos básicos de Internet e do uso de dispositivos eletrônicos.

A Digitalização na Vida Cotidiana

As seguintes atividades são realizadas via Internet e via computadores e celulares, entre outras: contatos interpessoais (e-mails, ligações telefônicas, mensagens de texto, mms, chats, fóruns de discussão), compras, operações financeiras, muitas pessoas realizando parte ou todo o seu trabalho profissional utilizando computadores e muitas vezes a Internet, os processos de tomada de decisão nas empresas e outras instituições também são frequentemente realizados através de comunicação remota e reuniões virtuais.

A Internet atingiu muito mais profundamente a vida humana, porque muitas pessoas mantêm seus blogs pessoais na Internet e muitas pessoas usam sites de namoro online. Não só os computadores, mas também os eletrodomésticos estão cada vez mais ligados à Internet, pelo que pode, entre outros: verificar o estado do frigorífico durante as compras (alguns frigoríficos podem gerar uma lista de compras para um determinado utilizador), ou controlar e supervisionar o funcionamento de uma máquina de lavar ou de ar condicionado (ou aquecimento central).

A Digitalização na Indústria e Negócios

A informatização chegou a tal ponto que hoje em dia, para reparar um automóvel, na maioria dos casos é necessário primeiro ligar o seu computador de bordo ao computador do mecânico para ler potenciais mensagens de erro e avisos (tomada de diagnóstico). Até as televisões são hoje pequenos computadores que também estão conectados à Internet, para que os usuários possam assistir a filmes em portais online.

Isto leva a uma conclusão importante – nomeadamente, que quase todas as pessoas deixam enormes quantidades de dados na Internet. Não apenas pessoas, mas também empresas e quaisquer organizações ou instituições. Você pode conhecer cada pessoa e instituição na Internet quando nasceram ou quando determinada instituição foi criada, sobre sua localização, muitas vezes você pode encontrar opiniões diferentes em fóruns de discussão, no caso de empresas, seus relatórios financeiros, extratos dos membros do conselho de administração, recomendações, recomendações e comportamentos em diversas situações.

Nem todos os dados estão disponíveis publicamente, porque alguns dados são úteis e privados, mas mesmo com base em dados públicos é possível aprender muito sobre uma pessoa ou uma empresa. As instituições judiciárias, aliás, também têm acesso a dados fornecidos, desde que tal acesso seja concedido por decisão judicial em investigações em andamento.

Também dentro das empresas e instituições, os dados são recolhidos em formato eletrónico, que antes só estavam disponíveis em papel. Cada tarefa recebe seu número de identificação e ao passar pelas pessoas subsequentes que realizam atividades relacionadas a ela, é possível acompanhar seu andamento entre as estações, bem como seu ritmo e custos.

Todas as transações que são realizadas, por exemplo, em compras (transações efetuadas e encomendas efetuadas) também são registradas e depois arquivadas. Até mesmo a forma como o cliente navega no site da loja também fica registrada para verificar quais páginas o cliente visitou, quais produtos ele visualizou, se adicionou ao carrinho ou fez alguma compra. Cada loja ou empresa coleta informações eletrônicas sobre quantos produtos foram produzidos ou adquiridos, quantos foram vendidos e quais entregas são fáceis para o dia seguinte.

Big Data e Ferramentas de Processamento

Desta forma, são coletadas enormes quantidades de dados, chamadas big data em inglês, que por vezes é traduzido como grandes conjuntos de dados. Por um lado, estes dados são extremamente valiosos porque às vezes contêm informações valiosas que permitem tomar decisões corretas no futuro. Por outro lado, a quantidade desses dados é enorme e é necessário utilizar ferramentas adequadas para processar uma quantidade tão grande de dados.

Por exemplo, o popular programa Ms Excel permite usar planilhas com um milhão de linhas. Mas se alguém tentasse calcular taxas de retorno para um milhão de reclamações neste programa, levaria muito tempo – apenas carregar tal arquivo levaria muito tempo. Normalmente, o big data é processado primeiro em programas de banco de dados e depois em programas ou ferramentas estatísticas dedicadas ao big data.

Aprendizado de Máquina e Inteligência Artificial

Uma das ferramentas para processar grandes conjuntos de dados são os algoritmos de aprendizado de máquina e inteligência artificial. Uma característica comum desses métodos é a busca por padrões e geralmente também essas lembranças para poder encontrá-los posteriormente em um novo lote de dados. Esses métodos são divididos entre aqueles que buscam padrões por si próprios (podem ser humanos ou feedback) e aqueles que são aprendidos primeiro, ou seja, são apresentados dados e informados sobre a ocorrência ou não de um padrão específico.

Os métodos que não exigem supervisão incluem: Algoritmo k-NN, ou seja, o algoritmo de busca do vizinho mais próximo. Cada observação – pode ser, por exemplo, o relatório financeiro de uma empresa selecionada – é salva como um vetor multidimensional, ou seja, uma sequência de números (que descreve todos os elementos do relatório financeiro por sua vez).

O humano informa ao algoritmo quantos grupos separados existem na população (por exemplo, empresas falidas e aquelas em boa situação financeira). Utilizando várias medidas de distância, o algoritmo agrupará todas as empresas em dois grupos, que, de acordo com a medida de distância selecionada, são semelhantes entre si dentro dos grupos e diferentes entre os grupos. Uma pessoa pode então avaliar se tal divisão faz sentido e é útil.

Métodos Supervisionados

Os métodos populares que exigem supervisão humana incluem árvores de decisão, método de vetores de suporte, inferência bayesiana ingênua, análise discriminante e redes neurais artificiais. Os algoritmos considerados baseiam-se em diferentes aparatos matemáticos, mas têm uma coisa em comum. Primeiro vem o processo de aprendizagem.

O treinamento cria pares que consistem em um objeto de treinamento de entrada (geralmente um vetor) e uma resposta desejada (geralmente um número). Os algoritmos então processam esses pares de dados e ajustam sua estrutura interna para que sejam capazes de gerar a resposta desejada pelo supervisor com base no objeto de treinamento. Então você pode usar esses algoritmos aprendidos para novos dados com uma resposta desconhecida, e os algoritmos adicionarão a cada novo vetor de dados qual é a resposta para esse vetor de dados.

Por exemplo, você poderia apresentar um conjunto específico de projeções financeiras de empresas que cometeram crimes financeiros (falsificação de relatórios, suborno, roubo de patentes, etc.) com a informação de que se trata de empresas fraudulentas e, em seguida, algoritmos para os novos dados identificarão ainda mais empresas que provavelmente também cometeram fraude.

Árvores de Decisão

No caso das árvores de decisão, para todas as informações disponíveis sobre os objetos, é testado qual variável do objeto de treinamento de entrada (no caso das projeções financeiras, qual elemento da demonstração financeira) está mais fortemente associado à resposta desejada.

Por exemplo, se você estiver procurando por fraudadores, poderá descobrir que isso é mais visível nos accruals, que a maioria das empresas fraudadoras tinham accruals invulgarmente elevados, enquanto entidades como honestas os tinham muito mais baixos. É criado o primeiro nó da árvore, que divide as observações em dois grupos para um determinado valor desses assentamentos (ou participação no patrimônio desses assentamentos).

Em seguida, busca-se outro elemento do objeto de treinamento, que também distingue claramente entre homens honestos e desonestos. Desta forma, é construída uma árvore de decisão. A construção de uma árvore geralmente termina quando não há mais candidatos para nós, ou quando a árvore se separa corretamente como empresas em honestas e desonestas. A árvore de decisão dividirá o grupo de treinamento em vários subconjuntos, mas cada um desses subconjuntos deverá conter quase exclusivamente fraudadores ou quase exclusivamente empresas honestas.

Florestas Aleatórias

Em vez de uma árvore de decisão, você pode construir uma floresta inteira. Isso é feito de tal forma que, tendo o que descrevem as observações, são selecionadas uma determinada parte das observações e uma determinada parte dos elementos que são específicos desses vetores. Como resultado, uma árvore diferente é criada para cada sorteio. Cada árvore foi treinada com menos dados de treinamento do que toda a amostra. Cada árvore tomará então a sua própria decisão sobre se o indivíduo é um impostor ou não, e a decisão final será baseada na votação pela maioria. Este método é chamado de floresta procurada.

Algoritmo de Aumento de Gradiente

Outra variante de uma estrutura baseada em árvore de decisão mais complicada é o algoritmo de aumento de gradiente. Neste caso, a primeira árvore é criada primeiro, com um número limitado de nós. Em seguida, são testes quais observações a árvore são classificadas incorretamente. Uma vez que sabemos em quais observações a árvore comete erros, outra árvore é criada para classificar corretamente as observações que a primeira árvore não conseguiu lidar.

Então, a terceira árvore e a próxima são criadas usando o mesmo princípio. Depois de treinar o algoritmo e utilizá-lo em novos dados, primeiro a primeira árvore (classificação) gera a resposta, depois a segunda, etc. A primeira árvore "sabe" para quais observações deve se basear na resposta obtida na segunda árvore, e a A segunda árvore sabe quando confiar na resposta obtida na terceira árvore.

Máquinas de Vetores de Suporte

Além das árvores de decisão, um algoritmo popular é o método de máquina de vetores de suporte (SVM). Neste caso, os objetos de treinamento são vetores de dados novamente. Esses vetores de dados podem ser imaginados como vetores em um espaço multidimensional. A essência do algoritmo SVM é encontrar um hiperplano que divide o espaço multidimensional em duas partes (ou mais partes, dependendo do problema).

Isto significa que de um lado do hiperplano deverão existir vetores que descrevam empresas honestas e, do outro lado do plano, deverão existir vetores que descrevam empresas desonestas. Depois você poderá apresentar novos dados ao algoritmo e ele verificará em que lado do hiperplano os dados estão localizados e, com base nisso, dará uma resposta sobre a honestidade de determinada empresa.

Inferência Bayesiana Ingênua

A inferência bayesiana ingênua depende de probabilidades condicionais. É altamente provável que um determinado evento ocorra se outro evento ocorrer. Para empresas fraudadoras, calcula-se a probabilidade de um evento X1, desde que esta entidade tenha ocorrência de fraude (evento Y). Em seguida, calcule-se a probabilidade de outro evento – X2, novamente desde que a entidade tenha ocorrência de fraude.

Na última análise, a ideia é calcular a probabilidade da conjunção de muitos eventos: X1 e X2 e X3… etc. Desde que a empresa tenha cometido a fraude primeiro. A regra de Bayes permite então calcular a probabilidade de fraude (evento Y) desde que ocorram os eventos X1, X2, .. etc. A engenhosidade no nome do algoritmo resulta do fato de se assumir que os eventos X1, são. completamente verdadeiro).

Análise Discriminante

A análise discriminante também requer um certo número de observações para as quais a resposta é conhecida (empresas conceituais como fraudadoras ou não fraudadoras). O importante é que este método requer o uso de valores padronizados, ou seja, cada elemento do vetor de treinamento deve assumir valores do mesmo intervalo de valores – por exemplo, de menos um a mais um.

Normalmente, no caso de dados financeiros, é possível dividir o valor da demonstração financeira por algum outro elemento da demonstração financeira (ou seja, não são utilizados diretamente os dados da demonstração financeira, mas sim os chamados rácios financeiros). O algoritmo funciona de forma que seja calculando um valor médio para cada elemento do vetor de treinamento para todas as observações de uma determinada classe (no caso desenvolvido de empresas fraudulentas e honestas) (o método assume que todos esses elementos possuem uma distribuição normal) – separadamente para empresas fraudadoras e separadamente para empresas honestas.

Então, para cada elemento do vetor que descreve uma determinada observação, é contado à distância desse elemento a cada mídia. Por fim, somam-se essas distâncias quadradas e avalia-se se essa distância é a menor da classe de empresas honestas ou desonestas (a qual classe uma determinada observação é mais próxima).

Redes Neurais Artificiais

Afinal, as redes neurais artificiais possuem outro mecanismo de funcionamento. Um neurônio é uma solução única na qual os coeficientes de variáveis​​podem ser alterados. Variáveis ​​são dados do vetor de treinamento (e depois do vetor para o que queremos obter uma resposta). Os coeficientes são completamente aleatórios no início.

Os neurônios são organizados em camadas. O número de neurônios é determinado de forma bastante subjetiva, embora existam dicas diferentes sobre quantos neurônios devem ser usados, dependendo de quantos elementos estão no vetor de treinamento (ou seja, quantas variações numéricas descrevem uma determinada empresa).

A primeira camada de neurônios recebe os dados do vetor de treinamento, multiplica-os por pesos selecionados aleatoriamente e depois normalmente transforma o valor obtido de forma que os valores baixos provenientes de zero e os valores altos vindos de um (por exemplo, o valor Os resultados são dados como argumento para a função sigmóide, que é exatamente como funciona).

Os valores obtidos desta forma de todos os neurônios da camada de entrada são enviados para a segunda camada de neurônios. Esta pode ser a última camada, mas pode haver muito mais camadas. A próxima camada faz o mesmo – pega os resultados (próximos de zero ou um) de todos os neurônios da camada de entrada, multiplica-os por pesos selecionados aleatoriamente, calcula o resultado, transforma-o novamente em um valor próximo de zero ou um e envia isso ainda mais.

Conteúdo Relacionado

Voltar para o blog

Deixe um comentário

Os comentários precisam ser aprovados antes da publicação.