Big Data, traduzido para o português como “dados massivos”, refere-se a conjuntos de dados com volume, variedade e velocidade de processamento que ultrapassam a capacidade dos sistemas tradicionais.
Simplificando, é um termo usado para descrever quantidades imensas e complexas de informações geradas a partir de diversas fontes, como:
- Redes sociais
- Transações financeiras
- Sensores em dispositivos
- Imagens e vídeos
- Registros médicos
O que torna o Big Data um desafio é a dificuldade de armazenar, processar e analisar esses dados com as ferramentas convencionais. Por isso, técnicas e tecnologias específicas são utilizadas para extrair insights valiosos dessa imensidão de informações.
Uma forma comum de definir o Big Data é através dos “3 Vs”:
- Volume: A quantidade massiva de dados gerados.
- Variedade: A diversidade de formatos e origens dos dados, incluindo dados estruturados (como tabelas), semi-estruturados (como emails) e não estruturados (como imagens e vídeos).
- Velocidade: A rapidez com que os dados são gerados e precisam ser processados.
Além dos 3 Vs, alguns especialistas consideram outros aspectos do Big Data, como a veracidade (precisão dos dados) e o valor (utilidade da informação extraída).
Big Data é um campo em constante evolução e tem sido usado em diversas áreas, como:
- Marketing: para entender o comportamento do consumidor e personalizar campanhas.
- Saúde: para diagnosticar doenças, prever epidemias e desenvolver tratamentos personalizados.
- Finanças: para detectar fraudes, gerenciar riscos e otimizar investimentos.
- Governo: para combater a criminalidade, melhorar a prestação de serviços e tomar decisões baseadas em evidências.
Inteligência Artificial e Métodos Quantitativos
1 Big Data.
1.2.1 O paradigma de computação na nuvem.
1.2.2 Requisitos de gerência de dados na nuvem.
1.2.3 Categorias de bancos de dados na nuvem.
1.3 Infraestruturas para processamento distribuído de Big Data: Hadoop, Spark, Kafka.
2.1 Definição e características de um Data Warehouse.
2.2 Data Mart.
2.3 Processamento de Transações em tempo real: OLTP e OLAP.
2.4 Modelagem Multidimensional.
2.5 Bancos de Dados Multidimensionais.
2.6 Projeto de Data Warehouse.
2.7 Conceitos de extração, transformação e carga (ETL).
3 Descoberta de Conhecimento e Mineração de Dados.
3.1 Conceitos básicos do processo de descoberta de conhecimento em bancos de dados (KDD).
3.2 Metodologia de KDD.
3.4 Pré-processamento de dados.
5 Estatística.