Conhece o Apache Pig? · RafaelMesquita

Apache Pig é uma plataforma para análise de grandes conjuntos de dados que consiste em uma linguagem de alto nível para expressar programas de análise de dados, aliada a nfraestrutura para avaliação desses programas. A principal propriedade dos programas Pig é que sua estrutura é passível de paralelização substancial, o que por sua vez lhes permite lidar com conjuntos de dados muito grandes.

Atualmente, a camada de infraestrutura do Pig consiste em um compilador que produz sequências de programas Map-Reduce, para os quais já existem implementações paralelas em larga escala (por exemplo, o subprojeto Hadoop). A camada de linguagem do Pig atualmente consiste em uma linguagem textual chamada Pig Latin, que possui as seguintes propriedades principais:

Facilidade de programação. É trivial conseguir a execução paralela de tarefas simples e “embaraçosamente paralelas” de análise de dados. Tarefas complexas compostas por múltiplas transformações de dados inter-relacionadas são explicitamente codificadas como sequências de fluxo de dados, tornando-as fáceis de escrever, compreender e manter.
Oportunidades de otimização. A forma como as tarefas são codificadas permite que o sistema otimize sua execução automaticamente, permitindo ao usuário focar na semântica e não na eficiência.
Extensibilidade. Os usuários podem criar suas próprias funções para realizar processamento para fins especiais.

Apache Pig é lançado sob a licença Apache 2.0 .