terça-feira, 15 de setembro de 2009

Top 10 Melhores Práticas em Projetos com Oracle Data Integrator

Esse post assume que o leitor tem alguma familiaridade com o Oracle Data Integrator.
O Oracle Data Integrator (ODI) é um produto muito poderoso quando utilizado corretamente. Infelizmente, alguns erros podem levar a resultados desastrosos em projetos de integração de dados. Nesse post abordo 10 melhores práticas para evitar os erros mais comuns em projetos com Oracle Data Integrator.
Boa Prática #1 – Entenda e Use Corretamente os Contextos e a Topologia
Os Contextos e a Topologia são algumas das características mais poderosas do ODI em tempo de design e em tempo de execução de artefatos e vários ambientes diferentes.
No ODI, todos os desenvolvimentos bem como as execuções são feitos sobre uma Arquitetura Lógica (schemas lógicos, agentes logicos), que se resolvem em um dado Contexto para uma Arquitetura Física (fonte de dados física/servidores de dados de destino/schemas e agentes de run-time do ODI). Os Contextos nos permitem chavear a execução dos artefatos de um ambiente (Contexto) para outro.
Agora, leia o parágrafo anterior novamente. Tenha certeza de que você compreendeu o conceito de Contexto, Arquitetuta Lógica e Arquitetura Física.
Dois erros comuns que são cometidos em relação aos Contextos:
  • Esquecer de mapear as arquiteturas física e lógica para um determinado Contexto. Isso é um erro de administração de Topologia que leva a falhas de execução em um dado Contexto. Para evitar isso, garanta que todos os recursos lógicos estão mapeados para recursos físicos nesse Contexto.
  • Um grande erro é forçar o Contexto quando não é necessário. Nas interfaces ou nas procedures, existem caixas de seleção com a lista de Contextos, defina como “default” ou “execution context”. A não ser que seja realmente necessário forçar o contexto por uma razão funcional, deixe as caixas de seleção como estiverem. São raros os casos onde é realmente necessário forçar o Contexto.
Resumindo: Garanta que o seu entendimento sobre Contextos e Topologia esteja sólido. Defina cuidadosamente a Topologia e o mapeamento dos Contextos. Evite forçar Contextos.
Boa Prática #2 – Design Independente de Contexto
Em vários tipos de artefatos do ODI (procedures, variáveis, interfaces, etc.) é possível adicionar código SQL. Um erro muito comum é inserir nomes de objetos qualificados, como no exemplo abaixo que faz um DROP na tabela TEMPO_001 num schema de staging:
DROP TABLE STAGING.TEMP_001
Isso é um “código dependente de contexto”. Se você executa esse código em ambiente de produção onde a área de staging se chama PRD_STG, seu código não funciona. Perceba que os nomes dos schemas são definidos na Topologia, e os contextos acessam o schema correto dependendo do contexto de execução. Nesse caso a pergunta é: Como usar isso no seu código?
Os Métodos de Substituição (OdiRef API) existem para disponibilizar no seu código os metadados armazenados no ODI tornando o código independente de contexto. Sendo assim, eles garantem que o nome qualificado da tabela em questão será gerado de acordo com o contexto onde o código está sendo executado.
Utilizando os Métodos de Substituição, o código genérico ficaria assim:
DROP TABLE <%odiRef.getObjectName("L", "TEMP_001","W")%>.
Consulte o Substitution Methods Reference Guide para mais informações sobre como utilizar essa API. O “expression editor” também ajuda muito.
Resumindo: Tão logo você comece a digitar um nome de schema, nome de database, nome de usuário ou qualquer informação referente à um servidor ou schema, pare, respire fundo e considere utilizar um Método de Substituição.
Boa Prática #3 – Utilize Procedures Apenas Quando Necessário
As procedures permitem a execução de ações bem complexas, incluindo comandos SQL. Além disso, elas permitem a utilização das conexões source e target e ainda suportam binding. Isso significa que é possível mover dados de um lado para o outro usando apenas procedures.
Os desenvolvedores que se sentem à vontade com código SQL ficam sériamente tentados a escrever código para fazer transformações e movimentação de dados ao invés de desenvolver interfaces.
Existem alguns problemas quanto à isso:
  • Procedures contém código manual que precisa sofrer manutenção manualmente.
  • Procedures não mantém referências com os outros artefatos ODI como datastores, modelos, etc., fazendo com que a manutenção seja muito mais complexa comparado às interfaces.
Procedures nunca devem ser utilizadas para mover ou transformar dados, essas operações devem ser feitas utilizando as interfaces.
Resumindo: Quando você começar a usar procedures para mover/transformar dados provavelmente você está fazendo uso inadequado das procedures e deveria usar interfaces no lugar delas.
Boa Prática #4 – Garantir Qualidade de Dados
Às vezes o líder de projeto de integração de dados não leva em conta a qualidade dos dados. Isso é um erro comum. O processo de integração pode estar movendo e transformando lixo e propagando esse lixo para outras aplicações.
O ODI permite que a qualidade dos dados seja garantida na fonte, (source) utilizando static checks ou então durante o processo de integração antes de gravar no destino (target) utilizando flow checks. Utilizando esses dois mecanismos de checagem de dados é possível garantir a qualidade dos dados.
Resumindo: Garanta a qualidade dos dados usando os dois métodos: static checks e flow checks. Qualidade de dados não é uma opção.
Boa Prática #5 – Capturar Erros em Packages
Numa package é possível sequenciar passos de execução. Cada passo em uma package é passível de falha por qualquer razão (source ou target fora do ar, muitos registros rejeitados em uma interface, etc.).
É necessário sempre procurar prever os possíveis erros em cada passo da package.
Resumindo: As setas de “OK” (verdes) nas packages precisam existir e as setas “KO” (vermelhas) são o que tornam a sua package à prova de balas.
Boa Prática #6 – Escolha o KM correto
A escolha do KM é crítica ao desenvolver uma interface pois define quais as features estarão disponíveis e afeta também a performance de uma package.
Alguns erros comuns na escolha do KM:
  • Começar com KM’s complexos: Desenvolvedores iniciantes que ter suas interfaces rodando rapidamente mas às vezes não levam em conta todos os requisitos para utilizar um KM. Escolhendo, por exemplo, um LKM de uma tecnologia específica pode não funcionar por uma configuração ou instalação incorreta do loader. Uma ecolha mais segura seria começar usando KM’s mais genéricos (como KM’s de SQL) que funcionam na maioria dos casos. Depois de desenvolver suas primeiras interfaces com esses KM’s é hora de mudar para KM’s mais específicos (estude as especificações antes!).
  • Interfaces com excesso de engenharia: KM’s com features extras causam um custo extra de performance. Por exemplo, executar inserts é mais rápido do que executar updates incrementais. Se sua interface deleta os dados no destino antes da integração, utilizar update incremental é “excesso de engenharia” e causará perda de performance. Utilize o KM que se encaixa adequadamente à sua necessidade.
  • De maneira similar, ativar ou desativar algumas fatures do KM pode adicionar passos extras degradando a performance. As opções default do KM são suficientes para executar o KM da forma como ele foi fornecido. Após executar o KM com as opções default é sempre bom revisar e checar se alguma opção pode ser alterada de acordo com a sua necessidade. A descrição do KM é sempre uma boa opção de documentação para entender e otimizar a utilização do KM.
Resumindo: Comece com os KM’s mais simples, não se utilize de “excesso de engenharia” com KM’s complexos ou ativando opções complexas e preste atenção às opções dos KM’s.
Boa Prática #7 - Customize Seus KMs
Knowledge Modules (KMs) é um poderoso framework utilizado em cada ponto de integração no ODI. Um grande número de KM’s está disponível para utilização. Eles suportam uma grande variedade de bancos de dados. Mesmo não sendo necessário na maiorias dos casos, alguns projetos podem ter casos de uso ou requerimentos que solicitem uma customização de KM.
Então, qual deve ser o momento de customizar um KM? A resposta é: Tão logo seja detectada uma operação que precisa ser executada em várias interfaces, por exemplo, rodar um comando no target para otimização da execução.
Não é recomendado começar um KM à partir de uma folha em branco. O caminho recomendado é encontrar um KM que esteja o mais próximo possível do comportamento desejado e à partir dele, customizar de acordo com a necessidade.
Resumindo: Quando uma operação é necessária em muitas interfaces, não tenha medo de customizar um KM e criar o seu próprio KM baseado em algum já existente.
Boa Prática #8 – Organize o Seu Projeto no Início
Gerenciamento e organização podem não parecer pontos críticos quando o assunto é integração de dados, mas são.
O ODI oferece muitas ferramentas que ajudam a organizar o desenvolvimento e o ciclo de vida do projeto: perfis de segurança, projetos de desenvolvimento, pastas, marcadores, versionamento, importação/exportação, impressão da documentação em PDF, etc.
Revise e utilize todas essas ferramentas e features para gerenciar o projeto. Defina a organização do projeto, a padronização de nomes e tudo o que pode evitar o caos depois que o projetos tiver iniciado. Faça isso desde o início do projeto.
Resumindo: Mantenha alta produtividade com o ODI, é melhor ter regras de organização baseadas nas features do ODI para evitar o desenvolvimento do caos.
Boa Prática #9 – Controle os Repositórios
No ODI, um repositório master pode ter vários repositórios work. Também é possível ter vários repositórios master, cada um com seu grupo de repositórios work. Cada repositório tem um ID definido na hora da criação do repositório.
Bem, um repositório não é um documento. É “a fonte da verdade”, é a referência central entre os artefatos do ODI.
Além disso, todo objeto é identificado por um ID interno que depende do ID do repositório. Esse ID interno identifica unicamente um objeto e é utilizado pelo sistema de importação do ODI. Dois repositórios com o mesmo ID possivemente contém objetos com o mesmo ID interno, o que significa o mesmo objeto para o ODI. Transferir objetos entre esses repositórios é como copiar arquivos com o mesmo nome entre diretórios e pode fazer com que o objeto seja substituído.
Garanta que todos os repositorios sejam criados com ID’s diferentes (mesmo em sites diferentes), e defina uma documentação para o processo de mover objetos entre repositórios utilizando import/export ou versionamento.
Resumindo: A multiplicação de repositorios deve ser feita sob estrito controle e planejamento (especialmente quanto à escolha do ID do repositório), e o gerenciamento de transferências de objetos utilizando import/export ou versionamento deve ser feito por vias formais.
Boa Prática #10 – Cuidado Com o Conteúdo dos Repositórios
O ODI armazena todas as informações num repositório de metadados em um banco de dados relacional. Sabendo disso é muito tentador começar a explorar as tabelas do repositório para conseguir informações “mais rápido”.
O repositório não implementa toda a lógica que existe na interface gráfica e também não implementa toda a lógica de negócios que existe no código Java. Construir, por exemplo, dashboards ou relatórios sobre o repositório é aceitável mas escrever dados ou alterar as informações do repositório é perigoso e deve ser deixado para operações do suporte técnico da Oracle.
Resumindo: Você faria isso no banco de dados do ERP da sua empresa? Também não faça com o repositório de metadados do ODI.

5 comentários:

  1. bom dia willy tudo bem?, me chamo wilson e comecei a trabalhar agora com o ODI, sera que poderia me ajudar?, qdo o odi extrai dados do cubo essbase, ele gera um txt atraves do calcscript, depois há o processo de gravação do bd relacional, porem , qdo o odi gera as temp tables, ele grava mto rapido, só que quando o ODI replica os dados das temp table para a table de destino, ele demora pra caramba, sabe se há como gravar os dados diretamente na table sem pssar pelas temp?

    abraços

    ResponderExcluir
  2. Wilson,

    Você pode tentar alterar o KM para gravar sem usar as tabelas TEMP mas eu acho arriscado porque essa etapa garante a integridade dos dados, se o processo falhar na metade, vc tera problemas para reprocessar a sua interface.

    Sugestoes:

    1 - Verifique se o problema de lentidao nao esta nas bases relacionais, tanto a do ODI quanto a base de destino.

    2 - Se achar que eh valido, altere o KM para nao usar tabelas temporarias, mas como disse, eu acho arriscado.

    Espero ter ajudade.

    Att,
    Willy Scalioni

    ResponderExcluir
  3. bom dia willy tudo bem?, me chamo Odinei e comecei a trabalhar agora com o ODI, não conheço muito será que poderia me ajudar?
    Vc teria algum exemplo de como usar o ODI para ler um arquivo CSV e importar para uma tabela no oracle.
    Queria começar a estudar o ODI fazendo este processo para entender melhor a ferramenta.
    Desde já agradeço sua atenção

    ResponderExcluir
  4. Odinei,

    O melhor caminho é instalar o produto pois assim você vai conhecer melhor a arquitetura dele. Depois, com os manuais e usando recursos como os fóruns da Oracle (http://forums.oracle.com/forums/forum.jspa?forumID=374&start=0) você vai conseguir exemplos básicos para começar a desenvolver.

    ResponderExcluir
  5. Parabéns pelo artigo, excelentes dicas. Sempre procuro material de boas práticas em portguês e nunca acho.

    ResponderExcluir