PRODUTOS:

RainStor.

SOLUÇÕES:

ARCHIVE ATIVO.

O que é

Considerando a perspectiva de negócios, os dados nas empresas são governados por uma diversidade de compliances  tais como governança corporativa, compliances externos, tanto os nacionais (regulatórios, legais, fiscais e eventualmente investigativos – ex.: CPI) quanto os internacionais (Basileia e SOX). Cada um destes compliances define a longevidade dos dados que devem ser armazenados pelas empresas.

Consequentemente, do ponto de vista de TI, tais compliances dão origem às Políticas de Retenção dos Dados que governam a preservação e proteção dos dados históricos (assim chamados “Cool & Dormant”), porque não sofrem mais mudança de estado, e são ocasionais ou muito raramente acessados com o decorrer do tempo, suas probabilidades de acesso decrescem significativamente, tendendo a zero.

Segundo as práticas de governança de dados, a Gestão do Ciclo de Vida dos Dados (ILM) requer uma categorização e uma administração de dados mais abrangente que a tradicional, claramente definida, tal que corresponda principalmente à realidade imposta pelos “compliances”. O essencial é assegurar que até mesmos os dados históricos, muito raramente acessados, estejam disponíveis quase on-line quando precisarem ser acessados.

Ao longo do tempo, os dados históricos raramente acessados devem ser geridos de tal forma que, ao mudarem de categoria, sejam transferidos entre as camadas de storage tendo em vista reduzir o custo total de propriedade (TCO) da solução de Archive Ativo. É importante lembrar que um dado muito raramente acessado pode tornar-se um dado ativo sujeito até mesmo à mudança de estado, por decisão de negócio. Logo, preservar a integridade histórica dos dados raramente acessados é vital para uma solução de Archive Ativo que satisfaça aos requisitos de governança e ILM.

Porque é importante

Em conformidade com a clássica e reconhecida “pirâmide de temperatura dos dados” (estruturados, semiestruturados e não-estruturados) – Figura 1 –, que define uma taxonomia para a categorização dos dados, eles podem ser classificados como:

  • “Hot” – são os dados transacionais, que mudam frequentemente de estado (podem ser atualizados);
  • “Warm” – são os dados transacionais, que não mudam de estado, mas são muito frequentemente acessados;
  • “Cool” – são os dados históricos, que não mudam de estado e são ocasionalmente acessados e
  • “Dormant” – são os dados históricos, que não mudam de estado e são muito raramente acessados.
    1data

A importância deriva do fato de TI estar apta a disponibilizar:

  • Capacidades de aderir a todos os “compliances” de negócios (internos e externos);
  • Cumprir todos os SLA’s de acesso aos dados que apresentam diferentes latências de dados;
  • Garantir a integridade histórica dos dados em qualquer ponto no tempo, além de preservar e proteger os dados históricos;
  • Minimizar o TCO da solução na medida em que o volume de dados escala segundo taxa de crescimento anual surpreendente, como acontece atualmente--- uma das dimensões de Big Data;
  • Adotar os fundamentos da ecoeficiência aplicados ao armazenamento de dados históricos raramente acessados.

Benefícios para o cliente

Os Experts em Archive Ativo da PHD Brasil trabalham no cliente para responder à seguinte questão crucial: “Por que gastar dezenas, centenas de milhões de dólares para armazenar (no longo prazo), gerir e acessar dados históricos muito raramente acessados se a sua empresa pode gastar apenas uma fração destes custos e aderir a qualquer dos compliances e requisitos de negócios existentes?”

Para defender esta conclusão especifica que responde a tal questionamento, os experts em Archive Ativo da PHD Brasil estudam a aderência aos diversos “complainces” e demanda de negócios aos quais o cliente deve aderir, para apresentar soluções que permitam armazenar, gerir e acessar dados históricos, garantindo que queries submetidos em qualquer ponto no tempo recebam sempre o mesmo conjunto de dados como resposta – no que tange aos dados “Cool & Dormant” –, levando em consideração os requisitos de qualquer natureza.

Os experts da PHD Brasil em Archve Ativo, que se dedicam à descobertas de dados dormentes são envolvidos no início dos trabalhos para identificar os dados cuja probabilidade de acesso tende a zero, usando ferramenta analítica capaz de suportar a tomada de decisão factual, a qual respalda a transferência de dados do armazenamento primário para o ambiente de Archive Ativo.

Mais ainda, os nossos experientes arquitetos na área de dados dormentes orientam o cliente no que tange à adoção de arquitetura para armazenar, gerir e acessar dados históricos, garantindo a mobilidade total dos dados históricos no Storage, reduzindo drasticamente o custo total de propriedade da solução (TCO) na medida em que os dados escalam para dezenas, centenas de terabytes e petabytes.

Para mais informações entre em contato com nossos especialistas em serviços especializados de Archive Ativo e Immutable Data, preferencialmente através do email:
Este endereço de email está sendo protegido de spambots. Você precisa do JavaScript ativado para vê-lo.

Gerência do Ciclo de Vida de uma Grande Riqueza:  Os Dados Também Envelhecem

A Solução para o Gerenciamento do Ciclo de Vida dos Dados – ILM -- propicia à Empresa a disponibilização de uma quantidade muito maior de seus dados para acesso near-line--- são dados com baixa probabilidade de serem acessados, nunca alterados, históricos. A Solução apoia os processos transacionais dos agentes de Negócio da Organização com seus clientes, dando suporte a ambos, clientes e agentes, para que tomem decisões factuais, sejam elas operacionais, táticas ou estratégicas.

Como todos nós, os dados também envelhecem. Mas não como os seres humanos, cuja métrica é o passar do tempo.  Os dados envelhecem pelo desuso.

Outra questão: é um equívoco tratar todos os dados como se tivessem a mesma importância para o negócio, seja ele qual for, como se fossem utilizados com a mesma frequência. Portanto, os dados devem ser segregados com base na probabilidade de serem acessados.

Essa é a base do conceito de “ILM – Information Lifecycle Management”. É o reconhecimento de que os dados têm um ciclo de vida -- que pode, sim, ser influenciado pela variável tempo-- e devem ser segregados em camadas diferentes de armazenamento e gestão.

Segundo estimativas do segmento de TI, para cada R$1,00 (um) gasto em armazenamento gastam-se R$7,00 (sete) em Gestão. Além disso, enquanto o custo de armazenamento tem decrescido significativamente nos últimos anos, isso não é acompanhado pelo decréscimo do custo de Gestão na mesma proporção.  

As soluções da PHD Brasil trazem benefícios diretos ao Cliente final e benefícios, em especial, para os profissionais envolvidos em TI. Além de implementar o conceito de ecoeficiência.

Um número cada vez maior de organizações consideram seus dados, criados no dia a dia de suas operações, e as informações deles derivadas, como bens valiosos. Aquelas organizações com acesso a dados de alta qualidade tomarão decisões de negócio mais informadas, factuais, e mais efetivas. Isto é verdade para instituições de todas as verticais de mercado já que todas precisam de informações para dar suporte às suas decisões e otimizar a qualidade dos serviços prestados a seus clientes. 

Dados são considerados um bem da Empresa capaz de alavancar seus negócios nos níveis operacional, tático e estratégico.

Assim, a introdução das soluções para o Gerenciamento do ILM propicia à Empresa a disponibilização de uma quantidade muito maior de seus dados para acesso near-line. E apoia os processos transacionais dos seus agentes de Negócio com seus clientes dando suporte a ambos, clientes e agentes, para que tomem decisões factuais, sejam elas operacionais, táticas ou estratégicas.

Já em TI, o desenvolvimento de aplicações e o armazenamento e gestão dos dados são beneficiados com a Solução. Portanto, a Solução afeta tanto a infra-estrutura de TI colocada a serviço dos profissionais da Empresa, os clientes internos, como também os serviços e produtos oferecidos aos clientes da Empresa, os clientes externos.

Q&A: Addressing Big-Data Challenges

What kinds of technologies are being deployed to streamline these processes and reduce the costs of managing data long term?

As I previously outlined, byte-level compression or de-duplication is well suited to addressing the big-data retention problem for unstructured data such as e-mail messages, files, images, and video but have relatively low impact on overall database sizes. Other techniques, such as database sharding (which involves a partitioning scheme for large databases across a number of servers) and hardware tiering (whereby portions of an RDBMS are moved to lower-cost hardware), merely exacerbate an already complex, administration-heavy environment.

Structured big-data retention requires a new class of data management solution at a total cost of ownership (TCO) significantly lower than traditional RDBMSes or analytics repositories. It’s natural that organizations are looking to new open source offerings (such as NoSQL and Hadoop) and solutions that are as alike as possible. Although such technologies promise low costs for initial deployment, compatibility with existing systems can be challenging due to the potentially high retraining and integration costs. As with any new technology, mainstream adoption and acceptance can only be accelerated if a majority of the friction points, not just cost, can be significantly reduced.

Have these technologies or solutions kept up with the problem or are they still deficient in some way?

Solutions specifically designed for massive structured data retention and online retrieval continue to evolve with the needs of the market. The right solution naturally depends on the main use case involved.

In the “big-data diet” use case, static or historic data is moved out of either the OLTP or OLAP production environment, freeing the production repository of a large burden while retaining full on demand accessibility to a second-tier repository at a much lower TCO. This benefits the performance of the production environment, but also has a secondary effect of reducing the overall size of the downstream test, development, and back-up environments. Cost savings and operational efficiency, including time for migrations, is greatly reduced. If at any time data in the archive needs to be modified, it can be programmatically reinstated back to the production system. An example of this scenario is in health care when a patient record, moved to the retention repository, may need to be re-activated after several years of inactivity.

For “big-data ingestion” of immediately historical data, these new solutions are replacing traditional RDBMSes in order to keep up with massive data volumes, particularly in the telecommunications sector where growth rates are exceeding billions of records a day.

In the end, the best solution is specifically architected for big-data retention rather than forced to fit into a specific use case. With the continuing growth in data volumes and changing compliance regulations, any solution must also be scalable, configurable, and adaptable in order help organizations keep this big-data retention problem under control.

How are partners such as Informatica and others tapping RainStor to help address this market need for data-intensive industries and their end-user customers?

Informatica OEMs RainStor for “big-data diets” as part of their Information Lifecycle Management solution that enables organizations to archive or retire legacy application data for long-term retention.

Adaptive Mobile and Group 2000 use RainStor as a “big-data ingestion” primary repository to handle billions of records a day on behalf of their telco clients.

Ultimately, RainStor allows our partners to offer new revenue-generating retention offerings at greatly reduced physical storage, infrastructure costs, and administration resources, resulting in the lowest possible TCO per big-data terabyte.

Why is data retention more challenging now than it was as recently as a year ago?

Setting aside the massive data volume growth rates, entire industries (such as financial services, banking, health care and communications) are becoming much more heavily regulated. Aside from protecting individuals from fraudulent or illegal activity, data retention regulations in industries such as health care also benefit the health of the individual by ensuring more accurate and timely accessibility of historical patient records. Data retention rules and schedules vary by type of data, by industry sector, and even by country. These regulations change over time following new legislation, forcing organizations to stay compliant in order to stay in business. Organizations are also wary that as their data reaches the end of its retention period, it needs to be purged to avoid any further liability.

OLTP and OLAP technologies have continued to evolve, but their focus has not been to support long-term data retention. Neither should they, as they are tuned to be best in class for transactional and analytical capabilities. IT's data retention challenge requires a new level of functionality for handling massive size, ever-changing compliance parameters, and interoperability with those traditional systems, all at the lowest possible price.

What kinds of organizations or industry sectors are most challenged with retaining and managing growing amounts of data?

Organizations in sectors that are more heavily regulated tend to face tough challenges retaining volumes of data online for longer time periods. In the U.S. financial system, there are stringent SEC and SOX rules. Health-care legislation passed in 2009 introduced a big-data retention time bomb that requires an always-accessible on-demand electronic health record for the lifetime of every U.S. patient.

Worldwide vigilance against terrorist attacks has translated into lawful intercept mandates for access to, and search of, communications records for global counter-terrorism. Many countries have rules for legal electronic surveillance of circuit and packet communications. At any time, law enforcement can obtain a judicial warrant to tap the landlines, cell phones, and e-mail accounts of suspects, as well as receive copies of their call, SMS/MMS, and other communication records. Telco companies have to retain this information securely long term, while providing full accessibility on demand to only authorized government entities to stay compliant.

There are many other industry sectors experiencing big-data retention challenges. Interestingly compliance requirements may ultimately benefit organizations as they end up improving risk management, standardizing on IT architectures, and are able to not only drive operational efficiencies, but gain better business insights through satisfying these tough regulations. Big-data problems aside, a proven well-thought-out approach to data management and long-term data retention is an absolute must to stay compliant and competitive.

What approaches do organizations take to overcome these challenges?

Many organizations in more heavily regulated industries have already experienced pain managing large data sets. Many have invested in storage compression technologies, which provide cost savings and benefits by physically compressing data at the byte or file-block level. Such technologies provide the greatest benefit for unstructured big-data types such as documents, e-mail messages, images, and videos. Structured data repositories are seen as simply large blocks in this context and compressed accordingly, regardless of their contents.

At a more granular level, organizations continue to retain critical, structured, transactional data in production system environments far longer than is legally required. These primary systems quickly become bloated and require ongoing capacity planning to accommodate anticipated growth. IT operations stays on top of this problem by adding more processing power to production systems to meet end-user performance and query-response times. No amount of generic byte-level storage compression can help with this dilemma.

Similarly, many organizations have seen the value of leveraging critical data across multiple systems for trending and analytics, which is reflected in the burgeoning data warehouse and business intelligence market. Operational data is extracted and fed to BI systems for ongoing analysis and reports. Some organizations view data stored long term in a data warehouse as sufficient for compliance.

Finally, a will-not-go-away method of storing historical data is the use of tape that is distributed offsite to a warehouse (the brick and mortar kind). In this situation, the up-front cost is far less but longer term it carries compliance risk because the data is not online nor easily accessible or searchable.

Which of are these approaches is most successful/effective?

To be honest, almost all of today’s traditional structured data retention methods have drawbacks. Continuing to retain growing data volumes in a traditional production RDBMS might seem like good practice because the data is always available and accessible, but from an economic perspective, it doesn’t make sense. In reality, the percentage of historical data in most production systems is above 60 percent; in some sectors, this has reached 95 percent. This puts an unnecessary cost and performance burden on expensive production hardware and storage. Additionally certain “immediately historical” data types such as communications CDRs, SMS/MMS data, financial services trading data, or even simple logs will never change. Retaining such data in transactional RDBMS is simply a waste, as 100 percent of the time the data will only be queried and never modified.

Retaining data warehouse or analytics environments is often common practice because traditionally it has been viewed as a non-production, less-costly alternative to OLTP environments. As analytics has increased in importance within the operations of a business, major cost and investment has put it on par with OLTP systems. Continuing to add data to both these environments is extremely expensive and not a sustainable option.

As I mentioned, offsite tape back-up is comparably inexpensive but no easily accessible and non-compliant. All of these factors are driving organizations to look for new technologies and solutions dedicated to long-term retention.

Fonte: http://esj.com/Articles/2010/10/12/QA-Big-Data-Challenges.aspx?Page=1