Em pouco mais de uma década, a análise de dados passou por várias grandes transformações. Primeiro, ela se tornou digitalizada. Segundo, testemunhamos o surgimento da análise de 'big data', impulsionada em parte pela digitalização e em parte por recursos de armazenamento e processamento massivamente aprimorados.
Por fim, nos últimos anos, a análise foi transformada mais uma vez pelo surgimento de modelos de IA generativa que podem analisar dados em uma escala e velocidade nunca vistas antes.
Conversamos com Rytis Ulys, líder da equipe de análise da Oxylabs, para saber mais sobre essas mudanças e o que podemos esperar no futuro.
BN: Quais tendências principais você vê moldando o futuro da análise de dados em inteligência empresarial?
RU: A IA de geração está se tornando uma assistente pessoal do analista de dados, assumindo tarefas menos interessantes — da geração básica de código à visualização de dados.
Acredito que o principal efeito da IA generativa — e a principal tendência futura para análise de dados — é a democratização de dados. Recentemente, tem havido muita atividade em torno de produtos de 'texto para SQL' para executar consultas em linguagem natural, o que significa que pessoas sem especialização em ciências de dados têm a possibilidade de se aprofundar na análise de dados.
No entanto, não devemos nos deixar levar pelo hype muito rapidamente. Essas ferramentas alimentadas por IA não são 100% precisas nem livres de erros, e perceber erros é mais difícil para usuários menos experientes. O Santo Graal da análise é a precisão combinada com uma compreensão diferenciada do cenário empresarial — habilidades que são impossíveis de automatizar a menos que alcancemos algum tipo de IA “geral”.
A segunda tendência que é crítica para profissionais de dados empresariais é mover-se em direção a um único sistema de IA do tipo guarda-chuva capaz de integrar análises de vendas, funcionários, finanças e produtos em uma única solução. Poderia trazer imenso valor empresarial devido à economia de custos (abandonando software separado) e também ajudar com os esforços de democratização de dados.
BN: Você pode falar mais sobre o papel do aprendizado de máquina e da IA na análise de dados de última geração para empresas?
RU: A IA generativa de alguma forma traçou uma linha artificial arbitrária entre a análise de próxima geração (alimentada pela IA Gen) e os sistemas de IA 'legado' (qualquer coisa que veio antes da IA Gen). No discurso público em torno da IA, as pessoas frequentemente ignoram o fato de que a IA 'tradicional' não é um legado ultrapassado; a IA Gen é inteligente apenas na superfície; e ambos os campos são, na verdade, complementares.
Na minha resposta anterior, destaquei os principais desafios de usar modelos de IA generativa para análise de dados empresariais. Gen AI não é, estritamente falando, inteligência — é uma tecnologia estocástica que funciona com probabilidade estatística, que é sua limitação máxima.
Maior disponibilidade de dados e soluções inovadoras de coleta de dados foram os principais impulsionadores por trás da “revolução” da Gen AI; no entanto, mais progresso não pode ser alcançado simplesmente despejando mais dados e poder computacional. Movendo-se em direção a uma inteligência artificial “geral”, os desenvolvedores terão que reconsiderar o que “inteligência” e “raciocínio” significam. Antes que isso aconteça, há pouca possibilidade de que modelos generativos tragam à análise de dados algo mais substancial do que já fizeram.
Ao dizer isso, não quero dizer que não existam métodos para melhorar a precisão da IA generativa e torná-la melhor em tarefas específicas de domínio. Vários aplicativos já fazem isso. Por exemplo, guardrails ficam entre um LLM e usuários, garantindo que o modelo forneça saídas que sigam as regras da organização, enquanto a geração aumentada de recuperação (RAG) é cada vez mais empregada como uma alternativa ao ajuste fino do LLM. O RAG é baseado em um conjunto de tecnologias, como bancos de dados vetoriais (pense em Pinecone, Weaviate, Qdrant, etc.), frameworks (LlamaIndex, LangChain, Chroma) e ferramentas de análise semântica e busca por similaridade.
BN: Como as empresas podem aproveitar efetivamente o big data para obter insights acionáveis e orientar decisões estratégicas?
RU: Na economia digital globalizada de hoje, as empresas não têm a opção de evitar decisões baseadas em dados, a menos que operem em um mercado local muito confinado e sejam de tamanho limitado. Para impulsionar a competitividade, um número crescente de empresas está coletando não apenas dados do consumidor que podem obter de seus próprios canais, mas também informações publicamente disponíveis na web para inteligência de preços, pesquisa de mercado, análise de concorrentes, segurança cibernética e outros propósitos.
Até certo ponto, as empresas podem tentar escapar sem usar decisões apoiadas em dados; no entanto, quando o ritmo de crescimento aumenta, as empresas que dependem apenas do pressentimento inevitavelmente começam a ficar para trás. Infelizmente, não há abordagens universais para aproveitar os dados de forma eficaz que se adaptem a todas as empresas. Qualquer empresa precisa começar do básico: primeiro, defina o problema empresarial; segundo, responda, muito especificamente, que tipo de dados pode ajudar a resolvê-lo. Mais de 75% dos dados coletados pelas empresas acabam como “dados obscuros”. Portanto, decidir quais dados você não precisa não é menos importante do que decidir quais dados você precisa.
BN: De que forma você prevê a evolução da visualização de dados no contexto de inteligência empresarial e análise?
RU: A maioria das soluções de visualização de dados hoje tem funcionalidades alimentadas por IA que fornecem aos usuários uma visão mais dinâmica e precisão aprimorada. Além disso, a automação orientada por IA também permite que as empresas analisem padrões e gerem insights de conjuntos de dados maiores e mais complexos, ao mesmo tempo em que liberam os analistas de tarefas de visualização mundanas.
Acredito que as soluções de visualização de dados terão que evoluir para alternativas mais democráticas e amigáveis para novatos, trazendo insights de dados além das equipes de dados e para os departamentos de vendas, marketing, produtos e suporte ao cliente. É difícil dizer, infelizmente, quando podemos esperar que essas ferramentas cheguem. Até agora, o foco da indústria não tem sido encontrar a melhor solução de visualização. Existem muitas ferramentas diferentes disponíveis no mercado, e todas elas têm suas vantagens e desvantagens.
BN: Você poderia discutir a importância da privacidade e segurança de dados na era da análise avançada e como as empresas podem garantir a conformidade ao mesmo tempo em que aproveitam os dados de forma eficaz?
RU: A privacidade e a segurança dos dados não eram menos importantes antes da era da análise avançada. No entanto, a escala e a complexidade crescentes das atividades de coleta e processamento de dados também aumentaram os riscos relacionados à má gestão de dados e vazamentos de dados confidenciais. Hoje, a importância da governança de dados adequada não pode ser subestimada: erros podem levar a penalidades financeiras, responsabilidade legal, danos à reputação e desconfiança do consumidor.
Em alguns casos, as empresas deliberadamente “cortam custos” para cortar custos ou obter outros benefícios comerciais, resultando em má gestão de dados. Em muitos casos, no entanto, a conduta imprópria de dados não é intencional.
Vamos dar um exemplo de desenvolvedores de Gen AI que precisam de grandes quantidades de dados multifacetados para treinar e testar modelos de ML. Ao coletar dados em tal escala, é fácil para uma empresa deixar de perceber que partes desses conjuntos de dados contêm dados pessoais ou material protegido por direitos autorais que a empresa não estava autorizada a coletar e processar. Pior ainda, obter o consentimento de milhares de usuários da Internet que podem ser tecnicamente considerados proprietários de “direitos autorais” é virtualmente impossível.
Então, como as empresas podem garantir a conformidade? Novamente, depende do contexto, como o país de origem da empresa. Os regimes de dados dos EUA, Reino Unido e UE são bem diferentes, com a UE tendo o mais rigoroso. O recém-lançado EU AI Act definitivamente terá um efeito adicional na governança de dados, pois aborda desenvolvedores e implantadores de sistemas de IA dentro da UE. Embora os modelos generativos caiam na zona de baixo risco, em certos casos, eles ainda podem estar sujeitos a requisitos de transparência, obrigando os desenvolvedores a revelar as fontes de dados em que os sistemas de IA foram treinados, bem como os procedimentos de gerenciamento de dados.
No entanto, há princípios básicos que se aplicam a qualquer empresa. Primeiro, as empresas devem avaliar cuidadosamente a natureza dos dados que planejam buscar. Segundo, mais dados não equivalem a dados melhores — decidir quais dados trazem valor agregado para o negócio e omitir dados excessivos ou desnecessários é o primeiro passo para melhor conformidade e menos riscos de gerenciamento de dados.
BN: Como as empresas podem promover uma cultura de tomada de decisão baseada em dados em todas as suas organizações?
RU: O primeiro passo é, claro, estabelecer a base de dados — construir a Customer Data Platform (CDP), que integra dados estruturados e limpos de várias fontes que a empresa usa. Para ter sucesso, essa plataforma deve incluir acesso sem código aos dados para stakeholders não técnicos, e essa não é uma tarefa fácil de ser alcançada.
Acesso sem código significa que a plataforma escolhida (ou 'solução') deve conter uma interface SQL para usuários de dados experientes e algum tipo de função 'arrastar e soltar' para iniciantes. Na Oxylabs, escolhemos o Apache Superset para avançar nossa análise de autoatendimento. No entanto, não há solução que se encaixe em qualquer empresa e que tenha apenas prós e nenhum contra. Além disso, essas soluções exigem modelagem de dados bem documentada.
Quando você tem os aplicativos necessários em funcionamento, o segundo grande desafio é construir a alfabetização de dados e a confiança de usuários não técnicos. Isso requer treinamento adequado para garantir que os funcionários manipulem os dados, os interpretem e extraiam insights corretamente. Por que isso é um desafio? Porque é um processo lento e vai tomar tempo das equipes de dados.
Promover uma cultura orientada por dados não é um projeto único — para transformar dados em ação, você precisará de uma mudança de cultura dentro da organização, bem como esforços constantes de monitoramento e refinamento para garantir que funcionários não técnicos se sintam confiantes sobre a implantação de dados em decisões cotidianas. O suporte da gerência e a cooperação bem estabelecida entre as equipes são essenciais para fazer a análise de autoatendimento (ou democratização de dados, como é frequentemente chamada) funcionar para sua empresa.
Crédito da imagem: SergeyNivens/depositphotos.com