Por que os dados continuam sendo o maior desafio para projetos de aprendizado de máquina

0
523

Para fortalecer ainda mais nosso compromisso de fornecer cobertura líder do setor de tecnologia de dados, a VentureBeat tem o prazer de receber Andrew Brust e Tony Baer como colaboradores regulares. Fique atento aos seus artigos no Data Pipeline.

Dados de qualidade estão no centro do sucesso da inteligência artificial (IA) corporativa. E, consequentemente, continua sendo a principal fonte de desafios para empresas que desejam aplicar machine learning (ML) em seus aplicativos e operações.

O setor fez avanços impressionantes para ajudar as empresas a superar as barreiras para obter e preparar seus dados, de acordo com o último relatório State of AI da Appen. Mas ainda há muito a ser feito em diferentes níveis, incluindo a estrutura organizacional e as políticas da empresa.

Os custos dos dados

O ciclo de vida da IA ​​corporativa pode ser dividido em quatro estágios: Fonte de dados, preparação de dados, teste e implantação de modelo e avaliação de modelo.

Os avanços nas ferramentas de computação e ML ajudaram a automatizar e acelerar tarefas como treinamento e teste de diferentes modelos de ML. As plataformas de computação em nuvem possibilitam treinar e testar dezenas de modelos diferentes de diferentes tamanhos e estruturas simultaneamente. Mas, à medida que os modelos de aprendizado de máquina crescem em número e tamanho, eles exigirão mais dados de treinamento.

Evento

Cúpula Low-Code/No-Code

Aprenda a construir, dimensionar e governar programas low-code de uma maneira direta que gera sucesso para todos neste 9 de novembro. Registre-se para o seu passe gratuito hoje.

Registre-se aqui

Infelizmente, a obtenção de dados de treinamento e anotação ainda requer um esforço manual considerável e é em grande parte específico da aplicação. De acordo com o relatório de Appen, “falta de dados suficientes para um caso de uso específico, novas técnicas de aprendizado de máquina que exigem maiores volumes de dados ou as equipes não têm os processos certos para obter os dados de que precisam de maneira fácil e eficiente”.

“Dados de treinamento de alta qualidade são necessários para um desempenho preciso do modelo; e grandes conjuntos de dados inclusivos são caros”, disse a diretora de produtos da Appen, Sujatha Sagiraju, ao VentureBeat. “No entanto, é importante observar que dados valiosos de IA podem aumentar as chances de seu projeto passar do piloto à produção; então, a despesa é necessária.”

As equipes de ML podem começar com conjuntos de dados pré-rotulados, mas eventualmente precisarão coletar e rotular seus próprios dados personalizados para dimensionar seus esforços. Dependendo da aplicação, a rotulagem pode se tornar extremamente cara e trabalhosa.

Em muitos casos, as empresas têm dados suficientes, mas não conseguem lidar com problemas de qualidade. Dados tendenciosos, rotulados incorretamente, inconsistentes ou incompletos reduzem a qualidade dos modelos de ML, o que, por sua vez, prejudica o ROI das iniciativas de IA.

“Se você treinar modelos de ML com dados ruins, as previsões do modelo serão imprecisas”, disse Sagiraju. “Para garantir que sua IA funcione bem em cenários do mundo real, as equipes devem ter uma combinação de conjuntos de dados de alta qualidade, dados sintéticos e avaliação humana em seu kit de treinamento.”

A lacuna entre cientistas de dados e líderes de negócios

De acordo com Appen, os líderes de negócios são muito menos propensos do que a equipe técnica a considerar o fornecimento e a preparação de dados como os principais desafios de suas iniciativas de IA. “Ainda existem lacunas entre tecnólogos e líderes de negócios ao entender os maiores gargalos na implementação de dados para o ciclo de vida da IA. Isso resulta em desalinhamento de prioridades e orçamento dentro da organização”, de acordo com o relatório Appen.

“O que sabemos é que alguns dos maiores gargalos para as iniciativas de IA estão na falta de recursos técnicos e adesão dos executivos”, disse Sagiraju. “Se você der uma olhada nessas categorias, verá que os cientistas de dados, engenheiros de aprendizado de máquina, desenvolvedores de software e executivos estão dispersos em diferentes áreas, então não é difícil imaginar uma falta de estratégia alinhada devido a prioridades conflitantes entre as várias equipes. dentro da organização”.

A variedade de pessoas e funções envolvidas nas iniciativas de IA torna difícil alcançar esse alinhamento. Desde os desenvolvedores que gerenciam os dados até os cientistas de dados que lidam com questões locais e os executivos que tomam decisões estratégicas de negócios, todos têm objetivos diferentes em mente e, portanto, prioridades e orçamentos diferentes.

No entanto, Sagiraju vê que a diferença está diminuindo lentamente ano após ano quando se trata de entender os desafios da IA. E isso ocorre porque as organizações estão entendendo melhor a importância de dados de alta qualidade para o sucesso das iniciativas de IA.

“A ênfase na importância dos dados – especialmente dados de alta qualidade que combinam com cenários de aplicativos – é para o sucesso de um modelo de IA uniu as equipes para resolver esses desafios”, disse Sagiraju.

Os desafios de dados não são novos no campo do ML aplicado. Mas à medida que os modelos de ML crescem e os dados se tornam mais abundantes, é necessário encontrar soluções escaláveis ​​para reunir dados de treinamento de qualidade.

Felizmente, algumas tendências estão ajudando as empresas a superar alguns desses desafios, e o Relatório de IA da Appen mostra que o tempo médio gasto no gerenciamento e preparação de dados está diminuindo.

Um exemplo é a rotulagem automatizada. Por exemplo, os modelos de detecção de objetos exigem que as caixas delimitadoras de cada objeto nos exemplos de treinamento sejam especificadas, o que exige um esforço manual considerável. As ferramentas de rotulagem automatizadas e semiautomáticas usam um modelo de aprendizado profundo para processar os exemplos de treinamento e prever as caixas delimitadoras. As etiquetas automatizadas não são perfeitas, e um rotulador humano deve revisá-las e ajustá-las, mas aceleram o processo significativamente. Além disso, o sistema de rotulagem automatizado pode ser ainda mais treinado e aprimorado à medida que recebe feedback de rotuladores humanos.

“Enquanto muitas equipes começam rotulando manualmente seus conjuntos de dados, mais estão recorrendo a métodos que economizam tempo para automatizar parcialmente o processo”, disse Sagiraju.

Ao mesmo tempo, há um mercado crescente para dados sintéticos. As empresas usam dados gerados artificialmente para complementar os dados que coletam do mundo real. Os dados sintéticos são especialmente úteis em aplicativos em que a obtenção de dados do mundo real é cara ou perigosa. Um exemplo são as empresas de carros autônomos, que enfrentam desafios regulatórios, de segurança e legais na obtenção de dados de estradas reais.

“Carros autônomos exigem quantidades incríveis de dados para estarem seguros e preparados para qualquer coisa assim que chegarem à estrada, mas alguns dos dados mais complexos não estão prontamente disponíveis”, disse Sagiraju. “Os dados sintéticos permitem que os profissionais considerem casos extremos ou cenários perigosos, como acidentes, travessias de pedestres e veículos de emergência para treinar efetivamente seus modelos de IA. Os dados sintéticos podem criar instâncias para treinar dados quando não houver dados de origem humana suficientes. É fundamental para preencher as lacunas.”

Ao mesmo tempo, a evolução do mercado de MLops está ajudando as empresas a enfrentar muitos desafios do pipeline de aprendizado de máquina, incluindo conjuntos de dados de rotulagem e controle de versão; treinar, testar e comparar diferentes modelos de ML; implantar modelos em escala e acompanhar seu desempenho; e coletando novos dados e atualizando os modelos ao longo do tempo.

Mas como o ML desempenha um papel maior nas empresas, uma coisa que se tornará mais importante é o controle humano.

“As avaliações Human-in-the-loop (HITL) são imperativas para fornecer informações precisas e relevantes e evitar preconceitos”, disse Sagiraju. “Apesar do que muitos acreditam sobre os humanos realmente ficarem em segundo plano no treinamento de IA, acho que veremos uma tendência de mais avaliações HITL em um esforço para capacitar a IA responsável e ter mais transparência sobre o que as organizações estão colocando em seus modelos para garantir modelos ter um bom desempenho no mundo real.”

A missão do VentureBeat é ser uma praça digital para os tomadores de decisões técnicas adquirirem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.

Fonte: venturebeat.com

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here