Por que a humanidade é necessária para impulsionar a IA conversacional

Não conseguiu participar do Transform 2022? Confira todas as sessões da cúpula em nossa biblioteca sob demanda agora! Assista aqui.

A IA de conversação é um subconjunto da inteligência artificial (IA) que permite que os consumidores interajam com aplicativos de computador como se estivessem interagindo com outro ser humano. De acordo com a Deloitte, o mercado global de IA conversacional deve crescer 22% entre 2022 e 2025 e estima-se que atinja US$ 14 bilhões até 2025.

Fornecendo personalizações de idioma aprimoradas para atender a um grupo altamente diversificado e vasto de públicos hiperlocais, muitas aplicações práticas incluem serviços financeiros, enfermarias hospitalares e conferências, e podem assumir a forma de um aplicativo de tradução ou um chatbot. De acordo com o Gartner, 70% dos trabalhadores de colarinho branco supostamente interagem regularmente com plataformas de conversação, mas isso é apenas uma gota no oceano do que pode acontecer nesta década.

Apesar do potencial empolgante dentro do espaço de IA, há um obstáculo significativo; os dados usados para treinar modelos de IA conversacionais não levam em conta adequadamente as sutilezas do dialeto, idioma, padrões de fala e inflexão.

Ao usar um aplicativo de tradução, por exemplo, um indivíduo falará em seu idioma de origem e a IA calculará esse idioma de origem e o converterá no idioma de destino. Quando o falante de origem se desvia de um sotaque aprendido padronizado – por exemplo, se eles falam em um sotaque regional ou usam gírias regionais – a taxa de eficácia da tradução ao vivo diminui. Isso não apenas fornece uma experiência abaixo da média, mas também inibe a capacidade dos usuários de interagir em tempo real, seja com amigos e familiares ou em um ambiente de negócios.

Evento

MetaBeat 2022

A MetaBeat reunirá líderes de pensamento para fornecer orientação sobre como a tecnologia metaverse transformará a maneira como todas as indústrias se comunicam e fazem negócios em 4 de outubro em San Francisco, CA.

Registre-se aqui

A necessidade de humanidade na IA

Para evitar uma queda nas taxas de eficácia, a IA deve fazer uso de um conjunto de dados diversificado. Por exemplo, isso pode incluir uma representação precisa de falantes em todo o Reino Unido – tanto em nível regional quanto nacional – para fornecer uma tradução ativa melhor e acelerar a interação entre falantes de diferentes idiomas e dialetos.

A ideia de usar dados de treinamento em programas de ML é um conceito simples, mas também é fundamental para a maneira como essas tecnologias funcionam. Os dados de treinamento funcionam em uma estrutura singular de aprendizado por reforço e são usados para ajudar um programa a entender como aplicar tecnologias como redes neurais para aprender e produzir resultados sofisticados. Quanto maior o grupo de pessoas interagindo com essa tecnologia no back-end, por exemplo, falantes com problemas de fala ou gagueira, melhor será a experiência de tradução resultante.

Especificamente dentro do espaço de tradução, com foco em Como as um usuário fala em vez de o que eles falam é a chave para aumentar a experiência do usuário final. O lado mais sombrio do aprendizado por reforço foi ilustrado em notícias recentes com Meta, que recentemente foi criticada por ter um chatbot que vomitava comentários insensíveis – que aprendeu com a interação pública. Os dados de treinamento devem, portanto, sempre ter um humano no circuito (HITL), no qual um humano pode garantir que o algoritmo abrangente seja preciso e adequado à finalidade.

Explicando a natureza ativa da conversação humana

É claro que a interação humana é incrivelmente sutil e criar um design de conversação de bot que possa navegar em sua complexidade é um desafio perene. No entanto, uma vez alcançado, o design conversacional bem estruturado e totalmente realizado pode aliviar a carga das equipes de atendimento ao cliente, aplicativos de tradução e melhorar as experiências do cliente. Além de dialetos regionais e gírias, os dados de treinamento também precisam levar em conta a conversação ativa entre dois ou mais falantes interagindo entre si. O bot deve aprender com seus padrões de fala, o tempo necessário para realizar uma interjeição, a pausa entre os falantes e depois a resposta.

Priorizar o equilíbrio também é uma ótima maneira de garantir que as conversas permaneçam uma experiência ativa para o usuário, e uma maneira de fazer isso é eliminando respostas sem saída. Pense nisso como estar em um ambiente de improvisação, no qual as frases “sim e” são fundamentais. Em outras palavras, você deve aceitar a construção de mundo do seu parceiro enquanto traz um novo elemento para a mesa. Os bots mais eficazes operam de maneira semelhante, formulando respostas abertamente que incentivam consultas adicionais. Oferecer opções e opções adicionais e relevantes pode ajudar a garantir que todas as necessidades dos usuários finais sejam atendidas.

Muitas pessoas têm dificuldade em lembrar longas sequências de pensamento ou demoram um pouco mais para processar seus pensamentos. Por causa disso, os aplicativos de tradução fariam bem em permitir aos usuários tempo suficiente para calcular seus pensamentos antes de fazer uma pausa no final de uma interjeição. Treinar um bot para aprender palavras de preenchimento — incluindo so, erm, bem, hum, ou like, em inglês, por exemplo — e fazer com que ele associe um lead time mais longo a essas palavras é uma boa maneira de permitir que os usuários se envolvam de maneira mais realista conversa em tempo real. Oferecer programação “interrompida” direcionada (as chances de os usuários interromperem o bot) também é outra maneira de simular com mais precisão a natureza ativa da conversa.

Inovações futuras em IA conversacional

A IA conversacional ainda tem um longo caminho a percorrer antes que todos os usuários se sintam representados com precisão. Levando em conta as sutilezas do dialeto, o tempo necessário para os falantes pensarem, bem como a natureza ativa de uma conversa, serão fundamentais para impulsionar essa tecnologia. Especificamente no âmbito dos aplicativos de tradução, a contabilização de pausas e palavras associadas ao pensamento melhorará a experiência de todos os envolvidos e simulará uma conversa mais natural e ativa.

Fazer com que os dados sejam extraídos de um conjunto de dados mais amplo no processo de back-end, por exemplo, aprendendo com RP em inglês e inflexões de Geordie, evitará a eficácia de uma tradução cair devido a problemas de processamento devido ao sotaque. Essas inovações oferecem um potencial empolgante, e é hora de aplicativos e bots de tradução levarem em conta as sutilezas linguísticas e os padrões de fala.

Martin Curtis é CEO da Palaver

Tomadores de decisão de dados

Bem-vindo à comunidade VentureBeat!

DataDecisionMakers é onde especialistas, incluindo o pessoal técnico que trabalha com dados, podem compartilhar insights e inovações relacionadas a dados.

Se você quiser ler sobre ideias de ponta e informações atualizadas, melhores práticas e o futuro dos dados e da tecnologia de dados, junte-se a nós no DataDecisionMakers.

Você pode até considerar contribuir com um artigo seu!