Se você esteve ouvindo mais podcasts enquanto estava preso em casa este ano, você deve ter notado um efeito colateral do uptick em conversas virtuais: um declínio na qualidade de áudio. Entrevistas conduzidas por telefone ou vídeo chat muitas vezes incluem ruído de fundo, reverberação e distorção.
Agora, um novo método desenvolvido em parte por pesquisadores da Universidade de Princeton poderia melhorar a experiência auditiva na era COVID e mais além. Usando uma abordagem de inteligência artificial (IA) conhecida como aprendizagem profunda, a técnica pode transformar gravações de baixa qualidade da fala humana, aproximando-se da crocância e clareza de uma voz gravada em estúdio.
Enquanto outros métodos baseados em IA para melhorar as gravações de fala geralmente abordaram um único aspecto da qualidade de áudio, como filtrar o ruído de fundo ou remover a reverberação, este método é mais uma ferramenta tudo-em-um. Em última análise, os pesquisadores esperam aplicar sua estrutura para permitir o aprimoramento da fala totalmente automatizado e em tempo real.
“As abordagens anteriores têm se concentrado principalmente em melhorar a inteligibilidade da fala, mas elas podem tornar a experiência auditiva mais plana, de modo que a qualidade resultante não é tão boa para a audição”, disse Jiaqi Su, estudante de pós-graduação em ciência da computação e autor principal de um artigo descrevendo o método, que os pesquisadores chamam de HiFi-GAN.
O HiFi-GAN utiliza redes neurais artificiais, ferramentas-chave de aprendizado profundo que imitam a arquitetura interconectada dos neurônios biológicos. Neste sistema, duas redes separadas competem para melhorar a qualidade de áudio. Uma rede, chamada de gerador, produz gravações limpas de fala. A outra rede, chamada de discriminador, analisa as gravações para tentar determinar se são gravações de qualidade real de estúdio ou de áudio que foram limpas pelo gerador. A competição entre estas redes adversas generativas (GANs) melhora a capacidade do método de produzir áudio claro.
As redes geradoras e discriminatórias se envolvem em uma espécie de corrida armamentista. “O trabalho do gerador é tentar enganar o discriminador”, disse o coautor Adam Finkelstein, professor de ciência da computação. “Os dois se levantam, cada um se tornando cada vez mais eficaz durante o treinamento”. Quando esse processo estiver completo, você pode jogar fora o discriminador e o que você tem é um gerador fantástico”.
Para avaliar as gravações geradas pelo HiFi-GAN, os pesquisadores utilizaram várias medidas objetivas de qualidade de áudio. Eles também recorreram à plataforma de crowdsourcing Amazon Mechanical Turk para coletar julgamentos subjetivos dos ouvintes humanos, que classificaram os resultados do HiFi-GAN e os de outros algoritmos de melhoria da qualidade de áudio. Em 28.000 audiências de gravações na Amazon Mechanical Turk, o HiFi-GAN obteve pontuação superior a cinco outros métodos de melhoria da qualidade de áudio.
“A questão que observamos comumente em experimentos é que as métricas objetivas não se correlacionam totalmente com a percepção humana, portanto é muito possível que seu método obtenha uma pontuação mais alta, mas na verdade produz uma experiência auditiva pior. É por isso que também realizamos avaliações subjetivas”, disse Su.
Em trabalho relacionado, o grupo Finkelstein e outros desenvolveram uma métrica objetiva para detectar e quantificar diferenças sutis nas gravações de áudio que são perceptíveis para o ouvido humano, mas que têm sido um desafio para os algoritmos de IA lidar. A métrica, que é treinada em cerca de 55.000 julgamentos humanos coletados na Amazon Mechanical Turk, poderia impulsionar o desempenho de melhoradores de qualidade de áudio como o HiFi-GAN, bem como ajudar mais amplamente a avaliação de métodos de aprendizado profundo para o processamento de gravações de áudio.