ouvindo

Se você esteve ouvindo mais podcasts enquanto estava preso em casa este ano, você deve ter notado um efeito colateral do uptick em conversas virtuais: um declínio na qualidade de áudio. Entrevistas conduzidas por telefone ou vídeo chat muitas vezes incluem ruído de fundo, reverberação e distorção.

Agora, um novo método desenvolvido em parte por pesquisadores da Universidade de Princeton poderia melhorar a experiência auditiva na era COVID e mais além. Usando uma abordagem de inteligência artificial (IA) conhecida como aprendizagem profunda, a técnica pode transformar gravações de baixa qualidade da fala humana, aproximando-se da crocância e clareza de uma voz gravada em estúdio.

Enquanto outros métodos baseados em IA para melhorar as gravações de fala geralmente abordaram um único aspecto da qualidade de áudio, como filtrar o ruído de fundo ou remover a reverberação, este método é mais uma ferramenta tudo-em-um. Em última análise, os pesquisadores esperam aplicar sua estrutura para permitir o aprimoramento da fala totalmente automatizado e em tempo real.

“As abordagens anteriores têm se concentrado principalmente em melhorar a inteligibilidade da fala, mas elas podem tornar a experiência auditiva mais plana, de modo que a qualidade resultante não é tão boa para a audição”, disse Jiaqi Su, estudante de pós-graduação em ciência da computação e autor principal de um artigo descrevendo o método, que os pesquisadores chamam de HiFi-GAN.

O HiFi-GAN utiliza redes neurais artificiais, ferramentas-chave de aprendizado profundo que imitam a arquitetura interconectada dos neurônios biológicos. Neste sistema, duas redes separadas competem para melhorar a qualidade de áudio. Uma rede, chamada de gerador, produz gravações limpas de fala. A outra rede, chamada de discriminador, analisa as gravações para tentar determinar se são gravações de qualidade real de estúdio ou de áudio que foram limpas pelo gerador. A competição entre estas redes adversas generativas (GANs) melhora a capacidade do método de produzir áudio claro.

As redes geradoras e discriminatórias se envolvem em uma espécie de corrida armamentista. “O trabalho do gerador é tentar enganar o discriminador”, disse o coautor Adam Finkelstein, professor de ciência da computação. “Os dois se levantam, cada um se tornando cada vez mais eficaz durante o treinamento”. Quando esse processo estiver completo, você pode jogar fora o discriminador e o que você tem é um gerador fantástico”.

Para avaliar as gravações geradas pelo HiFi-GAN, os pesquisadores utilizaram várias medidas objetivas de qualidade de áudio. Eles também recorreram à plataforma de crowdsourcing Amazon Mechanical Turk para coletar julgamentos subjetivos dos ouvintes humanos, que classificaram os resultados do HiFi-GAN e os de outros algoritmos de melhoria da qualidade de áudio. Em 28.000 audiências de gravações na Amazon Mechanical Turk, o HiFi-GAN obteve pontuação superior a cinco outros métodos de melhoria da qualidade de áudio.

“A questão que observamos comumente em experimentos é que as métricas objetivas não se correlacionam totalmente com a percepção humana, portanto é muito possível que seu método obtenha uma pontuação mais alta, mas na verdade produz uma experiência auditiva pior. É por isso que também realizamos avaliações subjetivas”, disse Su.

Em trabalho relacionado, o grupo Finkelstein e outros desenvolveram uma métrica objetiva para detectar e quantificar diferenças sutis nas gravações de áudio que são perceptíveis para o ouvido humano, mas que têm sido um desafio para os algoritmos de IA lidar. A métrica, que é treinada em cerca de 55.000 julgamentos humanos coletados na Amazon Mechanical Turk, poderia impulsionar o desempenho de melhoradores de qualidade de áudio como o HiFi-GAN, bem como ajudar mais amplamente a avaliação de métodos de aprendizado profundo para o processamento de gravações de áudio.

O papel apresenta uma nova métrica para ferramentas de aprendizagem de máquinas que avaliam a qualidade de áudio ou comparam gravações de áudio. O método se baseia em abordagens existentes de aprendizagem contraditória nas quais uma rede geradora e discriminadora compete para melhorar os resultados de um algoritmo. A métrica pode determinar, por exemplo, quão próxima uma gravação de áudio gerada por IA está de uma gravação de referência, com qualidade de estúdio.
“Queríamos encontrar uma métrica perceptiva com a qual os humanos se relacionassem”, disse Pranay Manocha, um estudante de pós-graduação em ciência da computação e autor principal da pesquisa. “Por exemplo, se tocarmos duas gravações e depois perguntarmos se elas são exatamente iguais ou diferentes, nossa métrica é capaz de dar uma resposta que está correlacionada com os julgamentos que os humanos fariam”.
Embora existam muitas dessas métricas no processamento de áudio, o método as melhora ao detectar pequenas diferenças, que os pesquisadores chamam de “just-noticeable”, tais como mudanças sutis em tons mais altos de freqüência que não são os principais componentes da fala.
“O aprendizado profundo já teve um enorme impacto no processamento de áudio, e esperamos que se torne ainda mais profundo” na próxima década, disse Finkelstein, “mas há um grande problema, que é um pouco esotérico: Para que a máquina aprenda, ela precisa saber o quão bem está fazendo… ela precisa de algo chamado função de perda”.
Ao projetar uma boa função de perda, “precisamos de um método totalmente automático para determinar se os humanos diriam que dois clipes de áudio soam semelhantes um ao outro”, disse Finkelstein. “Não é prático fazer essa pergunta aos humanos” enquanto treinamos uma rede neural, “porque isso envolveria fazer aos humanos um gazilhão de perguntas enquanto o algoritmo busca uma boa solução”. Portanto, ao invés disso, estamos desenvolvendo um método automático para prever como os humanos responderiam a essa pergunta”.
Su e Manocha apresentaram trabalhos descrevendo estes projetos na INTERSPEECH, uma conferência internacional focada em processamento de fala e aplicações, que foi realizada virtualmente neste mês de outubro.
Tanto o HiFi-GAN quanto a métrica de diferença justa e perceptível oferecem abordagens gerais que podem ser usadas para uma variedade de tarefas de processamento de áudio. Os pesquisadores estão agora adaptando seus métodos para o aprimoramento da fala em tempo real, que poderia ser usado potencialmente durante uma conversa de Zoom ou webinar.
A equipe também está adicionando uma capacidade de extensão de largura de banda ao HiFi-GAN. Isto recriará a “sensação de presença” dos ouvintes a partir de gravações feitas a altas taxas de amostragem, o que muitas vezes está faltando nas gravações de áudio de grau de consumidor e chamadas em conferência on-line, disse Finkelstein.
Su, Finkelstein e outros foram co-autores do artigo “HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks”. Os coautores do artigo “A Differentiable Perceptual Audio Metric Learned from Just Noticeable Differences” incluíram Manocha e Finkelstein.

Referências

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *