Alibaba revelou a sua intenção de fornecer os dois modelos de IA como soluções de código aberto para a comunidade global.

O gigante tecnológico chinês Alibaba Group está impulsionando os limites da inteligência artificial (IA) ao introduzir dois modelos inovadores de linguagem de visão grande (LVLM) de código aberto. A empresa disse que as ferramentas de IA Qwen-VL e Qwen-VL-Chat podem compreender imagens e responder a consultas complexas melhor do que suas outras criações.

A unidade de nuvem da empresa, Alibaba Cloud, desenvolveu e treinou ambos os modelos de linguagem de IA. Segundo relatos, a empresa disse que o Qwen-VL foi projetado para ser o produto sofisticado de seu modelo de 7 bilhões de parâmetros, Tongyi Qianwen. Este modelo dinâmico exibe a capacidade de processar imagens e prompts de texto perfeitamente. A versatilidade abrange desde o atendimento de consultas abertas vinculadas a diversas imagens até a criação de legendas de imagens cativantes.

O Qwen-VL-Chat, por outro lado, foi projetado para lidar com interações mais complexas. O modelo de IA, alimentado por técnicas avançadas de alinhamento, possui uma impressionante variedade de talentos. Desde a composição de poesia e narrativas baseadas em imagens de entrada até a condensação do conteúdo de múltiplas imagens e até mesmo a resolução de questões matemáticas complexas incorporadas nas imagens.

Alibaba explorando recursos de IA

Estas duas tecnologias estão preparadas para redefinir o panorama das capacidades de IA, oferecendo uma fusão notável de compreensão de imagens e interação de texto em inglês e chinês.

A empresa disse que o modelo Qwen-VL foi treinado com imagens e informações de texto. Durante o treinamento, o Alibaba descobriu que pode lidar com imagens maiores (resolução 448×448) em comparação com modelos semelhantes que só funcionam com imagens de tamanho pequeno (resolução 224×224).

A tecnologia de IA também demonstrou habilidades impressionantes em tarefas que envolvem imagens e linguagem durante o treinamento. O Alibaba divulgou que a ferramenta de IA poderia descrever fotos sem informação prévia, responder perguntas sobre imagens e até detectar objetos em imagens.

O segundo modelo, Qwen-VL-Chat, também mostrou suas habilidades em conversas sobre fotos. Segundo a empresa, a tecnologia de IA teve um desempenho excepcionalmente bom em chinês e inglês, com base num teste de benchmark definido pela Alibaba Cloud.

Assim como o primeiro modelo, o Qwen-VL-Chat superou outras ferramentas de IA na compreensão e discussão da relação entre palavras e imagens. O teste incluiu uma ampla gama de mais de 300 fotografias, 800 perguntas e 27 categorias diferentes.

Compromisso com tecnologias de código aberto

Alibaba revelou a sua intenção de fornecer os dois modelos de IA como soluções de código aberto para a comunidade global. Uma vez concluídos os preparativos, estas ferramentas estarão disponíveis gratuitamente para qualquer pessoa em todo o mundo. A mudança permite o desenvolvimento de aplicações de IA sem a necessidade de treinamento extensivo do sistema, resultando em redução de despesas.

No início deste mês, a empresa fez ondas para abrir o código-fonte de seus outros aplicativos de IA, Qwen-7B e Gwen-7B-Chat, um mês após o lançamento. A mudança atraiu muitos desenvolvedores para a empresa, registrando mais de 400.000 downloads combinados.

próximo

Inteligência Artificial, Notícias de Negócios, Computação em Nuvem, Notícias, Notícias de Tecnologia

Chimamanda é uma entusiasta da criptografia e escritora experiente com foco no mundo dinâmico das criptomoedas. Ela ingressou na indústria em 2019 e desde então desenvolveu interesse pela economia emergente. Ela combina sua paixão pela tecnologia blockchain com seu amor por viagens e comida, trazendo uma perspectiva nova e envolvente ao seu trabalho.

Fonte: www.coinspeaker.com

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *