Junte-se a nós no dia 9 de novembro para aprender como inovar com sucesso e alcançar a eficiência, aprimorando e escalando desenvolvedores cidadãos no Low-Code/No-Code Summit. Registre-se aqui.
Preparem-se, desenvolvedores: hoje, a OpenAI lançou a tão esperada API DALL-E em versão beta pública, o que significa que os desenvolvedores agora podem integrar o DALL-E diretamente em seus aplicativos e produtos.
Com o anúncio, o DALL-E, um modelo de linguagem transformadora que permite aos usuários usar prompts de linguagem natural para criar e editar imagens originais, junta-se ao GPT-3, Embeddings e Codex na plataforma de API da Open AI.
Empresas como Cala, uma plataforma de design de moda, e Mixtiles, que imprime fotos online em azulejos decorativos leves, já implementaram e testaram a API para seus casos de uso específicos.
Enquanto isso, a Microsoft está trazendo o DALL-E para seu novo aplicativo de design gráfico, Designer – e também está integrando o DALL-E ao Bing e ao Microsoft Edge com o Image Creator, permitindo que os usuários criem imagens se os resultados da Web não retornarem o que estão procurando por. O provedor de imagens de estoque Shutterstock também anunciou na semana passada que usaria a API para oferecer imagens geradas por DALL-E aos clientes.
Evento
Cúpula Low-Code/No-Code
Aprenda como Bconstrua, dimensione e governe programas low-code de uma maneira direta que cria sucesso para todos neste 9 de novembro. Rcadastre-se para o seu passe livre hoje.
Registre-se aqui
OpenAI continuará a iterar a API DALL-E
A API estará disponível para qualquer pessoa usar na plataforma OpenAI, disse Luke Miller, gerente de produto da OpenAI, ao VentureBeat.
Com a API em beta, “continuaremos a iterar e melhorar até o final do ano”, disse ele. “Estamos realmente empolgados com todas as maneiras pelas quais os desenvolvedores podem usar essa tecnologia e personalizá-la para necessidades específicas, aplicativos específicos e comunidades específicas, para escalar mais do que jamais poderíamos.”
Miller acrescentou que a empresa aproveitou muitas das lições aprendidas nos últimos meses ao implantar o DALL-E beta para milhões de usuários e o incorporou à API, “para que possamos nos sentir à vontade para compartilhar isso com o mundo, mas também permitir que os desenvolvedores se concentram nas coisas divertidas de construir.”
A jornada acelerada de DALL-E para a pedra de toque cultural
A API DALL-E é mais uma grande jogada para o gerador de texto para imagem, que desde que o DALL-E 2 foi lançado há apenas seis meses se tornou parte do zeitgeist da cultura pop mainstream – incluindo milhões de visualizações de arte geradas pelo DALL -E nas redes sociais, um segmento sobre DALL-E no O programa de hoje, e uma recente aparição da CTO Mira Murati no O Show Diário.
Ao mesmo tempo, tem havido muitos protestos e debates ferozes sobre questões como a perspectiva de disputas legais sobre a propriedade de direitos autorais de imagens DALL-E; como DALL-E pode refletir viés em seus dados de treinamento; e perguntas sobre a precisão e habilidade do DALL-E.
Mas a Open AI afirma que 3 milhões de pessoas já estão usando o DALL-E para estimular a criatividade e acelerar os fluxos de trabalho, gerando mais de 4 milhões de imagens por dia. Os desenvolvedores, dizem eles, agora podem começar a construir com o DALL-E em minutos.
De projetos paralelos a startups
Isso inclui facilitar ao máximo a instalação e execução, inscrevendo-se, obtendo uma chave de API e começando a construir, explicou Miller.
“Seja alguém que está apenas hackeando um projeto paralelo divertido no fim de semana, seja uma startup em estágio inicial, um artista trabalhando em um projeto criativo ou uma grande empresa, todas essas pessoas podem entrar e usar essa tecnologia integrada em seu produto”, disse ele, ecoando o que muitos estão prevendo – que a estreia da API DALL-E abrirá as comportas das startups de IA generativa.
“O divertido projeto paralelo de hackers acabará se tornando uma startup em alguns casos”, disse ele. “Em última análise, se você está animado para construir com essa tecnologia, queremos que você seja capaz de fazê-lo e integrá-lo ao seu produto.”
Rowan Curran, analista de IA e ML da Forrester Research, acredita que, se a API DALL-E permitir a edição e o refinamento de imagens, será “extremamente útil” para os desenvolvedores.
“Então você pode incorporá-lo como um aplicativo completo em qualquer caso de uso corporativo que desejar”, disse ele à VentureBeat.
O preço da API será por imagem
A API DALL-E é cobrada por saída de imagem, com base no tamanho. 1024 x 1024 custa US$ 0,02/imagem, enquanto há descontos muito pequenos para 512 x 512 a US$ 0,018/imagem e 256 x 256 a US$ 0,016/imagem.
A API tem três recursos, explicou Miller. Os usuários podem gerar uma imagem, editar uma parte da imagem e também gerar múltiplas variações da imagem.
“Você pode pensar nisso como não muito diferente do processo criativo, tendo ideias, escolhendo algo e estreitando e depois continuando a iterar e encontrar algo que se adapte às suas necessidades e ao contexto dado”, disse ele.
Historicamente, Curran apontou que um dos fatores limitantes em torno dos grandes modelos de linguagem em geral é o custo envolvido em executá-los. Portanto, se o preço estiver correto na API DALL-E, ele disse que “abriria todo um conjunto de casos de uso, especialmente para startups e pessoas que estão recebendo financiamento inicial”.
Dito isso, ele acrescentou que grandes empresas, especialmente equipes de inovação, provavelmente também desejarão usar a API DALL-E.
“Além disso, espero ver isso gerar mais pesquisa e uso em nível empresarial e em termos de adoção e ajuste fino de seus próprios modelos de linguagem grande para vários casos de uso”, disse ele. “Porque acho que a capacidade de pegar os grandes modelos de linguagem, adicionar essa camada de ajuste fino para algumas dessas indústrias realmente específicas é onde realmente começará a mudar o jogo.”
Dúvidas sobre confiança e segurança
Os críticos continuam a questionar questões relacionadas à confiança e segurança da IA generativa em geral, e DALL-E em particular – que fotos falsas podem ser usadas para intimidar e assediar, por exemplo, ou espalhar desinformação e estimular a violência. Em maio, pesquisadores disseram que a ferramenta também poderia reforçar estereótipos contra mulheres e pessoas de cor.
Aqueles com questões éticas e legais em torno do DALL-E podem não ficar entusiasmados com a notícia de que as imagens geradas com a API não exigirão uma marca d’água – que foi implementada durante o DALL-E 2 beta, mas é opcional com a API.
Mas em um comunicado à imprensa, a OpenAI sustentou que a API DALL-E está “incorporando as lições de confiança e segurança que aprendemos ao implantar o DALL-E para 3 milhões de artistas e usuários em todo o mundo”.
Com a API, “os desenvolvedores podem enviar com confiança, sabendo que as mitigações incorporadas – como filtros para símbolos de ódio e sangue – lidarão com os aspectos desafiadores da moderação”, continuou o comunicado de imprensa. “Como parte do compromisso da OpenAI com a implantação responsável, continuaremos a priorizar a confiança e a segurança para que os desenvolvedores possam se concentrar na construção.”
Mixtiles usa API DALL-E para criar memórias
Eytan Levit, cofundador da Mixtiles, com sede em Tel Aviv, diz que a empresa imediatamente viu o potencial do DALL-E 2 e se inscreveu para acesso antecipado.
“Começamos a brincar com DALL-E 2 para criar imagens emolduradas de memórias de infância, ‘animais espirituais’ e sonhos que nossos familiares e amigos nos descreveram”, disse ele à VentureBeat. “Queríamos ver se eles pendurariam essas fotos em suas paredes, e eles penduraram.”
Levit apontou que há uma curva de aprendizado para o usuário DALL-E pela primeira vez. “Por exemplo, você precisa saber quais estilos você pode usar, como pintura a óleo, arte digital, desenho a lápis ou aquarela”, disse ele. “Aprendemos que a referência da hora do dia afeta materialmente seus resultados, enquanto as paletas de cores também ajudam a obter ótimas fotos.”
Usando a API, a abordagem da Mixtiles tem sido guiar o usuário através de uma série de etapas, cada etapa aproximando-os da criação de obras de arte com as quais eles se identificam emocionalmente.
“Achamos que a simplicidade é a chave para liberar essa tecnologia incrível para centenas de milhões de pessoas que poderiam usá-la para decorar suas casas”, disse Levit.
Em última análise, acrescentou, a Mixtiles está apostando que a IA generativa e o DALL-E representam um novo salto tecnológico, “equivalente à invenção do papel, do porta-retratos, da impressão em tela ou da invenção da computação gráfica – achamos que vai alimentar uma explosão de novos casos de uso, de criatividade humana e de conexão emocional.”
Para Mixtiles, isso significa permitir que os clientes carreguem fotos e retratos de família e depois personalizem essas imagens.
“Imagine transformar uma foto de seu filho em seu super-herói favorito, ou transformar seu retrato de família em um retrato de personagens no estilo Simpsons, ou uma pintura no estilo Van Gogh”, disse Levit. “estamos otimistas que a IA generativa se tornará parte integrante de nossa proposta de valor em um futuro próximo.”
A missão do VentureBeat é ser uma praça digital para os tomadores de decisões técnicas adquirirem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.
Fonte: venturebeat.com