Com modelos pré-treinados de Deep Learning e ferramentas de software, desenvolvedores podem adaptá-lo para todos os setores
A Nvidia lançou o framework Jarvis, que oferece a desenvolvedores modelos pré-treinados de Deep Learning e ferramentas de software de última geração para criar serviços interativos de IA de conversação que podem ser adaptados a todos os setores e domínios com facilidade. Com bilhões de horas de chamadas telefônicas, reuniões virtuais e broadcast de conteúdo em vídeo gerado diariamente, os modelos do Jarvis oferecem reconhecimento automático de fala extremamente preciso, compreensão de linguagem humana, tradução para vários idiomas em tempo real e novos recursos de conversão de texto em fala para criar agentes expressivos de IA de conversação.
Utilizando a aceleração da GPU, o pipeline completo de voz pode ser executado em menos de 100 milissegundos – ouvindo, compreendendo e gerando uma resposta mais rápida do que o piscar de um olho humano – e pode ser implementada em Cloud, Data Center ou Edge, escalando instantaneamente para milhões de usuários.
“A IA de conversação é, de várias formas, a melhor IA. Com os avanços de Deep Learning no reconhecimento de fala, na compreensão de linguagem e na síntese de fala, é possível oferecer serviços atrativos em cloud. O Jarvis tira essa IA de conversação de última geração do Cloud para que os clientes hospedem serviços de IA em qualquer lugar”, afirma Jensen Huang, fundador e CEO da Nvidia.
Segundo a empresa, o Jarvis possibilitará uma nova geração de aplicações baseadas em linguagem que antes eram impossíveis, melhorando as interações com humanos e máquinas. Ele abre as portas para a criação de serviços como enfermeiros digitais para ajudar a monitorar pacientes 24 horas por dia, aliviando a sobrecarga da equipe médica; assistentes online para identificar o que os consumidores estão procurando e recomendar os melhores produtos; e traduções em tempo real para aumentar a colaboração entre equipes de trabalho de locais diferentes e oferecer a espectadores conteúdo ao vivo no idioma deles.
O Jarvis foi criado usando modelos treinados por GPUs durante milhões de horas com mais de 1 bilhão de páginas de texto, 60 mil horas de dados de fala e em diferentes idiomas, sotaques, ambientes e dialetos para garantir máxima precisão. Pela primeira vez, os desenvolvedores podem usar o framework Nvidia TAO para treinar, adaptar e otimizar esses modelos para todas as tarefas e setores em qualquer sistema com facilidade.
Os desenvolvedores podem selecionar um modelo Jarvis pré-treinado do catálogo NGC da Nvidia, ajustá-lo usando seus próprios dados com o Transfer Learning Toolkit da Nvidia, otimizá-lo para o máximo rendimento e mínima latência em serviços de voz em tempo real e, em seguida, implantar facilmente o modelo com apenas algumas linhas de código para que não haja necessidade de conhecimentos profundos de IA.
Desde o início do programa de acesso do Jarvis em maio passado, milhares de empresas pediram para participar. Um dos primeiros usuários é a T-Mobile, a gigante de telecomunicações dos EUA, que recorreu à IA para melhorar ainda mais seus produtos de Machine Learning (ML) e ao processamento de linguagem natural para oferecer informações e recomendações em tempo real.
“Com os serviços do Nvidia Jarvis, ajustados com os dados da T-Mobile, estamos criando produtos para nos ajudar a resolver os problemas dos clientes em tempo real. Depois de avaliar várias soluções automáticas de reconhecimento de fala, a T-Mobile viu que o Jarvis oferece um modelo de qualidade com latência extremamente baixa, possibilitando experiências que nossos clientes adoram”, declara Matthew Davis, vice-presidente de Produtos e Tecnologia da T-Mobile.