Sussurros do futuro modular da IA - Shenzhen Coastwise Solutions Inc.

Por James Somers

Um dia, no final de dezembro, baixei um programa chamado Whisper.cpp em meu laptop, na esperança de usá-lo para transcrever uma entrevista que fiz. Alimentei-o com um arquivo de áudio e, a cada poucos segundos, produzia uma ou duas linhas de uma transcrição assustadoramente precisa, anotando exatamente o que havia sido dito com uma precisão que eu nunca tinha visto antes. Conforme as filas se acumulavam, eu podia sentir meu computador ficando mais quente. Essa foi uma das poucas vezes na memória recente em que meu laptop realmente computou algo complicado - na maioria das vezes eu apenas o uso para navegar na Web, assistir TV e escrever. Agora estava executando IA de ponta

Apesar de ser um dos programas mais sofisticados já executados no meu laptop, o Whisper.cpp também é um dos mais simples. Se você mostrasse seu código-fonte para pesquisadores de IA desde os primeiros dias do reconhecimento de fala, eles poderiam rir de descrença ou chorar – seria como revelar a um físico nuclear que o processo para alcançar a fusão a frio pode ser escrito em um guardanapo. Whisper.cpp é inteligência destilada. É raro o software moderno não ter praticamente nenhuma dependência - em outras palavras, funciona sem a ajuda de outros programas. Em vez disso, são dez mil linhas de código autônomo, a maioria das quais faz pouco mais do que aritmética bastante complicada. Foi escrito em cinco dias por Georgi Gerganov, um programador búlgaro que, como ele próprio admite, não sabe quase nada sobre reconhecimento de fala. Gerganov adaptou-o de um programa chamado Whisper, lançado em setembro pela OpenAI, a mesma organização por trás do ChatGPT e DALL-E. O Whisper transcreve a fala em mais de noventa idiomas. Em alguns deles, o software é capaz de desempenho sobre-humano – ou seja, pode realmente analisar o que alguém está dizendo melhor do que um ser humano.

O que há de tão incomum no Whisper é que o OpenAI o abriu, liberando não apenas o código, mas uma descrição detalhada de sua arquitetura. Eles também incluíram os importantes "pesos do modelo": um arquivo gigante de números especificando a força sináptica de cada conexão na rede neural do software. Ao fazer isso, o OpenAI possibilitou que qualquer pessoa, incluindo um amador como Gerganov, modificasse o programa. Gerganov converteu o Whisper em C++, uma linguagem de programação amplamente suportada, para facilitar o download e a execução em praticamente qualquer dispositivo. Isso soa como um detalhe logístico, mas na verdade é a marca de uma mudança radical mais ampla. Até recentemente, IAs de renome mundial, como a Whisper, eram domínio exclusivo das grandes empresas de tecnologia que as desenvolveram. Eles existiam nos bastidores, alimentando sutilmente os resultados de pesquisa, recomendações, assistentes de bate-papo e afins. Se estranhos foram autorizados a usá-los diretamente, seu uso foi medido e controlado.

Houve alguns outros AIs de código aberto nos últimos anos, mas a maioria deles foi desenvolvida por projetos proprietários de engenharia reversa. LeelaZero, um mecanismo de xadrez, é uma versão colaborativa do AlphaZero da DeepMind, o melhor jogador de computador do mundo; como o DeepMind não liberou os pesos do modelo do AlphaZero, o LeelaZero teve que ser treinado do zero, por usuários individuais - uma estratégia que só era viável porque o programa podia aprender jogando xadrez contra si mesmo. Da mesma forma, Stable Diffusion, que evoca imagens de descrições, é um clone extremamente popular do DALL-E da OpenAI e do Imagen do Google, mas treinado com dados disponíveis publicamente. Whisper pode ser a primeira IA nesta classe que foi simplesmente oferecida ao público. Em uma era de software baseado em nuvem, quando todos os nossos programas são essencialmente alugados das empresas que os fabricam, acho um tanto eletrizante que, agora que baixei o Whisper.cpp, ninguém possa tirá-lo de mim— nem mesmo Gerganov. Seu pequeno programa transformou meu laptop de um dispositivo que acessa IA em uma espécie de máquina inteligente em si.

Houve um tempo em que os pesquisadores acreditavam que o reconhecimento de fala em nível humano poderia ser "difícil de IA" - sua maneira de descrever um problema que era tão difícil que só poderia cair quando os computadores possuíssem inteligência geral. A ideia era que havia ambigüidade suficiente na linguagem falada para que a única maneira de analisá-la fosse realmente entender o que os falantes queriam dizer. Na semana passada, ouvi algo no rádio que pode ter soado, para um computador, como "Você pode erguer um Ford?" Mas meu cérebro, conhecendo o contexto da conversa, resolveu perfeitamente como "a Ucrânia pode pagar". Os problemas de significado e contexto garantiram que, por décadas, o reconhecimento de fala fosse considerado uma medida para o campo da IA como um todo. A única maneira de entender a fala, dizia o pensamento, era realmente entendê-la.