O que é a Aprendizagem Auto-supervisionada?
Self-supervised learning (ou aprendizagem auto-supervisionada em português) é um termo que se refere a um tipo de aprendizagem não supervisionada dentro de um problema de aprendizagem supervisionada.
É uma técnica de aprendizagem relativamente recente onde os dados de treino são etiquetados de forma autónoma. Na aprendizagem auto-supervisionada, o sistema aprende a prever parte da sua entrada a partir de outras partes da sua entrada. Por outras palavras, uma parte da entrada neural para uma rede é utilizada como elemento de supervisão para um preditor alimentado com a parte restante do input.
Este tipo de aprendizagem utiliza muitos mais sinais de supervisão do que a aprendizagem supervisionada, e muito mais do que a aprendizagem reforçada. É por isso que chamar-lhe "sem supervisão" é totalmente enganador.
É possível aprender mais sobre a estrutura do mundo através da aprendizagem auto-supervisionada do que através dos outros dois paradigmas. A razão principal: os dados são ilimitados e o feedback fornecido por cada exemplo é enorme.
A aprendizagem supervisionada é um paradigma árduo, que requer a recolha de grandes quantidades de dados, a sua limpeza, etiquetagem manual, treino e aperfeiçoamento de um modelo concebido especificamente para o caso de uso de classificação ou regressão que pretenda resolver, para depois a utilizar para prever etiquetas para dados desconhecidos. Por exemplo, com imagens, recolhemos um conjunto de dados de imagens grandes, etiquetamos os objetos em imagens manualmente, treinamos a rede e depois usamo-la para um caso de uso específico.
Este tipo de aprendizagem, embora fácil de compreender, está longe da forma como uma pessoa, por exemplo, aprenderia. Aprendemos principalmente de uma forma não supervisionada e reforçada, usando a curiosidade e os resultados de tentativa e erro. Também aprendemos de uma forma supervisionada, mas podemos aprender com muito menos amostras, porque se há uma coisa em que os humanos são bastante bons é a generalizar e a abstrair informação.
A Self-supervised learning tem semelhanças com a aprendizagem não supervisionada porque o sistema aprende sem utilizar etiquetas explicitamente fornecidas como entrada. Mas também difere dela porque não estamos a aprender a estrutura inerente dos dados. A aprendizagem auto-supervisionada, ao contrário da aprendizagem não supervisionada, não se concentra no agrupamento, redução da dimensionalidade, motores de recomendação, estimativa da densidade ou deteção de anomalias.
A aprendizagem auto-supervisionada tem sido enormemente bem-sucedida no processamento da linguagem natural. Por exemplo, o modelo BERT do Google e técnicas semelhantes produzem excelentes representações de texto.