Gli androidi sanno disegnare una pecora?¶
21 maggio 2023
Un'introduzione alla AI creativa
Durata: 15 min
Pubblico: tutti
Interesse:
- cosa c'è alla base della capacità creativa delle AI?
- cosa possono creare oggi (maggio 2023) le AI?
QUIZ
Il titolo cela due opere del XX secolo. Quali?
Introduzione¶
Un aspetto particolarmente interessante, per qualcuno utile, per altri "disruptive" (ovvero che sta cambiando radicalmente la nostra società) dell'Intelligenza Artificiale è la sua capacità di creare nuovi contenuti. Tecnicamente si chiama Generative AI, o GenAI.
Per comprenderne le potenzialità, i limiti ed eventuali preoccupazioni, è bene fare un accenno alla teoria e alla tecnologia che la sottende. Dobbiamo studiare un po' :)
Iniziamo con una domanda: Cosa è una pecora?
Come costruire il modello¶
Nella nostra mente potremmo iniziare ad elencare tutte le caratteristiche che conosciamo di una pecora, costruendo un modello simbolico. Fossimo dei programmatori scriveremmo:
- genere: animale
- classe: mammifero
- arti: 4
- superficie: pelosa
- colore: chiaro
- peso: medio
- dimensioni: medie
- ... e così via altre variabili che riteniamo utili alla classificazione
Oppure potremmo osservare centinaia di foto di animali, con il relativo nome, e dire: deduciamo e memorizziamo le caratteristiche comuni, i "patterns" che vediamo nelle foto etichettate con "Pecora". Questo è il modello supervisionato.
Oppure possiamo dire: ecco tutta la conoscenza umana, testi e immagini. Vediamo di trovare tutto quello che possiamo associare alla parola "pecora". Questo è il modello non supervisionato.
Spoiler: un misto delle tre sarà il il modello GPT.
Machine Learning¶
Il Machine Learning è un sottoinsieme dell'Intelligenza Artificiale, che si preoccupa di come le macchine possano imparare da sole, per la precisione come possano riconoscere dei pattern nei dati e fare previsioni e prendere buone decisioni a partire da essi.
Non entreremo ora nei dettagli tecnici ma è importante sapere:
- come funziona? (rete neurale)
- come impara? (training)
- cosa può fare? (output)
Come funziona?¶
Rete Neurale Artificiale (ANN)¶
La Rete Neurale Artificiale si ispira alla struttura del nostro cervello, ed è composta da una rete di neuroni connessi tra loro che elaborano le informazioni in ingresso e restituiscono una risposta.
Il nostro cervello ha circa 85 miliardi di neuroni che comunicano tra loro attraverso segnali elettrici e chimici (sinapsi), segnali che seguono milioni ci connessioni accendendo diverse sequenze di neuroni. Ma il cervello è in grado di modificare le proprie connessioni (plasticità).
La versione artificiale parte dalla simulazione di un singolo neurone:
e li connette con una serie di livelli (layers) verticali. C'è un primo livello di Input, dove entrano i dati, i segnali. Tutta una serie di n (potenzialmente tanti. tantissimi) livelli intermedi "nascosti", ed infine un livello di neuroni in uscita (output). Ogni Neurone ed ogni connessione tra neuroni ha dei parametri che determina come i segnali si muovono e si trasformano.
In input potremmo avere un testo, un'immagine, i parametri di velocità della propria auto, tutto quello che vedo intorno a me.
Come impara?¶
La configurazione della Rete Neurale, ovvero la definizione di tutti i parametri, i pesi, dei nodi e delle connessioni, si chiama Training ed avviene analizzando grandi quantità di dati con diverse tecniche e metodi:
Supervised learning¶
La rete sa cosa le viene dato in input, e aggiorna il suo modello per avvicinarsi il più possibile alle risposte più corrette, con meno errori. Quando l'errore medio sarà inferiore ad una soglia che decidiamo noi, il modello sarà pronto per essere usato.
Captcha¶
Sapete cosa abbiamo fatto negli ultimi 20 anni, rispondendo prima alla lettura di parole dei libri, poi numeri civici, poi insegne, targhe e poi semafori, idranti e tutto quanto?
Unsupervised Learning¶
Il modello non supervisionato cerca di trovare caratteristiche comuni nei dati in ingresso. correlazioni, raggruppamenti. Non sa bene cosa significhino, però ad esempio potrebbe scoprire che alcune immagini sono diverse da altre (tipo cani e gatti), che dopo un "ciao" spesso segue un "come stai?", che una appartamento le cui coordinate sono centrali rispetto alla città, ha un costo per mq più alto, e così via.
Semi-Supervised Learning¶
Questo è un misto tra il Supervised e l'Unsupervised.
Big Data¶
Sebbene la teoria informatica avesse diversi decenni, tutto il Machine Learning ha iniziato a funzionare bene a partire dal 2010, dopo la grandissima disponibilità di dati digitalizzati e potenza di calcolo.
Reinforced Learning¶
Ottimo lavoro!
Impara a tentativi, aggiornato dal feedback e premi o penalità. Prendiamo due "agenti" ovvero un'entità dotata di sensori e attuatori e lo mettiamo in un ambiente e diciamo: voi squadra rossa dovete acchiappare la squadra blu per vincere. Voi blu non dovete farvi prendere da quelli rossi per vincere. Pronti?
👉🏼 video Multi-Agent Hide and Seek
Caso speciale: RLHF (reinforcement learning with human feedback) dove gli umani danni indicatori di bontà della risposta.
Imitation Learning¶
l'AI osserva e memorizza il comportamento umano, ne deduce i pattern e lo memorizza nelle ANN.
Deep Learning¶
Si mettono diversi livelli di reti neurali, specializzate magari per analizzare diverse caratteristiche di un'immagine, per poi essere combinate.
La velocità di ricerca e scoperta di nuove soluzioni è impressionante.
Cosa può fare?¶
Predizione¶
- Uber: predice il traffico
- Ambito medico: anticipare problemi di salute, potenziali tumori
Classificazione¶
Creazione: Generative AI¶
In pratica il modello di Deep Learning generativo:
- crea nuovi dati simili a quelli su cui si è allenato.
- conosce la distribuzione dei dati e quanto un dato esempio è simile
- predice la prossima parola in una frase.
Immagini¶
Le tecniche più usate sono la
- GAN (Generative Adversial Network)
Dove un modello crea degli esempi di immagini e un discriminatore vede se riesce a capire se sono reali o no
- Diffusion
testo¶
Il Natural Language Processing permette di comprendere il linguaggio umano.
Large Language Models, sempre più grandi.
LLM | Year | By | Size |
---|---|---|---|
BERT | 2018 | 340 million | |
GPT-2 | 2019 | OpenAI | 1.5 billion |
GPT-3 | 2020 | OpenAI | 175 billion |
PaLM | 2022 | 540 billion | |
LLaMA | 2023.2 | Meta | 65 billion |
GPT-4 | 2023.3 | OpenAI | 1 trillion |
PaLM 2 | 2023.5 | 340 billion |
Cosa creano?¶
Contesti applicativi
Ci sono già centinaia di strumenti disponibili, ogni settimana ne esce qualcuno. Rimandiamo a questo sito: Generative AI Landscape o AI Tools Club
Testo¶
- Chatbot: agenti di conversazione guidati dall'intelligenza artificiale per il cliente assistenza, domande frequenti e altro ancora.
- Creazione di contenuti: generazione di articoli, post sui social media, o scrittura creativa.
- Traduzione: conversione di testo tra lingue mentre preservando il significato.
- Riassunti: condensare un testo lungo in uno più breve, riassunti digeribili.
- Gestione della conoscenza: organizzazione, recupero, e analizzare le informazioni da grandi volumi di dati di testo.
- Quiz e Corsi
- Programmi di fitness
- Programmi di viaggi
- Ricette
Esempi:
ChatGPT – 4.0
by OpenAI (con i plugin fa praticamente tutto). Ha superato tutti i test di ammissione alle università americane senza un training preliminare.
Creatività
può generare, modificare e iterare con gli utenti su attività di scrittura creativa e tecnica, come comporre canzoni, scrivere sceneggiature o apprendere lo stile di scrittura di un utente.
Multimodale
accetta immagini come input e genera didascalie, classificazioni e analisi.
Input
Accetta fino a 32k token, ovvero circa 43.000 parole (circa la metà di 120 pagine di un libro)
Output
è in grado di gestire oltre 25.000 parole di testo (circa 60 pagine di un libro)
Alternative equivalenti:
- Bing Chat by Microsoft - Bard - by Google
Knowledge Management¶
Presentazioni¶
TOME
generative storytelling
Materiale didattico¶
Contenuti social¶
Jasper
crea contenuti social
Immagini¶
- Arte: creazione di opere d'arte uniche, generate dall'intelligenza artificiale o assistenza artisti con ispirazione visiva.
- Design: generazione di loghi, idee prodotto, siti web
- Gioco: produzione di risorse di gioco, trame o personaggi
- Sintesi testo-immagine: generazione di immagini fotorealistiche da descrizioni di testo o input di bassa qualità, aiutando a visualizzazione o prototipazione.
- Pubblicità e media: creazione di contenuti visivi su misura basato su suggerimenti testuali per campagne di marketing, social media e scopi di intrattenimento.
Esempi:
Midjourney
Adobe Firefly
Video¶
- Entertainment: film, programmi TV e pubblicità, riducendo costi e tempi di produzione.
- Realtà Virtuale (VR) e Realtà Aumentata (AR): ambienti realistici e personaggi
- Istruzione e formazione: simulazione di scenari realistici per scopi formativi ed educativi, viaggi didattici, simulazioni mediche o esercitazioni di sicurezza.
- Pubblicità: video personalizzati per indirizzare dati demografici specifici o preferenze individuali, aumentando l'efficacia e il coinvolgimento degli annunci.
Esempi:
Runway ML
dai creatori di Stable Diffusione,
vedi esempio 👉🏼Gen-1
vedi esempio 👉🏼 Gen-2
Avatar¶
- videochiamate
- videogiochi
- viaggi didattici / storici
- metaverso
Esempi:
- Synthesia Avatars (125), Voices (120), Video Templates (mio esempio)
- Rephrase Text-to-video
- Deepswap swap faces in video
vedi video MegaPortraits
Deep Fake video¶
Voce¶
- Sintesi vocale (TTS): conversione del testo scritto in parlato parole, assistente per utenti ipovedenti
- Assistenti virtuali: migliorare l'esperienza dell'utente (Siri, Alexa o Google Assistant).
- Audiolibri
- Clonazione vocale: creazione di voci personalizzate da utilizzare nelle animazioni, giochi o applicazioni personalizzate.
Esempi:
VALL-E analizza 3 secondi della tua voce e poi potrà dire qualsiasi cosa
SuperTone AI
👉🏼 ascoltiamo una demo di Freddie Mercury che canta in coreano.
Musica¶
MusicLM
crea musica a partire da una descrizione testuale
👉🏼 esempio di MuseNetA Little Bach AI Music
AIVA
composizione di colonne sonore
Modelli 3D¶
- Videogiochi: creare personaggi, paesaggi e ambienti realistici - vedi Ziva FX
- Architettura e design del prodotto: modelli 3D di città, edifici, prodotti e prototipi.
- Applicazioni mediche: modelli 3D dell'anatomia umana per la ricerca, l'istruzione e la pianificazione chirurgica. anche per creare impianti e protesi personalizzati per i pazienti.
Esempi:
Blender + StabilityAI genera automaticamente i materiali e le textures
Videogames¶
i videogiochi sono i medium più complessi e multimediali, in tempo reale e interattivi
Flight Simulator
con https://blackshark.ai/ hanno ricostruito in 3D tutta la Terra.
Nyric by Lovelace Studio
GENERATIVE AI PLATFORM FOR VR
Agenti / Giocatori (Unity ML-Agents)
Laboratorio
Altri esempi:
Task (azioni)¶
Project JARVIS.
un assistente personale in grado di creare sequenze di comandi selezionando e integrando diversi sistemi.
github.com/microsoft/JARVIS
Altri esempi:
- Bardeen Automatizzazione di procedure online
Codice di programmazione¶
GitHub Copilot
Il tuo assistente alla programmazione: scrivi cosa vuoi che faccia e lui scrive il codice, praticamente in ogni linguaggio.
Debuild
crea un'app web completa in pochi secondi
Scienza¶
AlphaFold e Meta AI hanno costruito dei modelli da 15 miliardi di parametri per l'analisi e il sequenziamento della proteine. Migliorando ed accelerando i processi fino a 60 volte. Impatto sulla medicina, chimica, energie rinnovabili. (fonte)
Robot autonomi¶
👉🏼 Vedi come imparano a giocare a calcio con il Reinforced Learning
Conclusione¶
L'ultimo decennio è stato definito da User Generated Content (UGC). Il prossimo sarà costruito su AI Generated Content (AIGC)
Attenzione ai "gorilla nell'algoritmo":
Gli output della GenAI sono il frutto dell'elaborazione della produzione della nostra umanità, magari riconnesso in modo originale e imprevedibile
Oggi è più un problema di immaginazione e curiosità, che non di tecnologia e risorse.
Dobbiamo imparare a descrivere bene quello che vogliamo... e fare attenzione a quello che desideriamo.
Se vuoi continuare a saperne di più, puoi iscriverti alla mia newsletter 2042 o esplorare tutti i link e materiali di questo sito.
Appendici¶
Goat Simulator¶
si, il gioco che simula una capra (non una pecora ma ok) l'hanno fatto ed è un successo!
vedi qui
Siti¶
Glossario¶
AI - Artificial Intelligence
AGI - Artificial General Intelligence
LLM - Large Language Model
GPT - Generative Pre-trained Transformer
NLP - Natural Language Processing
PaLM - Pathways Language Model
ChatGPT esempi¶
Comporre musica¶
> can you compose a music like Bach and write it in ABC music format ?
> can you add a second voice?
> can you add a bass line?
> and if you were Mozart?
Soluzione al quiz iniziale Do Androids dream of Electric Sheep? e Il Piccolo Principe