Cos'è un modello di fondazione?
Addestrati su enormi set di dati, i modelli di fondazione (FM) sono grandi reti neurali di deep learning che hanno cambiato il modo in cui i data scientist affrontano il machine learning (ML). Piuttosto che sviluppare l'intelligenza artificiale (IA) da zero, i data scientist utilizzano un modello di base come punto di partenza, per sviluppare modelli di machine learning che alimentano nuove applicazioni in modo più rapido ed economico. Il termine modello di fondazione è stato coniato dai ricercatori per descrivere modelli di machine learning configurati su un ampio spettro di dati generalizzati e senza etichetta, in grado di eseguire un'ampia varietà di attività generali come la comprensione del linguaggio, la generazione di testo e immagini e la conversazione in linguaggio naturale.
Cosa rende unici i modelli di fondazione?
Una caratteristica unica dei modelli di fondazione è la loro adattabilità. Questi modelli possono eseguire un'ampia gamma di attività diverse con un elevato grado di precisione in base alle informazioni fornite. Alcune attività includono l'elaborazione del linguaggio naturale (NLP), la risposta alle domande e la classificazione delle immagini. Le dimensioni e lo scopo generico dei FM li rendono diversi dai modelli ML tradizionali, che in genere svolgono attività specifiche, come l'analisi del testo per il sentiment, la classificazione delle immagini e la previsione delle tendenze.
È possibile utilizzare i modelli di fondazione come modelli di base per lo sviluppo di applicazioni a valle più specializzate. Questi modelli sono il culmine di oltre un decennio di lavoro che ne ha visto la crescita in termini di dimensioni e complessità.
Ad esempio, BERT, uno dei primi modelli di fondazione bidirezionali, è stato rilasciato nel 2018. È stato addestrato utilizzando 340 milioni di parametri e un set di dati di training da 16 GB. Nel 2023, solo cinque anni dopo, OpenAI ha addestrato GPT-4 utilizzando 170 trilioni di parametri e un set di dati di training da 45 GB. Secondo OpenAI, la potenza di calcolo richiesta per la modellazione delle fondamenta è raddoppiata ogni 3,4 mesi dal 2012. Le FM odierne, come i modelli di linguaggio di grandi dimensioni (LLM) Claude 2 e Llama 2 e il modello da testo a immagine Stable Diffusion di Stability AI, possono eseguire una gamma di attività fin da subito relative a più domini, come scrivere post di blog, generare immagini, risolvere problemi di matematica, partecipare a dialoghi e rispondere a domande basate su un documento.
Perché è importante la modellazione delle fondazioni?
I modelli di fondazione sono pronti a cambiare in modo significativo il ciclo di vita del machine learning. Per quanto attualmente lo sviluppo di un modello di fondazione da zero necessiti di milioni di dollari, nel lungo termine sono uno strumento molto utile. È più veloce ed economico per i data scientist utilizzare FM pre-addestrati per sviluppare nuove applicazioni ML, piuttosto che addestrare modelli ML unici da zero.
Un potenziale utilizzo è l'automazione di attività e processi, in particolare quelli che richiedono capacità di ragionamento. Ecco alcune applicazioni per i modelli di fondazione:
- Servizio clienti
- Traduzione linguistica
- Generazione di contenuti
- Scrittura di testi
- Classificazione di immagini
- Creazione e modifica di immagini ad alta risoluzione
- Estrazione di documenti
- Robotica
- Sanità
- Veicoli autonomi
Come funzionano i modelli di fondazione?
I modelli di fondazione sono una tipo di intelligenza artificiale generativa (IA generativa). Generano output da uno o più input (prompt) sotto forma di istruzioni in linguaggio umano. I modelli si basano su reti neurali complesse, tra cui reti generative avversarie (GAN), trasformatori e encoder variazionali.
Sebbene ogni tipo di rete funzioni in modo diverso, i principi alla base del loro funzionamento sono simili. In generale, un FM utilizza schemi e relazioni appresi per prevedere l'elemento successivo in una sequenza. Ad esempio, con la generazione di immagini, il modello analizza l'immagine e ne crea una versione più nitida e definita. Allo stesso modo, con il testo, il modello prevede la parola successiva in una stringa di testo in base alle parole precedenti e al suo contesto. Seleziona quindi la parola successiva utilizzando tecniche di distribuzione della probabilità.
I modelli di fondazione utilizzano l'apprendimento supervisionato autonomo per creare etichette a partire dai dati di input. Ciò significa che nessuno ha istruito o addestrato il modello con set di dati di training etichettati. Questa funzionalità separa gli LLM dalle precedenti architetture ML, che utilizzano l'apprendimento supervisionato o non supervisionato.
Cosa possono fare i modelli di fondazione?
I modelli di fondazione, anche se hanno ricevuto un pre-training, possono continuare ad apprendere dagli input o dai prompt dei dati durante l'inferenza. Ciò significa che è possibile sviluppare risultati completi tramite istruzioni attentamente curate. Le attività che i FM possono svolgere includono l'elaborazione del linguaggio, la comprensione visiva, la generazione di codice e il coinvolgimento incentrato sull'uomo.
Elaborazione del linguaggio
Questi modelli hanno notevoli capacità di rispondere a domande in linguaggio naturale e persino la capacità di scrivere brevi script o articoli in risposta ai prompt. Possono anche tradurre lingue utilizzando tecnologie NLP.
Comprensione visiva
I FM eccellono nella visione artificiale, in particolare per quanto riguarda l'identificazione di immagini e oggetti fisici. Queste funzionalità possono trovare impiego in applicazioni come guida autonoma e robotica. Un'altra funzionalità è la generazione di immagini partendo dal testo di input, nonché l'editing di foto e video.
Generazione di codice
I modelli di fondazione possono generare codice informatico in vari linguaggi di programmazione, basato su input in linguaggio naturale. È anche possibile utilizzare FM per valutare ed eseguire il debug del codice.
Impegno incentrato sull'uomo
I modelli di IA generativa utilizzano input umani per apprendere e migliorare le previsioni. Un'applicazione importante e talvolta trascurata è la capacità di questi modelli di supportare il processo decisionale umano. I potenziali usi includono diagnosi cliniche, sistemi di supporto decisionale e analisi.
Un'altra capacità sta nello sviluppo di nuove applicazioni di intelligenza artificiale mediante l'ottimizzazione dei modelli di base esistenti.
Da voce a testo
Dato che i FM comprendono il linguaggio, essi possono essere utilizzati per attività di sintesi vocale come la trascrizione e la creazione di sottotitoli video in una varietà di lingue.
Quali sono gli esempi di modelli di fondazione?
Il numero e le dimensioni dei modelli di fondazione sul mercato sono cresciuti rapidamente. Ora esistono decine di modelli a disposizione. Ecco un elenco dei più importanti modelli di fondazione rilasciati dal 2018.
BERT
Rilasciato nel 2018, Bidirectional Encoder Representations from Transformers (BERT) è stato uno dei primi modelli di fondazione. BERT è un modello bidirezionale che analizza il contesto di una sequenza completa e di conseguenza effettua una previsione. Ha ricevuto un training su un corpus di testo semplice e su Wikipedia, utilizzando 3,3 miliardi di token (parole) e 340 milioni di parametri. BERT può rispondere a domande, prevedere frasi e tradurre testi.
GPT
Il modello Generative Pre-trained Transformer (GPT) è stato sviluppato da OpenAI nel 2018. Utilizza un decoder a trasformatore a 12 strati con un meccanismo di attenzione autonoma. Il training è stato effettuato sul set di dati BookCorpus, che contiene oltre 11.000 romanzi gratuiti. Una funzionalità notevole di GPT-1 è la capacità di eseguire un apprendimento zero-shot.
GPT-2 rilasciato nel 2019. OpenAI ha fornito il training utilizzando 1,5 miliardi di parametri (rispetto ai 117 milioni di parametri utilizzati per GPT-1). GPT-3 ha una rete neurale a 96 strati e 175 miliardi di parametri, ed ha ricevuto il training utilizzando il set di dati Common Crawl da 500 miliardi di parole. Il famoso chatbot ChatGPT è basato su GPT-3.5. GPT-4, l'ultima versione, è stata lanciata alla fine del 2022 e ha superato con successo l'Uniform Bar Examination con un punteggio di 297 (76%).
Ulteriori informazioni su GPT»
Amazon Titan
I FM di Amazon Titan hanno ricevuto un pre-training su set di dati di grandi dimensioni, il che li rende modelli potenti e per usi generici. Possono essere utilizzati così come sono, oppure personalizzati privatamente con dati specifici dell'azienda per una particolare attività senza annotare grandi volumi di dati. Inizialmente, Titan offrirà due modelli. Il primo è un LLM generativo per attività come riepiloghi, generazione di testi, classificazioni, domande e risposte aperte ed estrazione di informazioni. Il secondo è un LLM sugli incorporamenti, che traduce gli input di testo tra cui parole, frasi e grandi unità di testo in rappresentazioni numeriche (note come incorporamenti) che contengono il significato semantico del testo. Per quanto questo LLM non generi testo, è utile per applicazioni come la personalizzazione e la ricerca, perché confrontando gli incorporamenti il modello è in grado di produrre risposte più pertinenti e contestuali rispetto alla corrispondenza di parole. Per continuare a supportare le migliori pratiche nell'uso responsabile dell'intelligenza artificiale, i FM Titan sono progettati per rilevare e rimuovere i contenuti dannosi nei dati, rifiutare i contenuti inappropriati nell'input dell'utente e filtrare gli output dei modelli che contengono contenuti inappropriati come incitamento all'odio, parolacce e violenza.
AI21 Jurassic
Rilasciato nel 2021, Jurassic-1 è un modello di linguaggio autoregressivo a 76 livelli con 178 miliardi di parametri. Jurassic-1 genera testo simile a quello umano e risolve attività complesse. Le sue prestazioni sono paragonabili a quelle di GPT-3.
Nel marzo 2023, AI21 Labs ha rilasciato Jurrassic-2, dotato di migliori capacità di seguire le istruzioni e migliori capacità linguistiche.
Claude
Claude 3.5 Sonnet
Il modello più intelligente e avanzato di Anthropic, Claude 3.5 Sonnet, dimostra capacità eccezionali in una vasta gamma di attività e valutazioni, superando anche le prestazioni di Claude 3 Opus.
Claude 3 Opus
Opus è un modello altamente intelligente con prestazioni affidabili per attività complesse. È in grado di gestire istruzioni aperte e in scenari a scatola chiusa con notevole fluidità e comprensione simile a quella umana. Opus può essere utilizzato per automatizzare le attività e accelerare la ricerca e lo sviluppo in una vasta gamma di casi d'uso e settori.
Claude 3 Haiku
Haiku è il modello più veloce e compatto di Anthropic per una reattività quasi istantanea. Haiku è la scelta migliore per creare esperienze di intelligenza artificiale fluide che imitano le interazioni umane. Le aziende possono utilizzare Haiku per moderare i contenuti, ottimizzare la gestione dell'inventario, produrre traduzioni rapide e accurate, riepilogare dati non strutturati e altro ancora.
Cohere
Cohere presenta due LLM: il primo è un modello di generazione con funzionalità simili a GPT-3, il secondo è un modello di rappresentazione destinato alla comprensione delle lingue. Sebbene Cohere abbia solo 52 miliardi di parametri, offre prestazioni migliori di GPT-3 sotto molti aspetti.
Stable Diffusion
Stable Diffusion è un modello testo-immagine in grado di generare immagini ad alta definizione dall'aspetto realistico. È stato rilasciato nel 2022 e ha un modello di diffusione che utilizza tecnologie di rumore e riduzione del rumore per imparare a creare immagini.
Il modello è più piccolo delle tecnologie di diffusione concorrenti, come DALL-E 2, il che significa che non necessita di un'estesa infrastruttura informatica. Stable Diffusion funzionerà su una normale scheda grafica o anche su uno smartphone con piattaforma Snapdragon Gen2.
Ulteriori informazioni su Stable Diffusion »
BLOOM
BLOOM è un modello multilingue con un'architettura simile a quella di GPT-3. È stato sviluppato nel 2022 come iniziativa collaborativa che ha coinvolto oltre un migliaio di scienziati e il team di Hugging Space. Il modello ha 176 miliardi di parametri; il training ha richiesto tre mesi e mezzo utilizzando 384 GPU Nvidia A100. Sebbene il checkpoint BLOOM richieda 330 GB di spazio di archiviazione, è in grado di girare su un PC autonomo con 16 GB di RAM. BLOOM può creare testo in 46 lingue e scrivere codice in 13 linguaggi di programmazione.
Hugging Face
Hugging Face è una piattaforma che offre strumenti open source per creare e implementare modelli di machine learning. Funge da hub della community: gli sviluppatori possono condividere ed esplorare modelli e set di dati. L'iscrizione per i singoli è gratuita, mentre gli abbonamenti a pagamento offrono livelli di accesso più elevati. Offre il pubblico accesso a quasi 200.000 modelli e a 30.000 set di dati.
Quali sono le sfide legate ai modelli di fondazione?
I modelli di fondazione possono rispondere in modo coerente ai suggerimenti su argomenti su cui non hanno ricevuto training esplicitamente. Tuttavia, hanno alcuni punti deboli. Ecco alcune delle sfide che i modelli di fondazione devono affrontare:
- Requisiti dell'infrastruttura. La creazione di un modello di fondazione partendo da zero è costosa e richiede enormi risorse; il training può richiedere mesi.
- Sviluppo frontend. Per le applicazioni pratiche, gli sviluppatori devono integrare i modelli di base in uno stack di software, includendo strumenti per la progettazione dei prompt, la messa a punto e l'ingegneria delle pipeline.
- Mancanza di comprensione. Sebbene possano fornire risposte corrette dal punto di vista grammaticale e fattuale, i modelli di fondazione hanno difficoltà a comprendere il contesto di un prompt. Inoltre, non sono socialmente o psicologicamente consapevoli.
- Risposte inaffidabili. Le risposte a domande su determinati argomenti possono essere inaffidabili e talvolta inappropriate, dannose o errate.
- Pregiudizi. Il pregiudizio è una possibilità concreta, in quanto i modelli possono cogliere l'incitamento all'odio e le sfumature inappropriate dai set di dati di training. Per evitare che ciò accada, gli sviluppatori devono filtrare attentamente i dati di training e codificare norme specifiche nei loro modelli.
Come ti può aiutare AWS?
Amazon Bedrock è il modo più semplice per creare e scalare applicazioni di IA generativa con modelli di fondazione. Amazon Bedrock è un servizio completamente gestito che mette a disposizione i modelli di fondazione delle principali startup di IA e di Amazon attraverso un'API, permettendoti di trovare il modello più adatto al tuo caso d'uso. Con Bedrock puoi accelerare lo sviluppo e l'implementazione di applicazioni di IA generativa scalabili, affidabili e sicure senza gestire l'infrastruttura.
Amazon SageMaker JumpStart, un hub ML che offre modelli, algoritmi e soluzioni, fornisce l'accesso a centinaia di modelli di fondazione, inclusi quelli più performanti pubblicamente disponibili. Continuano ad essere aggiunti nuovi modelli di base, tra cui Llama 2, Falcon e Stable Diffusion XL 1.0.
Passaggi successivi su AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.