Apa itu Model Fondasi?
Dilatih pada set data masif, model fondasi (FM) adalah jaringan neural deep learning besar yang telah mengubah cara pendekatan ilmuwan data terhadap machine learning (ML). Alih-alih mengembangkan kecerdasan buatan (AI) dari awal, ilmuwan data menggunakan model fondasi sebagai titik awal untuk mengembangkan model ML yang mendukung aplikasi baru dengan lebih cepat dan hemat biaya. Istilah model fondasi dicetuskan oleh para peneliti untuk menggambarkan model ML yang dilatih pada spektrum luas dari data umum dan tidak berlabel dan mampu melakukan berbagai tugas umum, seperti memahami bahasa, menghasilkan teks dan gambar, serta berbicara dalam bahasa alami.
Apa yang unik tentang model fondasi?
Fitur unik dari model fondasi adalah kemampuannya dalam beradaptasi. Model ini dapat melakukan berbagai tugas yang berbeda dengan tingkat akurasi yang tinggi berdasarkan prompt input. Beberapa tugas termasuk pemrosesan bahasa alami (NLP), menjawab pertanyaan, dan klasifikasi gambar. Ukuran dan sifat tujuan umum dari FM membuatnya berbeda dari model ML tradisional, yang biasanya melakukan tugas-tugas tertentu, seperti menganalisis teks untuk sentimen, mengklasifikasikan gambar, dan memprakirakan tren.
Anda dapat menggunakan model fondasi sebagai model dasar untuk mengembangkan aplikasi hilir yang lebih khusus. Model-model ini merupakan puncak dari hasil kerja selama lebih dari satu dekade yang membuat ukuran dan kerumitannya meningkat.
Misalnya, BERT, salah satu model fondasi dua arah pertama, yang dirilis pada tahun 2018. BERT dilatih menggunakan 340 juta parameter dan 16 GB set data pelatihan. Pada tahun 2023, hanya lima tahun kemudian, OpenAI melatih GPT-4 menggunakan 170 triliun parameter dan 45 GB set data pelatihan. Menurut OpenAI, daya komputasi yang dibutuhkan untuk pemodelan fondasi telah berlipat ganda setiap 3,4 bulan sejak tahun 2012. FM saat ini, seperti model bahasa besar (LLM) Claude 2 dan Llama 2, serta model teks-ke-gambar Stable Difusion dari Stability AI, dapat melakukan berbagai tugas unik yang mencakup beberapa domain, seperti menulis posting blog, menghasilkan gambar, memecahkan soal matematika, terlibat dalam dialog, dan menjawab pertanyaan berdasarkan dokumen.
Mengapa pemodelan fondasi itu penting?
Model fondasi siap untuk secara signifikan mengubah siklus hidup machine learning. Meski saat ini dibutuhkan biaya jutaan dolar untuk mengembangkan model fondasi dari awal, model ini berguna dalam jangka panjang. Mengembangkan aplikasi ML baru akan lebih cepat dan lebih murah bagi para ilmuwan data jika mereka menggunakan FM yang sudah terlatih sebelumnya daripada melatih model ML yang unik dari awal.
Salah satu penggunaan potensial adalah mengotomatiskan tugas dan proses, terutama yang membutuhkan kemampuan penalaran. Berikut adalah beberapa aplikasi untuk model fondasi:
- Dukungan pelanggan
- Terjemahan bahasa
- Pembuatan konten
- Copywriting
- Klasifikasi gambar
- Pembuatan dan pengeditan gambar beresolusi tinggi
- Ekstraksi dokumen
- Robotika
- Layanan Kesehatan
- Kendaraan otonom
Bagaimana cara kerja model fondasi?
Model fondasi adalah bentuk dari kecerdasan buatan generatif (AI generatif). Model fondasi menghasilkan output dari satu atau beberapa input (prompt) dalam bentuk instruksi bahasa manusia. Model didasarkan pada jaringan neural kompleks termasuk jaringan adversarial generatif (GAN), transformator, dan enkoder variasional.
Meski setiap tipe jaringan memiliki fungsi yang berbeda, prinsip di balik cara kerjanya serupa. Secara umum, FM menggunakan pola dan hubungan yang dipelajari untuk memprediksi item berikutnya secara berurutan. Misalnya, dengan pembuatan gambar, model menganalisis gambar dan membuat versi gambar yang lebih tajam dan lebih jelas. Demikian halnya dengan teks, model memprediksi kata berikutnya dalam serangkaian teks berdasarkan kata-kata sebelumnya dan konteksnya. Kemudian, FM memilih kata berikutnya menggunakan teknik distribusi probabilitas.
Model fondasi menggunakan pembelajaran yang diawasi secara mandiri untuk membuat label dari data input. Ini berarti tidak ada yang menginstruksikan atau melatih model dengan set data pelatihan berlabel. Fitur ini memisahkan LLM dari arsitektur ML sebelumnya, yang menggunakan pembelajaran yang diawasi atau tanpa pengawasan.
Apa kegunaan model fondasi?
Meski telah dilatih sebelumnya, model fondasi dapat terus belajar dari input atau prompt data selama inferensi. Ini berarti Anda dapat mengembangkan output komprehensif melalui prompt yang dikurasi dengan cermat. Tugas yang dapat dilakukan oleh FM mencakup pemrosesan bahasa, pemahaman visual, pembuatan kode, dan keterlibatan yang berpusat pada manusia.
Pemrosesan bahasa
Model-model ini memiliki kemampuan luar biasa dalam menjawab pertanyaan bahasa alami dan bahkan kemampuan untuk menulis naskah pendek atau artikel dalam merespons prompt. Model ini juga dapat menerjemahkan bahasa menggunakan teknologi NLP.
Pemahaman visual
FM unggul dalam penglihatan komputer, terutama yang berkaitan dengan identifikasi gambar dan objek fisik. Kemampuan ini dapat digunakan dalam aplikasi, seperti kemudi otonom dan robotika. Kemampuan lain adalah pembuatan gambar dari teks input, serta pengeditan foto dan video.
Pembuatan kode
Model fondasi dapat menghasilkan kode komputer dalam berbagai bahasa pemrograman berdasarkan input bahasa alami. FM juga layak digunakan untuk mengevaluasi dan melakukan debug kode.
Keterlibatan yang berpusat pada manusia
Model AI generatif menggunakan input manusia untuk mempelajari dan meningkatkan prediksi. Aplikasi yang penting dan terkadang diabaikan adalah kemampuan model ini untuk mendukung pengambilan keputusan oleh manusia. Penggunaan potensial termasuk diagnosis klinis, sistem pendukung keputusan, dan analitik.
Kemampuan lainnya adalah pengembangan aplikasi AI baru dengan menyempurnakan model fondasi yang ada.
Ucapan ke teks
Karena FM memahami bahasa, model ini dapat digunakan untuk tugas ucapan ke teks seperti transkripsi dan teks video dalam berbagai bahasa.
Apa saja contoh model fondasi?
Jumlah dan ukuran model fondasi di pasar telah berkembang pesat. Sekarang sudah ada puluhan model yang tersedia. Berikut ini adalah daftar model fondasi terkemuka yang dirilis sejak tahun 2018.
BERT
Dirilis pada tahun 2018, Representasi Enkoder Dua Arah dari Transformator (BERT) adalah salah satu model fondasi pertama. BERT adalah model dua arah yang menganalisis konteks urutan lengkap, lalu membuat prediksi. Sistem ini dilatih pada korpus teks biasa dan Wikipedia menggunakan 3,3 miliar token (kata) dan 340 juta parameter. BERT dapat menjawab pertanyaan, memprediksi kalimat, dan menerjemahkan teks.
GPT
Model Generative Pre-trained Transformer (GPT) dikembangkan oleh OpenAI pada tahun 2018. Model ini menggunakan dekoder transformator 12 lapis dengan mekanisme perhatian mandiri. GPT dilatih pada set data BookCorpus, yang menyimpan lebih dari 11.000 novel gratis. Fitur yang menonjol dari GPT-1 adalah kemampuannya untuk melakukan pembelajaran zero-shot.
GPT-2 dirilis pada tahun 2019. OpenAI melatihnya menggunakan 1,5 miliar parameter (dibandingkan dengan 117 juta parameter yang digunakan pada GPT-1). GPT-3 memiliki jaringan neural 96 lapis dan 175 miliar parameter serta dilatih menggunakan set data Common Crawl dengan 500 miliar kata. Chatbot ChatGPT yang populer didasarkan pada GPT-3.5. Dan GPT-4, versi terbaru, diluncurkan pada akhir tahun 2022 dan berhasil lulus Uniform Bar Examination dengan skor 297 (76%).
Baca selengkapnya mengenai GPT »
Amazon Titan
FM Amazon Titan telah dilatih sebelumnya pada set data besar sehingga menjadikannya model tujuan umum yang kuat. Model ini dapat digunakan langsung atau disesuaikan secara privat dengan data khusus perusahaan untuk tugas tertentu tanpa membuat anotasi volume data yang besar. Awalnya, Titan akan menawarkan dua model. Yang pertama adalah LLM generatif untuk tugas-tugas, seperti ringkasan, pembuatan teks, klasifikasi, tanya jawab terbuka, dan ekstraksi informasi. Yang kedua adalah LLM penyematan yang menerjemahkan input teks termasuk kata, frasa, dan unit besar teks ke dalam representasi numerik (dikenal sebagai penyematan) yang berisi makna semantik dari teks. Meski tidak akan menghasilkan teks, LLM ini berguna untuk aplikasi, seperti personalisasi dan pencarian karena dengan membandingkan penyematan, model akan menghasilkan respons yang lebih relevan dan kontekstual daripada pencocokan kata. Untuk terus mendukung praktik terbaik dalam penggunaan AI yang bertanggung jawab, FM Titan dibuat untuk mendeteksi dan menghapus konten berbahaya dalam data, menolak konten yang tidak pantas dalam input pengguna, dan memfilter output model yang berisi konten yang tidak pantas, seperti ujaran kebencian, kata-kata tidak senonoh, dan kekerasan.
AI21 Jurassic
Dirilis pada tahun 2021, Jurassic-1 adalah model bahasa regresif otomatis 76 lapis dengan 178 miliar parameter. Jurassic-1 menghasilkan teks seperti yang dihasilkan manusia dan menyelesaikan tugas-tugas kompleks. Performanya sebanding dengan GPT-3.
Pada bulan Maret 2023, AI21 Labs merilis Jurrassic-2, yang telah meningkatkan kemampuan mengikuti instruksi dan bahasa.
Claude
Claude 3.5 Sonnet
Model Anthropic yang paling cerdas dan mutakhir, Claude 3.5 Sonnet, menunjukkan kemampuan luar biasa di berbagai tugas dan evaluasi sekaligus mengungguli Claude 3 Opus.
Claude 3 Opus
Opus adalah model yang sangat cerdas dengan performa andal pada tugas-tugas yang kompleks. Model ini dapat menavigasi perintah terbuka dan skenario yang tidak terlihat dengan kefasihan luar biasa dan pemahaman seperti manusia. Gunakan Opus untuk mengotomatiskan tugas, dan mengakselerasi penelitian serta pengembangan di berbagai kasus penggunaan dan industri.
Claude 3 Haiku
Haiku adalah model Anthropic yang tercepat dan paling ringkas untuk keresponsifan yang hampir instan. Haiku adalah pilihan terbaik untuk membangun pengalaman AI yang lancar dan meniru interaksi manusia. Korporasi dapat menggunakan Haiku untuk memoderasi konten, mengoptimalkan manajemen inventaris, menghasilkan terjemahan yang cepat dan akurat, meringkas data tidak terstruktur, dan lainnya.
Cohere
Cohere memiliki dua LLM: yang pertama adalah model generasi dengan kemampuan serupa dengan GPT-3 dan yang lainnya adalah model representasi yang dimaksudkan untuk memahami bahasa. Meski Cohere hanya memiliki 52 miliar parameter, Cohere mengungguli GPT-3 dalam banyak hal.
Stable Diffusion
Stable Diffusion adalah model teks ke gambar yang dapat menghasilkan gambar definisi tinggi yang tampak realistis. Cohere dirilis pada tahun 2022 dan memiliki model difusi yang menggunakan teknologi noising dan denoising untuk mempelajari cara membuat gambar.
Model ini lebih kecil dari kompetitor teknologi difusi, seperti DALL-E 2, yang berarti tidak memerlukan infrastruktur komputasi yang luas. Stable Diffusion akan berjalan pada kartu grafis normal atau bahkan pada ponsel pintar dengan platform Snapdragon Gen2.
Baca Stable Diffusion selengkapnya »
BLOOM
BLOOM adalah model multibahasa dengan arsitektur yang mirip dengan GPT-3. BLOOM dikembangkan pada tahun 2022 sebagai upaya kolaboratif yang melibatkan lebih dari seribu ilmuwan dan tim Hugging Space. Model ini memiliki 176 miliar parameter dan pelatihan memakan waktu tiga setengah bulan menggunakan 384 GPU Nvidia A100. Meski pos pemeriksaan BLOOM membutuhkan penyimpanan 330 GB, BLOOM akan berjalan pada PC mandiri dengan RAM 16 GB. BLOOM dapat membuat teks dalam 46 bahasa dan menulis kode dalam 13 bahasa pemrograman.
Hugging Face
Hugging Face adalah platform yang menawarkan alat sumber terbuka untuk membangun dan melakukan deployment model machine learning. Hugging Face bertindak sebagai hub komunitas, dan developer dapat berbagi dan menjelajahi model dan set data. Keanggotaan untuk individu gratis meski langganan berbayar menawarkan tingkat akses yang lebih tinggi. Anda memiliki akses publik ke hampir 200.000 model dan 30.000 set data.
Apa saja tantangan model fondasi?
Model fondasi dapat merespons secara koheren terhadap prompt pada subjek yang belum dilatih secara eksplisit. Namun, model ini memiliki kelemahan tertentu. Berikut adalah beberapa tantangan yang dihadapi model fondasi:
- Persyaratan infrastruktur. Membangun model fondasi dari awal itu mahal dan membutuhkan sumber daya yang sangat besar, serta pelatihan yang bisa memakan waktu berbulan-bulan.
- Pengembangan front-end. Untuk aplikasi praktis, developer perlu mengintegrasikan model fondasi ke dalam tumpukan perangkat lunak, termasuk alat bantu untuk rekayasa prompt, fine-tuning, dan rekayasa jalur.
- Kurangnya pemahaman. Meski dapat memberikan jawaban yang benar secara tata bahasa dan faktual, model fondasi mengalami kesulitan dalam memahami konteks prompt. Model ini tidak memiliki pemahaman sosial atau psikologis.
- Jawaban yang tidak dapat diandalkan. Jawaban atas pertanyaan-pertanyaan mengenai pokok bahasan tertentu mungkin tidak dapat diandalkan dan terkadang tidak tepat, menyesatkan, atau tidak benar.
- Bias. Bias adalah kemungkinan yang berbeda karena model dapat menangkap ujaran kebencian dan nada yang tidak pantas dari set data pelatihan. Untuk menghindari hal ini, developer harus secara hati-hati memfilter data pelatihan dan mengodekan norma-norma tertentu ke dalam model mereka.
Bagaimana AWS Dapat Membantu?
Amazon Bedrock adalah cara termudah untuk membangun dan menskalakan aplikasi AI generatif dengan model fondasi. Amazon Bedrock adalah layanan terkelola penuh yang membuat model fondasi dari Amazon dan perusahaan rintisan AI terkemuka tersedia melalui API sehingga Anda dapat memilih dari berbagai FM untuk menemukan model yang paling cocok untuk kasus penggunaan Anda. Dengan Bedrock, Anda dapat mempercepat pengembangan dan deployment aplikasi AI generatif yang dapat diskalakan, andal, dan aman tanpa mengelola infrastruktur.
Amazon SageMaker JumpStart, yang merupakan hub ML yang menawarkan model, algoritma, dan solusi, menyediakan akses ke ratusan model fondasi, termasuk model fondasi performa terbaik yang tersedia untuk publik. Model fondasi baru terus ditambahkan, termasuk Llama 2, Falcon, dan Stable Diffusion XL 1.0.