Apa itu MiniGPT-4? Penjelasan Mendalam dan Penerapan di Jetson Orin

Seeed Studio AIoT Marketing and Partnership Diterjemahkan oleh : Digiware

12/10/20243 min baca

Untuk tugas visi komputer yang kompleks, kita biasanya memerlukan mesin tidak hanya untuk menginterpretasikan data visual yang kompleks tetapi juga untuk memahami kerumitan kontekstual melalui bahasa. Itulah kekuatan model visi-bahasa dengan kemampuan multimoda, yang meningkatkan akurasi dan kedalaman deteksi objek, dan terlebih lagi, menyediakan potensi besar untuk interaksi manusia-mesin yang lebih intuitif. MiniGPT-4 adalah salah satu aplikasi menarik yang dapat kita gunakan dalam dunia LLM multimoda.

Di sini kita akan membahas tentang bagaimana teknologi miniGPT-4 di balik aplikasi AI generatif ini dibangun, di mana mereka dapat digunakan, dan bagaimana cara memaksimalkannya di NVIDIA Jetson Orin. Untuk mengeksplorasi lebih banyak kemungkinan teknologi AI generatif, silakan baca panduan Jetson Generative AI Lab untuk mencobanya!

Apa itu MiniGPT-4

MiniGPT-4 adalah versi ringan dari model bahasa visual yang sangat mirip dengan ChatGPT. Model ini dikembangkan untuk memverifikasi apakah model bahasa besar yang canggih dapat meningkatkan kekuatan kemampuan pembuatan multimoda (Kita akan membahas tentang pembelajaran mendalam multimoda di bagian berikut).

Dengan menyelaraskan enkoder visual beku yang berisi ViT dan Q-Former yang telah dilatih sebelumnya dengan LLM – Vicuna beku, hanya menggunakan satu lapisan proyeksi, miniGPT-4 menunjukkan banyak kemampuan multimoda canggih yang mirip dengan GPT-4, seperti menghasilkan deskripsi gambar terperinci dan membuat situs web dari sketsa yang digambar tangan, bahkan meluas hingga dapat menulis puisi atau memberikan panduan berdasarkan gambar yang diberikan.

Untuk menghasilkan keluaran bahasa yang lebih alami bagi mesin, penting untuk menghilangkan gangguan berupa noise: menyempurnakan model dengan kumpulan data deskripsi gambar yang terperinci daripada hanya menggunakan teks gambar yang singkat. Semua ini dilakukan untuk meningkatkan keandalan pembuatan model dan kegunaan yang lebih baik.

Metode MiniGPT-4 dalam Dua Tahap

1. Selama proses pra-pelatihan, sejajarkan pasangan gambar-teks dengan sejumlah besar koleksi data

  • Seluruh proses melewati 20.000 langkah yang diselesaikan dalam waktu sekitar 10 jam, menggunakan sekitar 5 juta pasangan gambar-teks dengan ukuran batch 256.

  • Ternyata pelatihan awal menunjukkan kekuatan besar dari pengetahuan yang kaya untuk dapat merespons permintaan manusia dengan baik. Namun, output tersebut tidak dapat sepenuhnya dijamin selaras dengan keinginan manusia secara akurat.

2. Penyelarasan visi-bahasa – Memperbaiki kesalahan deskripsi dalam pasca-pemrosesan data untuk menyempurnakan model

  • Gunakan ChatGPT untuk menghapus kalimat yang diulang/tidak perlu dalam deskripsi yang dibuat berdasarkan 5.000 gambar yang dipilih secara acak.

  • Verifikasi kebenaran setiap deskripsi gambar secara manual. Ternyata ada 3.500 gambar yang dapat menjadi pasangan teks-gambar berkualitas tinggi untuk bagian penyempurnaan berikutnya.

  • Selain mengidentifikasi objek dalam gambar, yang sama dengan model bahasa penglihatan BLIP-2, miniGPT-4 juga dapat menunjukkan kemampuan memahami pengambilan informasi.

Menerapkan MiniGPT-4 di Jetson dengan Mudah dan Lancar!

Untuk membangun server inferensi aman lokal Anda sendiri yang tidak bergantung pada batasan jaringan, pilihan yang tepat adalah menggunakan miniGPT-4 pada NVIDIA Jetson AGX Orin. Jika Anda telah menjelajahi Jetson Generative AI Lab, Anda mungkin sudah mengetahui alur kerja pengaturan dasar untuk miniGPT-4. Sekarang, Anda dapat menjalankannya dengan mudah di Jetson dengan mengikuti langkah-langkah berikut:

1. Dapatkan satu perangkat Jetson AGX Orin Edge dan flash sistem dengan memeriksa wiki ini .

2. Jalankan perintah berikut di terminal, instal paket, dan jalankan miniGPT-4.

3. Buka browser di jaringan yang sama dan masukkan > http://<Jetson_Device_IP>:7860