Microsoft Luncurkan Model Phi-3.5, Apa Itu?

Hari ini ada suatu hal baru yang umumkan Microsoft yaitu mereka meluncurkan keluarga model Phi-3.5, yang meliputi Phi-3.5-vision, Phi-3.5-MoE, dan Phi-3.5-mini. Dimana ini adalah sebuah model bahasa yang dibangun berdasarkan data sintetis dan situs web yang tersedia untuk umum yang difilter dan mendukung panjang konteks token 128K.

Pengumuman awal dari Phi-3 sendiri sudah dilakukan pada event Microsoft Build 2024 dimana menurut Microsoft Model Phi-3 adalah small language models (SLM) yang paling mampu dan hemat biaya yang tersedia, mengungguli model dengan ukuran yang sama dan ukuran berikutnya dalam berbagai tolok ukur bahasa, penalaran, pengodean, dan matematika

Dapat dikatakan bahwa Phi-3.5 ini merupakan Model AI yang akan digunakan Microsoft untuk menjadi pesaing dari Meta dan Google. Dari ketiga model tersebut, tentunya ada beberapa perbedaan yang cukup signifikan dalam pemanfaatan teknologi dan hasil apa yang akan dikeluarkan, mari kita bahas satu persatu.

Phi-3.5-MoE ini merupakan yang paling menonjol karena hadir sebagai model pertama dalam keluarga Phi yang memanfaatkan teknologi Mixture of Experts (MoE). Disebut Phi-3.5-MoE ini sebagai A Mixture of Experts Breakthrough atau terobosan para ahli karena Model MoE 16 x 3.8B ini hanya mengaktifkan 6.6B parameter dengan 2 orang ahli dan dilatih pada token 4.9T menggunakan 512 H100. Tim Riset Microsoft merancang model ini dari awal untuk meningkatkan kinerjanya. Dalam tolak ukur AI standar, Phi-3.5-MoE mengungguli Llama-3.1 8B, Gemma-2-9B, dan Gemini-1.5-Flash dan mendekati pemimpin saat ini, GPT-4o-mini.

Phi-3.5-mini disamping itu adalah model parameter 3.8B yang melampaui Llama3.1 8B dan Mistral 7B dan bahkan kompetitif dengan Mistral NeMo 12B, model ini diklaim ringan dan kuat, karena model ini dilatih pada token 3.4T menggunakan 512 H100. Dengan hanya 3.8B parameter aktif, model ini kompetitif pada tugas multibahasa dibandingkan dengan LLM dengan lebih banyak parameter aktif. Selain itu, Phi-3.5-mini sekarang mendukung panjang konteks 128K, sementara pesaing utamanya, keluarga Gemma-2, hanya mendukung 8K.

Phi-3.5-vision yang terakhir adalah model parameter 4.2B yang dilatih pada token 500B menggunakan 256 GPU A100. Model ini juga dikhususkan untuk Enhanced Multi-Frame Image Understanding dengan kini mendukung multi-frame image understanding and reasoning. Phi-3.5-vision telah meningkatkan kinerja pada MMMU (dari 40.2 menjadi 43.0), MMBench (dari 80.5 menjadi 81.9), dan tolok ukur pemahaman dokumen TextVQA (dari 70.9 menjadi 72.0).

Masing masing instruksi dari model ini dapat kamu cek dan pelajari pada halaman berikut :

Nah model AI ini sendiri diklaim mengungguli penawaran serupa dari penyedia model pesaing, termasuk Meta dan Google. Bahkan kabarnya Microsoft akan menerapkan teknologi Phi-3.5-mini di Microsoft Edge melalui flag experimental “Prompt API for Phi3 min”.

Informasi mengenai Phi-3.5 ini sendiri saat ini masih cukup terbatas, namun Microsoft diharapkan akan membagikan lebih banyak detail tentang keluarga model Phi-3.5. Dengan rilis Phi-3.5 ini sendiri, dapat dikatakan bahwa Microsoft menunjukkan kemajuan dalam efisiensi dan kemampuan model AI dengan fokus pada desain yang ringan dan pemahaman multi-modal sehingga keluarga model Phi-3.5 dapat diadopsi secara lebih luas di berbagai aplikasi AI.

Referensi : Microsoft, Neowin, InfoWorld