Deepseek telah membuat dunia AI dengan cara yang baru saja kita pahami

Sistem kecerdasan buatan yang canggih seperti Openai's Chatgpt, Google Gemini dan Claude Anthropic telah menangkap imajinasi publik dengan memproduksi teks yang lancar dalam berbagai bahasa sebagai tanggapan terhadap petunjuk pengguna. Perusahaan -perusahaan itu juga telah menjadi berita utama dengan jumlah besar yang telah mereka investasikan untuk membangun model yang lebih kuat.

Startup AI dari Cina, Deepseek, telah mengganggu harapan tentang berapa banyak uang yang dibutuhkan untuk membangun AIS terbaru dan terhebat. Dalam prosesnya, mereka telah meragukan miliaran dolar investasi oleh para pemain AI besar.

Saya mempelajari pembelajaran mesin. Debut Deepseek yang mengganggu datang bukan pada terobosan teknologi yang menakjubkan tetapi untuk praktik yang dihormati waktu: menemukan efisiensi. Dalam bidang yang mengkonsumsi sumber daya komputasi yang luas, yang terbukti signifikan.

Dimana biayanya

Mengembangkan sistem AI yang kuat seperti itu dimulai dengan membangun model bahasa besar. Model bahasa besar memprediksi kata berikutnya yang diberikan kata -kata sebelumnya. Misalnya, jika awal kalimat adalah “teori relativitas ditemukan oleh Albert,” model bahasa besar mungkin memprediksi bahwa kata berikutnya adalah “Einstein.” Model bahasa besar dilatih untuk menjadi pandai dalam prediksi tersebut dalam proses yang disebut pretraining.

Pretraining membutuhkan banyak data dan daya komputasi. Perusahaan mengumpulkan data dengan merangkak buku dan pemindaian buku. Komputasi biasanya ditenagai oleh unit pemrosesan grafis, atau GPU. Mengapa Grafik? Ternyata baik grafik komputer dan jaringan saraf buatan yang mendasari model bahasa besar bergantung pada bidang matematika yang sama yang dikenal sebagai aljabar linier. Model bahasa besar secara internal menyimpan ratusan miliar angka yang disebut parameter atau bobot. Bobot inilah yang dimodifikasi selama pretraining.

Namun, pretraining tidak cukup untuk menghasilkan produk konsumen seperti chatgpt. Model bahasa besar yang terlatih biasanya tidak pandai mengikuti instruksi manusia. Mungkin juga tidak selaras dengan preferensi manusia. Misalnya, ini mungkin menghasilkan bahasa berbahaya atau kasar, yang keduanya hadir dalam teks di web.

Model pra-terlatih, oleh karena itu, biasanya melalui tahap pelatihan tambahan. Salah satu tahap tersebut adalah penyetelan instruksi, di mana model ditunjukkan contoh instruksi manusia dan respons yang diharapkan. Setelah penyetelan instruksi muncul tahap yang disebut pembelajaran penguatan dari umpan balik manusia. Pada tahap ini, annotator manusia ditunjukkan beberapa respons model bahasa besar terhadap prompt yang sama. Annotator kemudian diminta untuk menunjukkan respons mana yang mereka sukai.

Sangat mudah untuk melihat bagaimana biaya bertambah saat membangun model AI: mempekerjakan bakat AI berkualitas tinggi, membangun pusat data dengan ribuan GPU, mengumpulkan data untuk pretraining, dan menjalankan pretraining pada GPU. Selain itu, ada biaya yang terlibat dalam pengumpulan dan perhitungan data dalam pembelajaran penyetelan instruksi dan penguatan dari tahap umpan balik manusia.

Semua termasuk, biaya untuk membangun model AI mutakhir dapat melonjak hingga $ 100 juta. Pelatihan GPU adalah komponen signifikan dari total biaya.

Pengeluaran tidak berhenti saat model siap. Ketika model digunakan dan merespons petunjuk pengguna, ia menggunakan lebih banyak perhitungan, yang dikenal sebagai waktu tes atau waktu inferensi. Komputasi waktu tes juga membutuhkan GPU. Pada bulan Desember 2024, Openai mengumumkan fenomena baru yang mereka lihat dengan model terbaru O1: ketika komputasi waktu tes meningkat, model menjadi lebih baik dalam tugas penalaran logis seperti Olimpiade Matematika dan masalah pengkodean kompetitif.

Melangsingkan konsumsi sumber daya

Dengan demikian, tampaknya jalan untuk membangun model AI terbaik di dunia adalah berinvestasi dalam lebih banyak perhitungan selama pelatihan dan inferensi. Tapi kemudian Deepseek memasuki keributan dan melawan tren ini.

Model V-Series mereka, yang berpuncak pada model V3, menggunakan serangkaian optimisasi untuk membuat model AI cutting edge pelatihan secara signifikan lebih ekonomis. Laporan teknis mereka menyatakan bahwa mereka membutuhkan waktu kurang dari $ 6 juta dolar untuk melatih V3. Mereka mengakui bahwa biaya ini tidak termasuk biaya untuk mempekerjakan tim, melakukan penelitian, mencoba berbagai ide dan pengumpulan data. Namun, $ 6 juta masih merupakan angka kecil yang mengesankan untuk melatih model yang dikembangkan model AI terkemuka dengan biaya yang jauh lebih tinggi.

Pengurangan biaya bukan karena peluru ajaib tunggal. Itu adalah kombinasi dari banyak pilihan rekayasa pintar termasuk menggunakan bit yang lebih sedikit untuk mewakili bobot model, inovasi dalam arsitektur jaringan saraf, dan mengurangi overhead komunikasi karena data dilewatkan di antara GPU.

Sangat menarik untuk dicatat bahwa karena pembatasan ekspor AS di China, tim Deepseek tidak memiliki akses ke GPU berkinerja tinggi seperti NVIDIA H100. Sebaliknya mereka menggunakan NVIDIA H800 GPU, yang dirancang NVIDIA untuk menjadi kinerja yang lebih rendah sehingga mereka mematuhi pembatasan ekspor AS. Bekerja dengan keterbatasan ini tampaknya telah melepaskan lebih banyak kecerdikan dari tim Deepseek.

Deepseek juga berinovasi untuk membuat inferensi lebih murah, mengurangi biaya menjalankan model. Selain itu, mereka merilis model yang disebut R1 yang sebanding dengan model O1 Openai pada tugas penalaran.

Mereka merilis semua bobot model untuk V3 dan R1 di depan umum. Siapa pun dapat mengunduh dan lebih meningkatkan atau menyesuaikan model mereka. Selain itu, Deepseek merilis modelnya di bawah lisensi MIT permisif, yang memungkinkan orang lain untuk menggunakan model untuk tujuan pribadi, akademik, atau komersial dengan batasan minimal.

Mengatur ulang ekspektasi

Deepseek secara fundamental mengubah lanskap model AI besar. Model bobot terbuka yang dilatih secara ekonomis sekarang setara dengan model yang lebih mahal dan tertutup yang memerlukan paket berlangganan berbayar.

Komunitas riset dan pasar saham akan membutuhkan waktu untuk menyesuaikan diri dengan kenyataan baru ini.

Artikel ini awalnya diterbitkan pada percakapan oleh Ambuj Tewari di University of Michigan. Baca artikel asli di sini.