Kesan Pertama tentang OpenAI o1: Sebuah Kecerdasan Buatan Dirancang untuk Terlalu Banyak Berpikir

OpenAI merilis model-model o1 baru mereka pada hari Kamis, memberikan pengguna ChatGPT kesempatan pertama mereka untuk mencoba model AI yang berhenti untuk 'berpikir' sebelum menjawab. Telah banyak hype yang dibangun untuk model-model ini, yang dijuluki 'Strawberry' di dalam OpenAI. Tapi apakah Strawberry memenuhi hype tersebut?

Agak.

Dibandingkan dengan GPT-4o, model-model o1 terasa seperti langkah maju dan dua langkah mundur. OpenAI o1 sangat unggul dalam penalaran dan menjawab pertanyaan yang kompleks, tetapi model ini sekitar empat kali lebih mahal untuk digunakan daripada GPT-4o. Model terbaru OpenAI ini kekurangan peralatan, kemampuan multimodal, dan kecepatan yang membuat GPT-4o begitu mengesankan. Bahkan, OpenAI bahkan mengakui bahwa 'GPT-4o masih merupakan pilihan terbaik untuk sebagian besar permintaan' di halaman bantuan mereka, dan mencatat di tempat lain bahwa o1 kesulitan dalam tugas-tugas yang lebih sederhana.

'Ini mengesankan, tetapi saya pikir perbaikannya tidak terlalu signifikan,' kata Ravid Shwartz Ziv, seorang profesor NYU yang mempelajari model-model AI. 'Ini lebih baik dalam beberapa masalah, tetapi Anda tidak mendapatkan perbaikan secara menyeluruh.'

Untuk alasan-alasan ini, penting untuk menggunakan o1 hanya untuk pertanyaan-pertanyaan yang benar-benar dirancang untuk membantu: yang besar. Untuk jelasnya, kebanyakan orang tidak menggunakan AI generatif untuk menjawab jenis pertanyaan tersebut hari ini, sebagian besar karena model-model AI saat ini tidak begitu bagus dalam hal itu. Namun, o1 adalah langkah sementara ke arah itu.

Memikirkan Ide-Ide Besar

OpenAI o1 unik karena 'berpikir' sebelum menjawab, memecah masalah besar menjadi langkah-langkah kecil dan berusaha mengidentifikasi kapan ia melakukan salah atau benar di salah satu langkah tersebut. 'Penalaran multi-langkah' ini tidak sepenuhnya baru (para peneliti telah mengusulkannya selama bertahun-tahun, dan You.com menggunakannya untuk kueri-kueri kompleks), tetapi belum praktis sampai akhir-akhir ini.

'Ada banyak kegembiraan di komunitas AI,' kata CEO Workera dan dosen adjunck Stanford Kian Katanforoosh, yang mengajar kelas-kelas tentang pembelajaran mesin, dalam sebuah wawancara. 'Jika Anda dapat melatih algoritma pembelajaran penguatan berpasangan dengan beberapa teknik model bahasa yang dimiliki OpenAI, Anda dapat menciptakan pemikiran langkah-demi-langkah dan memungkinkan model AI untuk mundur dari ide-ide besar yang Anda coba selesaikan.'

OpenAI o1 juga unik mahal. Pada kebanyakan model, Anda membayar untuk token masukan dan token keluaran. Namun, o1 menambahkan proses tersembunyi (langkah-langkah kecil yang model ini pecah masalah besar menjadi), yang menambah jumlah komputasi yang tidak sepenuhnya Anda lihat. OpenAI menyembunyikan beberapa detail dari proses ini untuk mempertahankan keunggulannya di pasar. Meskipun demikian, Anda masih dikenakan biaya untuk ini dalam bentuk 'token penalaran.' Hal ini lebih menekankan mengapa Anda perlu berhati-hati dalam menggunakan OpenAI o1, sehingga Anda tidak dikenakan biaya banyak token untuk bertanya di mana ibukota Nevada berada.

Idenya tentang model AI yang membantu Anda 'mundur dari ide-ide besar' sangat kuat, meskipun. Dalam praktiknya, model ini cukup baik dalam hal itu.

Pada satu contoh, saya meminta ChatGPT o1 untuk membantu keluarga saya merencanakan Thanksgiving, tugas yang dapat mendapatkan manfaat dari sedikit logika dan penalaran yang tidak memihak. Secara khusus, saya ingin bantuan untuk mencari tahu apakah dua oven cukup untuk memasak makan malam Thanksgiving untuk 11 orang dan ingin berdiskusi apakah kami harus mempertimbangkan menyewa Airbnb untuk mendapatkan akses ke oven ketiga.

Setelah 12 detik 'berpikir,' ChatGPT menuliskan balasan sebanyak 750+ kata yang pada akhirnya mengatakan kepada saya bahwa dua oven seharusnya cukup dengan beberapa perencanaan yang hati-hati, dan akan memungkinkan keluarga saya menghemat biaya dan menghabiskan lebih banyak waktu bersama. Tapi ia memecah pemikirannya untuk saya di setiap langkahnya dan menjelaskan bagaimana ia mempertimbangkan semua faktor eksternal tersebut, termasuk biaya, waktu keluarga, dan pengelolaan oven.

ChatGPT o1 memberitahu saya bagaimana memprioritaskan ruang oven di rumah yang menjadi tuan rumah acara tersebut, yang cerdas. Secara aneh, ia menyarankan saya untuk mempertimbangkan menyewa oven portabel untuk hari itu. Meskipun begitu, model ini jauh lebih baik dari GPT-4o, yang memerlukan beberapa pertanyaan lanjutan tentang hidangan apa yang saya bawa, dan kemudian memberikan saya saran yang sederhana yang saya anggap kurang berguna.

Mengenai makan malam Thanksgiving mungkin terlihat konyol, tetapi Anda bisa melihat bagaimana alat ini akan berguna untuk memecah tugas-tugas yang rumit.

Saya juga meminta o1 membantu saya merencanakan hari sibuk di tempat kerja, di mana saya perlu bepergian antara bandara, beberapa rapat tatap muka di berbagai lokasi, dan kantorku. Model ini memberi saya rencana yang sangat rinci, tetapi mungkin sedikit terlalu banyak. Terkadang, semua langkah tambahan bisa sedikit membingungkan.

Untuk pertanyaan yang lebih sederhana, o1 melakukan terlalu banyak – ia tidak tahu kapan berhenti berpikir berlebihan. Saya bertanya di mana Anda bisa menemukan pohon cedar di Amerika, dan ia memberikan jawaban sebanyak 800+ kata, menguraikan setiap variasi pohon cedar di negara tersebut, termasuk nama ilmiahnya. Bahkan ia harus berkonsultasi dengan kebijakan OpenAI pada suatu titik, entah mengapa. GPT-4o melakukan pekerjaan yang jauh lebih baik menjawab pertanyaan ini, memberi saya sekitar tiga kalimat menjelaskan Anda dapat menemukan pohon-pohon tersebut di seluruh negara.

Mengatur Ekspektasi

Dalam beberapa hal, Strawberry tidak akan pernah dapat memenuhi ekspektasi. Laporan tentang model-model penalaran OpenAI kembali ke November 2023, tepat saat semua orang mencari jawaban tentang mengapa dewan OpenAI memberhentikan Sam Altman. Hal ini membuat seluruh dunia AI menjadi sumber rumor, membuat beberapa berspekulasi bahwa Strawberry adalah bentuk AGI, versi terpadu dari kecerdasan buatan yang ingin dicapai oleh OpenAI.

Altman mengkonfirmasi o1 bukan AGI untuk membersihkan keraguan, bukan bahwa Anda akan bingung setelah menggunakan alat ini. CEO juga memotong ekspektasi seputar peluncuran ini, mengirim tweet bahwa 'o1 masih punya cacat, masih punya batasan, dan masih terlihat lebih mengesankan saat penggunaan pertama daripada setelah Anda menghabiskan waktu lebih lama dengan itu.'

Sisanya dunia AI sedang berdamai dengan peluncuran yang kurang menarik dari yang diharapkan.

'Hype ini agak tumbuh di luar kendali OpenAI,' kata Rohan Pandey, seorang insinyur riset dengan startup AI ReWorkd, yang membangun scraper web dengan model-model OpenAI.

Ia berharap kemampuan penalaran o1 cukup baik untuk menyelesaikan serangkaian masalah rumit yang tidak bisa diatasi GPT-4. Itulah kemungkinan bagaimana kebanyakan orang di industri melihat o1, tetapi tidak sepenuhnya sebagai langkah revolusioner ke depan yang diwakili oleh GPT-4 untuk industri tersebut.

'Semua orang menunggu perubahan fungsi kemampuan, dan tidak jelas bahwa ini mewakili hal tersebut. Saya pikir begitu sederhananya,' kata CEO Brightwave Mike Conover, yang sebelumnya bersama-sama menciptakan model AI Dolly Databricks, dalam sebuah wawancara.

Apa Nilainya di Sini?

Prinsip-prinsip dasar yang digunakan untuk membuat o1 kembali bertahun-tahun. Google menggunakan teknik serupa pada tahun 2016 untuk membuat AlphaGo, sistem AI pertama yang mengalahkan juara dunia permainan papan Go, Andy Harrison, mantan Googler dan CEO perusahaan modal S32, menunjukkan. AlphaGo dilatih dengan bermain melawan dirinya sendiri berkali-kali, pada dasarnya belajar sendiri hingga mencapai kemampuan super manusia.

Ia mencatat bahwa ini membawa debat kuno dalam dunia AI.

'Kemah satu berpikir bahwa Anda dapat mengotomatisasi alur kerja melalui proses agensi ini. Kemah dua berpikir bahwa jika Anda memiliki kecerdasan umum dan penalaran, Anda tidak memerlukan alur kerja dan, seperti manusia, AI akan membuat penilaian,' kata Harrison dalam sebuah wawancara.

Harrison mengatakan bahwa ia berada dalam kemp satu dan bahwa kemp dua memerlukan Anda untuk percaya kepada AI untuk membuat keputusan yang benar. Ia tidak berpikir kita sudah sampai di sana.

Namun, yang lain menganggap o1 lebih sebagai alat untuk mempertanyakan pemikiran Anda dalam keputusan besar.

Katanforoosh, CEO Workera, menggambarkan contoh di mana ia akan mewawancarai seorang ilmuwan data untuk bekerja di perusahaannya. Ia memberitahu OpenAI o1 bahwa ia hanya memiliki 30 menit dan ingin menilai sejumlah keterampilan tertentu. Ia dapat bekerja mundur dengan model AI untuk memahami apakah ia berpikir tentang ini dengan benar, dan o1 akan memahami kendala waktu dan sebagainya.

Pertanyaannya adalah apakah alat yang membantu ini layak dengan harga yang tinggi. Saat model-model AI terus menjadi lebih murah, o1 adalah salah satu model AI pertama yang kita lihat menjadi lebih mahal.