Pothole Detection with YOLO

Sebuah project computer vision yang lahir bukan dari tugas kuliah atau riset lab, melainkan dari kebiasaan buruk doomscrolling jam 2 pagi, rasa muak sama jalanan berlubang, dan rasa penasaran yang kelewatan.

Ada satu momen aneh ketika aku lagi doomscrolling ig tanpa henti, otak udah setengah mati rasa, terus tiba-tiba algoritma nyodorin sesuatu yang bikin kamu bangun. Malam itu, di sela-sela video random, lewat sebuah video implementasi YOLO (You Only Look Once) di industri. Di video itu, kamera pabrik ngenalin barang cacat di conveyor belt secepat kilat. Ada bounding box warna-warni yang ngedeteksi objek secara real-time tanpa delay sedikit pun.

Sebagai Aspiring Ey Ay Enjiner(AAMIIN) (dan sebagai orang yang sering hampir jatuh dari motor gara-gara jalan bolong), otakku langsung nyambungin dua hal yang nggak relevan: “Kalau AI ini bisa ngelihat cacat di pabrik, bisa nggak sih dia ngelihat cacat di aspal?”

Itu adalah gateway ke sebuah obsesi kecil. Dari yang awalnya cuma user media sosial yang pasif, aku mulai searching membabi buta. Gimana caranya bikin AI kayak gitu? Apa yang dibutuhin? Sampai akhirnya, aku terdampar di satu video YouTube yang ngubah semuanya: tutorial dari EdjeElectronics soal Train and Deploy YOLO Models.

Tutorialnya nggak bertele-tele. Nggak cuma ngomongin teori convolutional layers yang bikin ngantuk, tapi langsung nunjukin gimana caranya narik model kelas industri ke dalam environment kita sendiri.

Pertanyaan pertamanya: dari mana model ini bisa tau bentuk jalan berlubang? Jawabannya klasik di dunia AI—Data. Sehebat apa pun arsitektur YOLO, dia cuma deretan matriks kosong kalau nggak dikasih makan data yang bener.

Aku nemu dataset yang pas di Roboflow: ribuan gambar pothole yang udah dianotasi dengan rapi dari Pothole Detection dataset. Ngelihat dataset itu ngasih pencerahan tersendiri. Jalan berlubang yang biasa kita maki-maki di dunia nyata, sekarang direduksi jadi representasi matematika. Tiap lubang diubah jadi koordinat [x_center, y_center, width, height]. Realita yang berantakan, dibungkus rapi jadi kotak-kotak bounding box buat dikunyah sama neural network.

Aku clone notebook Google Colab dari EdjeElectronics. Aku colokin dataset dari Roboflow ke sana, dan nyalain GPU gratisan dari Google.

Lalu… aku tekan Run.

Di sinilah letak magisnya. Berbeda dengan nulis arsitektur dari nol yang bikin frustrasi, pakai YOLO itu rasanya kayak dikasih kunci mobil sport. Mesinnya udah ada, kita tinggal ngarahin setirnya.

Tapi bukan berarti nggak ada proses engineering-nya. Pas training jalan, aku cuma bisa ngeliatin progress bar dan angka-angka loss function yang turun pelan-pelan. Ngelihatin metrik mAP (mean Average Precision) naik sedikit demi sedikit dari 0.20… ke 0.50… sampai akhirnya menyentuh angka yang layak. Di titik itu, mesinnya bukan cuma ngapalin gambar, tapi dia belajar membedakan mana bayangan pohon, mana tambalan aspal, dan mana lubang yang beneran bisa bikin velg motor bengkok.

Dalam hitungan jam, model yang tadinya nggak tau apa-apa soal jalanan Indonesia, sekarang jadi expert deteksi jalan bolong.

Training Process

Tapi sekeren apa pun modelnya, percuma kalau cuma nongkrong di file .pt (PyTorch weights) di dalam temporary storage Google Colab. Framework yang cuma hidup di notebook itu namanya script eksperimen, bukan produk.

Tantangan engineering terakhirku: deployment dan persistence. Gimana caranya nge-save “otak” detektor lubang ini biar bisa dipakai kapan aja, di mana aja, dan sama siapa aja tanpa harus nge-train ulang dari awal?

Solusinya: HuggingFace.

Aku nge-bawa weights model terbaikku dan mengunggahnya ke repositori HuggingFace. Aku bikin dokumentasinya, ngatur struktur file-nya, dan mastiin model ini ready to use. Sekarang, model itu hidup di sana: DityaEn/Yolo-Pothole-Detection.

Siapa pun yang butuh model buat deteksi jalan rusak—entah itu buat skripsi, project iseng, atau bahkan diintegrasiin ke dashcam mobil—bisa langsung nge-load modelku lewat API cuma dengan beberapa baris kode. Otaknya berhasil di-transfer dari ruang eksperimen ke ruang publik.

Project ini jelas bukan deep learning tingkat dewa yang ngubah struktur fundamental AI. Aku nggak nulis arsitektur YOLO dari nol. Aku berdiri di atas pundak raksasa (Ultralytics, Roboflow, dan komunitas open-source).

Tapi project ini adalah bukti—bahwa gap antara ngeliat AI canggih di video TikTok dan benar-benar ngedeploy AI tersebut ke dunia nyata itu sebenernya sangat tipis. AI bukan sihir gaib yang cuma bisa dikerjain sama lab raksasa di Silicon Valley. Ini adalah tools.

Dan kalau kamu mau sedikit repot ngelewatin rasa males, nyari dataset yang bener, baca dokumentasi notebook, ngatur parameter training, dan nge- deploy hasilnya ke cloud—maka kamu nggak cuma jadi penikmat doomscrolling lagi.

Kamu jadi builder.

Dan mindset itulah yang jauh lebih berharga dari sekadar deteksi jalan berlubang.