postingan ini murni hasil kegabutan ane pas lagi nunggu nasi mateng, sambil tiba-tiba teringat memori masa kecil. dulu pas zaman SD, ane ngerasa SimSimi itu kayak ada orang beneran di dalem aplikasi nya. kok bisa-bisanya gitu dia jawab chat kita, meskipun kadang ceplas-ceplos atau sampe toxic. sampe per waktu ngenal chatgpt, ane masih ngira kalau chatgpt itu versi dewasanya simsimi, padahal mah beda jauh jir.
setelah nyemplung di dunia IT (pas banget lagi ada matkul data science), baru deh sadar kalau SimSimi ini sebenernya arsitekturnya beda jauh sama chatgpt atau gemini sekarang. kalau AI sekarang itu “menciptakan” kalimat, SimSimi itu cuma “tukang copas” yang sangat efisien.
Nenek Moyang Chatbot: Dari ELIZA ke A.L.I.C.E
pas ane lagi riset tipis-tipis (dibaca: googling sambil jongkok di wc), ternyata SimSimi punya silsilah keluarga yang cukup tua. chatbot itu bukan barang baru cuy.
- ELIZA (1966): ini kakek buyutnya chatbot. dia dibuat buat niru psikolog. tekniknya simpel banget: dia cuma muter balikin kata-kata user. misal user bilang “ane sedih”, dia bakal jawab “kenapa ente sedih?”.
- A.L.I.C.E (Artificial Linguistic Internet Computer Entity) (1995): nah, ini yang lebih maju dikit. dia pake AIML (Artificial Intelligence Markup Language). isinya ribuan aturan if-else yang lebih kompleks.
SimSimi itu kayak versi “gaul” dan “nakal” dari mereka berdua. dia gak pake aturan kaku, tapi pake kekuatan netizen.
Arsitektur: Retrieval-Based, Bukan Generative
SimSimi itu masuk kategori Retrieval-Based Chatbot. artinya, dia nggak “mikir” pas dapet chat dari user. dia cuma nyari di database raksasa punya dia sendiri.
- Alurnya: user input teks → sistem nyari “key” yang paling mirip di database → sistem ngeluarin “value” (jawaban) yang udah tersimpan.
- Analogi: gini.. bayangin naskah drama HRD dan pelamar yang isinya jutaan pasangan tanya-jawab. SimSimi cuma tukang buka halaman naskah itu doang. gak ada proses kreatif-kreatifnya
Big Data: Crowdsourcing via Fitur “Teach”
yg bikin SimSimi pinter (dan kadang kurang ajar) itu bukan algoritma rahasia dapur, tapi elu semua.
lewat fitur “Teach”, SimSimi dapet asupan data gratisan dari jutaan user. ini yang namanya User-Generated Content (UGC) dalam skala masif. tapi ya gitu, karena yang ngajarin netizen gk pake filter, datanya jadi kotor banget.
catatan: kasus SimSimi ini mirip banget sama AI Microsoft bernama Tay yang jadi rasis cuma dalam 24 jam gara-gara “diajarin” hal-hal buruk sama netizen twitter.
NLP: Nyari Kemiripan Kata
gimana caranya SimSimi tahu jawaban mana yang cocok kalau input kita ada typo-nya? di sinilah peran NLP (natural language processing) sederhana bermain.
☝️🤓 hati-hati
SimSimi kemungkinan besar pakai metode Vector Space Model. kalimat user diubah jadi angka (vektor), terus dia nyari jawaban di database yang “jarak” vektornya paling deket pake rumus Cosine Similarity:
jadi, dia nggak nyari kata yang 100% sama persis, tapi nyari yang paling mendekati secara matematis. mirip-mirip lah sama cara kerja mesin pencari di olshop pas kita nyari barang.
Tantangan: Skalabilitas & Moderasi
bayangin ada jutaan orang chat di detik yang sama. infrastrukturnya harus kuat:
- Database: jelas pake NoSQL atau sistem distributed database yang kenceng buat nyari jutaan record dalam hitungan milidetik.
- Filtering: mereka harus punya blacklist kata-kata kasar yang berlapis-lapis biar nggak kena banned di play store. Meskipun faktanya, dulu filter ini sering banget jebol. kek nulis “bangsat” jadi “b4n9547” atau “b4ngs4t” aja masih bisa wkwkwk (namanya leetspeak).
ane juga bikin generator teks begituan bisa di mainin di sini
kesimpulan
SimSimi itu bukti kalau data > algoritma. meskipun algoritmanya simpel (cuma pencocokan kata), tapi karena datanya raksasa hasil sumbangan netizen sedunia, dia bisa kelihatan pinter.
sekarang kita udah di era LLM (large language model) yang bisa ngerti konteks curhatan user yang panjang lebar. tapi ya tetep, SimSimi punya tempat spesial di hati anak-anak zaman dulu yang pengen punya temen ngobrol tapi jomblo, wkwkwka
gimana menurutmu? pernah ngajarin SimSimi kata-kata apa aja nih sampe dia jadi “pinter” kayak sekarang? btw tak cek web simsimi udah dibikin model model chatbot lain layaknya c.ai
next bahas akinator kali ye?
bila ada keliru mohon dikoreksi di komentar, terimakasih sudah membaca!
If this article helped you, please share it with others!
Some information may be outdated





