Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca.
Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer.
Rujukan sunting
- "Tokenization". nlp.stanford.edu. Diakses tanggal 2021-03-27.
- "Sentiment Symposium Tutorial: Tokenizing". sentiment.christopherpotts.net. Diakses tanggal 2021-03-27.
- Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). Model natural language processing untuk perumusan keluhan pasien. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14
- "Python NLTK Word Tokenization Demo for Tokenizing Text". text-processing.com. Diakses tanggal 2021-03-27.
- Burns, Philip R. (2013-08-01). "MorphAdorner Word Tokenizer Example". morphadorner.northwestern.edu. Diakses tanggal 2021-03-27.