>>> from nltk.corpus import brown
import korpusnya
>>> news_text = brown.words(categories='news')
pilih kategori filenya
>>> fdist = nltk.FreqDist([w.lower() for w in news_text])
lihat distribusi frekwensinya
>>> modals = ['can', 'could', 'may', 'might', 'must', 'will']
definisikan modal
>>> for m in modals:
... print m + ':', fdist[m],
...
masukan rumus
can: 94 could: 87 may: 93 might: 38 must: 53 will: 389
untuk yg wh, tinggal diganti aja modals ke wh
Definisikan wh itu apa
lalu ambil; huruf depanya yaitu w
Untuk to be, spasinya diganti dengan dash_ sehingga jadinya to_be
kalo dilihat hasilnya, yg mendominasi to be adalah 'is' dengan 733. disusul dengan 'are' yang 330, dan 'am' yang cuma 14. Ini bisa dimaknai, penceritaan dengan sudut pandang orang ke 3 (she he it) dan orang ke dua (you) lebih mendominasi
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment