Sunday, May 24, 2009

Mencari jumlah pemunculan modals/ Wh Q/ dll

>>> from nltk.corpus import brown
import korpusnya

>>> news_text = brown.words(categories='news')
pilih kategori filenya

>>> fdist = nltk.FreqDist([w.lower() for w in news_text])
lihat distribusi frekwensinya

>>> modals = ['can', 'could', 'may', 'might', 'must', 'will']
definisikan modal

>>> for m in modals:
... print m + ':', fdist[m],
...
masukan rumus

can: 94 could: 87 may: 93 might: 38 must: 53 will: 389

untuk yg wh, tinggal diganti aja modals ke wh
Definisikan wh itu apa
lalu ambil; huruf depanya yaitu w

Untuk to be, spasinya diganti dengan dash_ sehingga jadinya to_be

kalo dilihat hasilnya, yg mendominasi to be adalah 'is' dengan 733. disusul dengan 'are' yang 330, dan 'am' yang cuma 14. Ini bisa dimaknai, penceritaan dengan sudut pandang orang ke 3 (she he it) dan orang ke dua (you) lebih mendominasi

No comments:

Post a Comment