Sunday, May 24, 2009

menguapload korpus kita sendiri

Kita bisa menguapload teks kita sendiri.

>>> from nltk.corpus import PlaintextCorpusReader
tampilkan perintah untuk mengupload

>>> corpus_root = '/usr/share/dict'
disamping corpus root, ketik link file dalam har disk kita. beiar lebih cepat lihat di properties file. Jangan lupa, kasih tanda kutip

>>> wordlists = PlaintextCorpusReader(corpus_root, '.*')
setelah ketemu linknya, ketik jenis file nya. karena kalu tidak, dia akan melacak semua file yang ada di folder tersebut. Yang paling friendly adalah txt

>>> wordlists.fileids()
dia akan menampilakn file2 berjenis txt
['README', 'connectives', 'propernames', 'web2', 'web2a', 'words']

>>> wordlists.words('connectives')
tampilkan kata2nya
['the', 'of', 'and', 'to', 'a', 'in', 'that', 'is', ...]

ini contoh lain
>>> corpus_root = "\Documents and Settings\User\My Documents"
>>> wordlists = PlaintextCorpusReader(corpus_root, '.*.txt')
>>> wordlists.fileids()

['ELK.txt']
>>> wordlists.words('ELK')

No comments:

Post a Comment