Sunday, May 24, 2009

Reuters Corpus

GImana, dah pusintg? Nah setelah berkutat dengan korpus brwon tadi, sekarang kita akan beralih ke korpus Reuters (bacanya royters)

>>> from nltk.corpus import reuters
import dulu korpus reutersnya

>>> reuters.fileids()
buka daftar filenya
['test/14826', 'test/14828', 'test/14829', 'test/14832', ...]

>>> reuters.categories()
tampilkan kategori apa saja yang ada di dalam reuters
['acq', 'alum', 'barley', 'bop', 'carcass', 'castor-oil', 'cocoa',
'coconut', 'coconut-oil', 'coffee', 'copper', 'copra-cake', 'corn',
'cotton', 'cotton-oil', 'cpi', 'cpu', 'crude', 'dfl', 'dlr', ...]

TIdak seperti Brown, pangorganisasian informasi di Reuters agak tumpang tindih, kadang satu genre dan genre yang lain saling berhubungan. Karena itu dalam pencarian, selain jenis file, cantumkan juga kode file tersebut

>>> reuters.categories('training/9865')
masukan kategori reuters beserta kodenya
['barley', 'corn', 'grain', 'wheat']

>>> reuters.categories(['training/9865', 'training/9880'])
yang ini adalah cara untuk mencari 2 file
['barley', 'corn', 'grain', 'money-fx', 'wheat']

>>> reuters.fileids('barley')
masuk ke salah satu
['test/15618', 'test/15649', 'test/15676', 'test/15728', 'test/15871', ...]

>>> reuters.fileids(['barley', 'corn'])
sama, cuma menampilkan dari dua file sekaligus
['test/14832', 'test/14858', 'test/15033', 'test/15043', 'test/15106',
'test/15287', 'test/15341', 'test/15618', 'test/15618', 'test/15648', ...]

No comments:

Post a Comment