Sunday, May 24, 2009

Tentang Brown Corpus

Brown corpus adalah corpus bahasa inggris pertama yang jumlah korpusnya mencapai jutaan. Korpus tersebut sudah diklasifikasikan menjadi kategori tertentu, misal : berita, agama, hobby dll.

>>> from nltk.corpus import brown
akses korpus brown

>>> brown.categories()
lihat kategori apa saja yang ada
['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies',
'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance',
'science_fiction']

>>> brown.words(categories='news')
akses kategori 'news'
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

>>> brown.words(fileids=['cg22'])
akses korpus brown untuk file bernomor cg22
['Does', 'our', 'society', 'have', 'a', 'runaway', ',', ...]

>>> brown.sents(categories=['news', 'editorial', 'reviews'])
menelusuri kata2 yang berkategori news, editorial dan review
[['The', 'Fulton', 'County'...], ['The', 'jury', 'further'...], ...]

No comments:

Post a Comment