2010-08-18

詞頻列表

昨天寫信給張裕宏老師請安,今天就被 assign 作業了 ... 要生出台灣和大陸的詞頻列表,各22000個詞咧! (撞牆)
趕快來筆記一下:
中研院語言所 現代漢語語料庫詞頻統計
《八十七年口語問卷詞頻資料庫》 ... 區分國小國中高中大學。DBF 格式 (dBase III) 配上倚天中文造字檔! 真懷念。決定不用。
教育部國語詞典簡編本 詞頻表

國語詞典簡編本的統計樣本不知道有哪些。最常用的前十個詞列出來給大家看看: 我們、「台灣」、可以、自己、他們、沒有、因為、可能、如果、問題。
台灣的詞頻排第二名!!! 這個樣本可能完全是報紙、特別是第一疊嚴肅新聞版的! (那「我們」為什麼會在報紙出現呢?)

中研院語言所的沒分單音節詞和多音節... 前十個是: 的、是、一、在、有、個、我、不、了、這。
前12個多音節詞是: 我們、自己、他們、因為、什麼、問題、所以、沒有、台灣、學生、公司、表示、如果 ..
中研院的語料確實以書面為主,所以口語最常用的「因為、所以、沒有、如果、可是、但是」沒排在最前面。
但是「台灣」排第九,還是很令人驚訝! 書面文章裡這麼常提到台灣嗎?

47m 個漢字的 SUBTLEX-CH:中文字頻/詞頻/標注詞頻(PoS)
基于网页的词频统计 基本上是不堪用的。
Lukhnos 提供的 Lancaster Corpus of Mandarin Chinese 詞頻
最重要的: 人民日報的一直找不到!!!

沒有留言: