2010-08-29

古蘭經 plugin

給 blogger.com 用的 plugin:
1. 選擇設計版面→新增小工具

2. 選 HTML/JavaScript

3. 填進這些值 (請從下面剪貼):


<style type="text/css">
#quran {width: 200px; border: 0px;}
</style>

<div id="quran">
<script src="http://220.133.42.47/quran.php" type="text/javascript" charset="UTF-8"></script>
</div>

4. 儲存,預覽:

5. 最後別忘了存檔哦!

2010-08-18

詞頻列表

昨天寫信給張裕宏老師請安,今天就被 assign 作業了 ... 要生出台灣和大陸的詞頻列表,各22000個詞咧! (撞牆)
趕快來筆記一下:
中研院語言所 現代漢語語料庫詞頻統計
《八十七年口語問卷詞頻資料庫》 ... 區分國小國中高中大學。DBF 格式 (dBase III) 配上倚天中文造字檔! 真懷念。決定不用。
教育部國語詞典簡編本 詞頻表

國語詞典簡編本的統計樣本不知道有哪些。最常用的前十個詞列出來給大家看看: 我們、「台灣」、可以、自己、他們、沒有、因為、可能、如果、問題。
台灣的詞頻排第二名!!! 這個樣本可能完全是報紙、特別是第一疊嚴肅新聞版的! (那「我們」為什麼會在報紙出現呢?)

中研院語言所的沒分單音節詞和多音節... 前十個是: 的、是、一、在、有、個、我、不、了、這。
前12個多音節詞是: 我們、自己、他們、因為、什麼、問題、所以、沒有、台灣、學生、公司、表示、如果 ..
中研院的語料確實以書面為主,所以口語最常用的「因為、所以、沒有、如果、可是、但是」沒排在最前面。
但是「台灣」排第九,還是很令人驚訝! 書面文章裡這麼常提到台灣嗎?

47m 個漢字的 SUBTLEX-CH:中文字頻/詞頻/標注詞頻(PoS)
基于网页的词频统计 基本上是不堪用的。
Lukhnos 提供的 Lancaster Corpus of Mandarin Chinese 詞頻
最重要的: 人民日報的一直找不到!!!