中文是象形文字,字數多,字形複雜。西文是拼音文字,英文只有 26 個字母,加上大寫小寫及數字元號,總數不超過 128 個,用七位二進位碼就可表達。而中文字成千上萬,要用十幾位二進位碼才能把它們區別開來, 這給存儲乃至輸入方式等都造成困難。
多音字判別方法中技術的關鍵是基於統計特徵, 特徵提取使多音字正確判音有效。特徵包含在特徵詞典中, 採用規則描述。共定義了以下特徵:
詞內左右鄰接字
通式為: Xi-1 Xi 和 Xi Xi+1。Xi 是當前要判斷讀音的多音字,這是處理多音字在不同的詞語中讀不同的音的情況 。例如 “人蔘” 與 “參加”、“銀行” 與 “行程”、“重量” 與 “重複” 等等 。
左右鄰接詞
通式為:Wi-1 Xi 和 XiWi+1 。X 是當前要判斷讀音的多音字,Wi-1 和 Wi+1 是多音字 的左右鄰接詞,這是處理多音字與不同的鄰接詞讀不同的音的情況 。例如“相當長”、“大隊長”、“長方形” 等等。
當前詞的詞性
例如 “數” 作名詞的讀法和作動詞的讀法,“更” 作名詞的讀法和作副詞的讀法等等。
邊界條件
該特徵是有的字在句首 、句末或不同位置讀音不同,更多地體現在一些語氣助詞上面 。例如 “了” 在句中和句末時讀音往往不會相同 。
为了让小朋友和大朋友把汉字玩得更爽,我们还精心做了“汉字猜猜”系列游戏和“就爱猜字”,它们在苹果和安卓上长这样——
欢迎关注"如果汉字"微信公众号
諮詢電話
微信公众账号