中文是象形文字,字数多,字形复杂。西文是拼音文字,英文只有 26 个字母,加上大写小写及数字符号,总数不超过 128 个,用七位二进制码就可表达。而中文字成千上万,要用十几位二进制码才能把它们区别开来, 这给存储乃至输入方式等都造成困难。

多音字判别方法中技术的关键是基于统计特征, 特征提取使多音字正确判音有效。特征包含在特征词典中, 采用规则描述。共定义了以下特征:

    词内左右邻接字

    通式为: Xi-1 Xi 和 Xi Xi+1。Xi 是当前要判断读音的多音字,这是处理多音字在不同的词语中读不同的音的情况 。例如 “人参” 与 “参加”、“银行” 与 “行程”、“重量” 与 “重复” 等等 。

    左右邻接词

    通式为:Wi-1 Xi 和 XiWi+1 。X 是当前要判断读音的多音字,Wi-1 和 Wi+1 是多音字 的左右邻接词,这是处理多音字与不同的邻接词读不同的音的情况 。例如“相当长”、“大队长”、“长方形” 等等。

    当前词的词性

    例如 “数” 作名词的读法和作动词的读法,“更” 作名词的读法和作副词的读法等等。

    边界条件

    该特征是有的字在句首 、句末或不同位置读音不同,更多地体现在一些语气助词上面 。例如 “了” 在句中和句末时读音往往不会相同 。
 

为了让小朋友和大朋友把汉字玩得更爽,我们还精心做了“汉字猜猜”系列游戏和“就爱猜字”,它们在苹果和安卓上长这样——



欢迎关注"如果汉字"微信公众号     

如果智培微信公众号

MIP移动版     AMP移动版


咨询电话
微信公众账号