語音系列文章#1 — 語音的物理分析
這篇文章的目的是想要紀錄自己所看到學到東西,畢竟把東西分享出來還是比較有動力學得更多~~
以下文章,是從《語言、語音與技術》中自行整理的筆記,若有興趣的讀者,歡迎啃書~~
以下的內容,皆為語音相關知識,可以作為科普文章來進行閱讀,那就讓我們開始吧!
Outline:
- 聲音的傳遞
- 聲波的三大元素
- 音階
- 發音
- 純音、複音和諧音
- 共振頻率
聲音的傳遞
日常中我們之所以能聽到別人說話,是因為有空氣當作介質來進行傳遞。
發音的時候,從肺部發出來的氣流,使得聲帶產生「開啟又閉合」的震動。推薦可以上YT尋找相關影片會更有感覺。
- 聲帶張開的時候,空氣粒子會受到壓力,向前運動。
- 聲帶閉合的時候,空氣粒子往後。
空氣粒子不斷重複壓緊與鬆開的活動,形成一種疏密波。這個疏密波會逐一傳送,直到影響到聽話者耳道裡的氣粒,引起耳膜的震動,再傳遞到大腦,形成聲音。
聲波的三大元素
聲波的傳遞有三大元素:
- 振幅:說話所產生的氣壓有強弱,因此壓緊、鬆開的程度不盡相同,形成振幅的大小。
振幅大 → 音量大
振幅小 → 音量小 - 週期:發音時,空氣粒子按照聲帶的某規律發生波動,這樣的波形我們稱為「週期波」(periodic wave)。
聲波在一個週期的時間內所傳播的距離,稱為一個「波長」。 - 頻率:空氣粒子(或其他物體)在一秒鐘內完成一次「來回震動」的次數,稱為頻率。頻率的單位是Hz。一秒鐘一個週期,稱為一赫茲。一秒鐘,兩個週期,兩赫茲,以此類推。
元音:
元音是一種音素(phoneme),指的是在發音時,口腔不被舌頭、唇等部位的遮擋而產生的音。
音階
人耳所能聽到的頻率範圍是有限的,範圍大概是20~20,000 (Hz)之間。
在心裡的感覺上,當頻率每增加一倍時,音高就會增加一個音階。鋼琴中do mi so do mi so do
。
第二個do會是第一個do頻率的兩倍,
第三個do又會是第二個do的兩倍。
假設從20Hz開始算起,20~40Hz是一個音階,40~80Hz又會是一個音階,80~160Hz也是一個音階,以此類推。架設人耳的範圍最多到20, 000Hz,則最好的耳朵大概可以聽到9~10個音階。一但超出這個範圍,我們就聽不到任何聲音了。
轉換到聲帶頻率,聲帶的限制比聽覺大得多,一般聲帶的頻率不會超過1000Hz。
男生的聲帶:厚+長,頻率大概是60~70Hz。
女生的聲帶:薄+短,因此可以振動的比較快,頻率大概是200~350Hz。
若是經過訓練過後的歌手,唱歌的頻率可以大幅的增加。
發音
發音,若聲帶形狀保持不變,只改變聲音的頻率,就可以形成「聲調」的不同。以中文來說,我們有四個聲調,而聲調的形成,即是不同的頻率在時間上的變動。請參考下圖,「媽」「麻」「馬」「罵」中,都是「ㄇㄚ」來發音,但我們藉由控制「聲帶」,可以造成不同的發音頻率,形成了「聲調」
純音、複音和諧音
純音:只有一種單純的頻率。
複音:許多「純音」所組成的聲音。
諧音:分為基本諧音、第一、第二…諧音。
透過音叉,我們可以得到一個「基本、簡單且單調」的聲音,這樣的聲音只有一種單純的頻率,被稱做「純音」。
當然,我們的世界沒有這麼單純,生活中各種的聲音都是由不同頻率和振幅(能量)的純音所組成,而這樣的「由純音所組成的聲音,稱為複音」。在「複音」中,頻率最低,振幅(能量)最大的音,稱為「基音」,其他的音都稱為「泛音」,這些泛音都是基音的整數倍,振幅(能量)也都比較小。通常再說某個音的頻率是多少,多半指得是基音。
那有什麼方法可以去將複音給分開嗎?
傅立葉分析
一般的聲音都是由許多「純音」所組成,我們可以用「傅立葉分析」把「複音」轉換成許多的「純音」,同樣的,也可以把許多的「純音」合成「複音」。
純音的聲波,其實就是一種正弦波。
正弦波是一種以角度為變量的波形,通過在一個單位元(簡單的一個圓)上移動一個角度並通過對邊和斜邊的比例求出正弦值。公式:f = sin(θ)。將這些對應的點連起來後,就是一個純音的正弦波。
前面說過,世界上大部分的聲音都不是純音。所以現在讓我們把情況複雜化,假設有一個複合波是由:1秒100個週期的基本頻率+兩個純音,分別是200週/秒、300週/秒。那麼就可以形成下圖:
在處理複音時,還可以用「線譜(line spectrum)」的圖形來表示。線譜的橫軸代表每個純音的頻率,縱軸代表振幅大小。
下圖中第一條線:頻率最小、振幅最大的線,稱之為「基本諧音」。
第二條線稱為第二個諧音、第三條線稱為第三個諧音,以此類推。
不知道各位會不會有個疑問,為什麼圖上200週/秒的振幅比300週/秒的振幅還要小?
諧音的振幅通常會隨著頻率的增加而減小,但因為許多物理系統的能量會逐漸耗散。
一般的情況下,諧音的頻率越低,振幅越強(諧音就是一種頻率~)。由於諧音之間的頻率必然是整數關係,因此只要知道基本諧音的頻率,其他諧音頻率也可以確定。
例如:基本諧音是100Hz,第十個諧波就會是1000Hz。如果增加一個音階的話,第一音階的頻率會是200Hz,第二個音階400Hz,第十個音階就會是2000Hz,線譜看上去會比較「稀疏」。
基本諧音一樣是100Hz,如果降低一個音階的話,第一諧音50Hz,第二諧音100Hz,第三諧音150Hz,第十個500Hz,線譜變密許多。
從上述的變化,得知一個現象,音高主要由基本諧音決定,只要知道基本諧音的頻率,其他諧音的頻率也可以確定。
共振頻率(共振峰)
頻率這個概念上有兩種不同的用法:
一種是由於聲帶震動而產生的「主動的頻率」,稱為F0。
一種則是經過其他腔道後,所產生的被動頻率F1, F2, …。
- F0:聲帶震動的「主動頻率」。
- F1, F2, F3, …:咽腔、口腔、鼻腔的共振所產生的「被動的頻率」。
共振頻率(共振峰):取決於發音器官的形狀和體積,因此我們說是共振頻率是「被動的頻率」。舉個簡單的範例,笛子、黑管、喇叭都是吹奏樂器,但是為什麼會產生音色的不同,主要就是因為這些樂器的形狀和體積都不同,所以發出同個音,也會有不同的音色。
講完音色原理後,我們還想要知道波長、共振峰之間的關係。
首先,我們其實可以透過管子的長度來計算出共振頻率,至於波長的部分則需要引入一個公式來計算,請參考下圖。
V: 聲音速度,F:頻率,波長 λ
經過數學式的觀察,發現「頻率越高,波長越短;頻率越低,波長越長。」
透過上面的公式,可以利用「管子的長度」來計算出「共振頻率」。這邊來計算看看一般人的共振頻率,一般成年人從聲門道嘴唇的距離大概是170mm。
第一諧音的波長公式:λ(F1) = 4L (L代表管子的長度)
有了上述公式後,就能看出「管子和頻率呈現什麼樣的關係」。
管子長(分母變大) → 波長λ拉長,頻率越低。
管子短(分母變小) → 波長λ變短,頻率越高。
舉一個實際的例子來看:
發出[i]時,嘴唇是往兩邊展開,管子會變短一點。
發出[y]時,嘴唇是向前攏圓的,管子會變長一點。
得到,[i]的共振頻率會比[y]還要高。
小結
- 聲調:聲帶形狀保持不變,而只改變聲音的頻率。
- 純音:只有一種單純的頻率。
- 複音:許多「純音」所組成的聲音。
- 諧音:分為基本諧音、第一、第二…諧音。
- 共振頻率(共振峰):取決於發音器官的形狀和體積,因此我們說是共振頻率是「被動的頻率」。
- 音高:取決於基本頻率。
- 音色:取決於管子的材質、長度等等。
參考資料: