語音系列文章#1 — 語音的物理分析

Sharon Peng
Apr 9, 2023

--

這篇文章的目的是想要紀錄自己所看到學到東西,畢竟把東西分享出來還是比較有動力學得更多~~

以下文章,是從《語言、語音與技術》中自行整理的筆記,若有興趣的讀者,歡迎啃書~~
以下的內容,皆為語音相關知識,可以作為科普文章來進行閱讀,那就讓我們開始吧!

Outline:

  • 聲音的傳遞
  • 聲波的三大元素
  • 音階
  • 發音
  • 純音、複音和諧音
  • 共振頻率

聲音的傳遞

日常中我們之所以能聽到別人說話,是因為有空氣當作介質來進行傳遞。

發音的時候,從肺部發出來的氣流,使得聲帶產生「開啟又閉合」的震動。推薦可以上YT尋找相關影片會更有感覺。

  • 聲帶張開的時候,空氣粒子會受到壓力,向前運動。
  • 聲帶閉合的時候,空氣粒子往後。

空氣粒子不斷重複壓緊與鬆開的活動,形成一種疏密波。這個疏密波會逐一傳送,直到影響到聽話者耳道裡的氣粒,引起耳膜的震動,再傳遞到大腦,形成聲音。

source

聲波的三大元素

聲波的傳遞有三大元素:

  1. 振幅:說話所產生的氣壓有強弱,因此壓緊、鬆開的程度不盡相同,形成振幅的大小。
    振幅大 → 音量大
    振幅小 → 音量小
  2. 週期:發音時,空氣粒子按照聲帶的某規律發生波動,這樣的波形我們稱為「週期波」(periodic wave)。
    聲波在一個週期的時間內所傳播的距離,稱為一個「波長」。
  3. 頻率:空氣粒子(或其他物體)在一秒鐘內完成一次「來回震動」的次數,稱為頻率頻率的單位是Hz。一秒鐘一個週期,稱為一赫茲。一秒鐘,兩個週期,兩赫茲,以此類推。

元音:
元音是一種音素(phoneme),指的是在發音時,口腔不被舌頭、唇等部位的遮擋而產生的音

音階

人耳所能聽到的頻率範圍是有限的,範圍大概是20~20,000 (Hz)之間。
在心裡的感覺上,當頻率每增加一倍時,音高就會增加一個音階。鋼琴中do mi so do mi so do
第二個do會是第一個do頻率的兩倍
第三個do又會是第二個do的兩倍。

假設從20Hz開始算起,20~40Hz是一個音階,40~80Hz又會是一個音階,80~160Hz也是一個音階,以此類推。架設人耳的範圍最多到20, 000Hz,則最好的耳朵大概可以聽到9~10個音階。一但超出這個範圍,我們就聽不到任何聲音了。

轉換到聲帶頻率,聲帶的限制比聽覺大得多,一般聲帶的頻率不會超過1000Hz。
男生的聲帶:厚+長,頻率大概是60~70Hz。
女生的聲帶:薄+短,因此可以振動的比較快,頻率大概是200~350Hz。
若是經過訓練過後的歌手,唱歌的頻率可以大幅的增加。

發音

發音,若聲帶形狀保持不變,只改變聲音的頻率,就可以形成「聲調」的不同。以中文來說,我們有四個聲調,而聲調的形成,即是不同的頻率在時間上的變動。請參考下圖,「媽」「麻」「馬」「罵」中,都是「ㄇㄚ」來發音,但我們藉由控制「聲帶」,可以造成不同的發音頻率,形成了「聲調」

語言、語音與技術

純音、複音和諧音

純音:只有一種單純的頻率。

複音:許多「純音」所組成的聲音。

諧音:分為基本諧音、第一、第二…諧音。

透過音叉,我們可以得到一個「基本、簡單且單調」的聲音,這樣的聲音只有一種單純的頻率,被稱做「純音」。

當然,我們的世界沒有這麼單純,生活中各種的聲音都是由不同頻率和振幅(能量)的純音所組成,而這樣的「由純音所組成的聲音,稱為複音」。在「複音」中,頻率最低,振幅(能量)最大的音,稱為「基音」,其他的音都稱為「泛音」,這些泛音都是基音的整數倍,振幅(能量)也都比較小。通常再說某個音的頻率是多少,多半指得是基音。

那有什麼方法可以去將複音給分開嗎?

傅立葉分析

一般的聲音都是由許多「純音」所組成,我們可以用「傅立葉分析」把「複音」轉換成許多的「純音」,同樣的,也可以把許多的「純音」合成「複音」。

純音的聲波,其實就是一種正弦波。
正弦波是一種以角度為變量的波形,通過在一個單位元(簡單的一個圓)上移動一個角度並通過對邊和斜邊的比例求出正弦值。公式:f = sin(θ)。將這些對應的點連起來後,就是一個純音的正弦波。

橫軸:角度,縱軸:正弦的大小。語言、語音與技術

前面說過,世界上大部分的聲音都不是純音。所以現在讓我們把情況複雜化,假設有一個複合波是由:1秒100個週期的基本頻率+兩個純音,分別是200週/秒、300週/秒。那麼就可以形成下圖:

source:語言、語音與技術

在處理複音時,還可以用「線譜(line spectrum)」的圖形來表示。線譜的橫軸代表每個純音的頻率,縱軸代表振幅大小。
下圖中第一條線:頻率最小、振幅最大的線,稱之為「基本諧音」。
第二條線稱為第二個諧音、第三條線稱為第三個諧音,以此類推。

source:語言、語音與技術

不知道各位會不會有個疑問,為什麼圖上200週/秒的振幅比300週/秒的振幅還要小?

諧音的振幅通常會隨著頻率的增加而減小,但因為許多物理系統的能量會逐漸耗散。

一般的情況下,諧音的頻率越低,振幅越強(諧音就是一種頻率~)。由於諧音之間的頻率必然是整數關係,因此只要知道基本諧音的頻率,其他諧音頻率也可以確定。

例如:基本諧音是100Hz,第十個諧波就會是1000Hz。如果增加一個音階的話,第一音階的頻率會是200Hz,第二個音階400Hz,第十個音階就會是2000Hz,線譜看上去會比較「稀疏」。

基本諧音一樣是100Hz,如果降低一個音階的話,第一諧音50Hz,第二諧音100Hz,第三諧音150Hz,第十個500Hz,線譜變密許多。

從上述的變化,得知一個現象,音高主要由基本諧音決定,只要知道基本諧音的頻率,其他諧音的頻率也可以確定。

共振頻率(共振峰)

頻率這個概念上有兩種不同的用法:

一種是由於聲帶震動而產生的「主動的頻率」,稱為F0。

一種則是經過其他腔道後,所產生的被動頻率F1, F2, …。

  • F0:聲帶震動的「主動頻率」。
  • F1, F2, F3, …:咽腔、口腔、鼻腔的共振所產生的「被動的頻率」。

共振頻率(共振峰):取決於發音器官的形狀和體積,因此我們說是共振頻率是「被動的頻率」。舉個簡單的範例,笛子、黑管、喇叭都是吹奏樂器,但是為什麼會產生音色的不同,主要就是因為這些樂器的形狀和體積都不同,所以發出同個音,也會有不同的音色。

講完音色原理後,我們還想要知道波長、共振峰之間的關係。

首先,我們其實可以透過管子的長度來計算出共振頻率,至於波長的部分則需要引入一個公式來計算,請參考下圖。
V: 聲音速度,F:頻率,波長 λ

經過數學式的觀察,發現「頻率越高,波長越短;頻率越低,波長越長。」

source

透過上面的公式,可以利用「管子的長度」來計算出「共振頻率」。這邊來計算看看一般人的共振頻率,一般成年人從聲門道嘴唇的距離大概是170mm。
第一諧音的波長公式:λ(F1) = 4L (L代表管子的長度)

有了上述公式後,就能看出「管子和頻率呈現什麼樣的關係」。

管子長(分母變大) → 波長λ拉長,頻率越低。
管子短(分母變小) → 波長λ變短,頻率越高。

舉一個實際的例子來看:

發出[i]時,嘴唇是往兩邊展開,管子會變短一點。
發出[y]時,嘴唇是向前攏圓的,管子會變長一點。

得到,[i]的共振頻率會比[y]還要高

小結

  • 聲調:聲帶形狀保持不變,而只改變聲音的頻率。
  • 純音:只有一種單純的頻率。
  • 複音:許多「純音」所組成的聲音。
  • 諧音:分為基本諧音、第一、第二…諧音。
  • 共振頻率(共振峰):取決於發音器官的形狀和體積,因此我們說是共振頻率是「被動的頻率」
  • 音高:取決於基本頻率。
  • 音色:取決於管子的材質、長度等等。

--

--

Sharon Peng
Sharon Peng

No responses yet