語音系列文章#3 — 語音的圖譜(Spectrogram)

Sharon Peng
Apr 27, 2023

--

這篇文章的目的是想要紀錄自己所看到學到東西,畢竟把東西分享出來後,才有動力學得更多!

以下文章,是從《語言、語音與技術》中自行整理的筆記,若有興趣的讀者,歡迎自行閱讀~~
以下的內容,皆為語音相關知識,可以作為科普文章來進行閱讀,那就讓我們開始吧!

我們說話所發出的每一個聲音,都可以用儀器畫成一張圖,稱為聲譜圖(Spectrogram)

下方的圖片,是用英文發出”Speech production”的聲譜圖。上半部是「寬帶」(broad band),下半部是窄帶(narrow band)。說話時,聲帶不斷振動,聲門每一次打開,噴出氣體時,在咽腔、口腔、鼻腔引起共振,就會產生諧波。

諧波:在一個聲音波形中,基頻整數倍的頻率。
共振峰:聲波頻譜中能量最高的頻率區域。
基頻:通常稱為第一諧波。

在這張圖中,我們將不同的圖樣,分門別類歸納成ABCD。每個類別都有它的特性,例如D代表的是,音跟音之間空白的部分。B上可以看到許多清楚的直線,而每一條直線代表聲帶震動一次。由於每條線之間距離很近,在圖上形成橫條,這個就是這個聲音的共振峰

從下往上看的話,第一條橫線是F1, 第二條橫線是F2,第三橫條是F3。F0是兩條直線之間的距離,兩條直線之間的距離。

聲譜圖

介紹幾個和形容聲譜圖相關的術語。

  1. Gap(G):每個音和音之間沒有聲音的部分。下圖中D的部分。

2. Voiced Bar(V):在間隙的最下面有一條比較寬的橫槓,說明此時聲帶是在顫動,有聲音發出,這個現象稱為Voiced Bar。

3. Spike(P):發出「p」,嘴唇一張開,就會發出聲音,在聲譜圖很快就會出現一條直線,這條線稱為「Spike」。

4. Formant Pattern(F):聲譜圖上表現一條條的橫線,就稱為formant pattern。

5. Noise pattern(N):formant pattern的聲音是從聲帶出來,而noise pattern的起源不在聲帶,而是在口腔的某個部位。清擦音「s」等在口腔裡的發音部位雖然不同,在聲譜圖上看到的都是noise pattern,請參考下圖C的部分。

6. 雙有紋樣(F / N):把F和N合起來一起看,具有兩個不同聲音起源,比如發「s」,在聲譜圖上是noise pattern。但是如果聲帶也同時震動,就會變成「z」的音。「z」有兩個不同的聲音起源,一個在上門齒(N)、一個在聲帶(F),把兩個和其來就是F/N

窄帶聲譜圖

用不同的濾波器,可以產生出「窄聲譜圖」或「寬聲譜圖」,以觀察的角度來看的話,窄聲譜圖和寬聲譜圖最不同的部分是能看到一條條橫線
寬帶聲譜圖常用的濾波器為300Hz,窄聲帶圖譜常用的是50Hz

寬帶濾波器的帶寬為300Hz,聲譜儀震動時,濾波器也隨著移動並改變頻率,濾波器到哪裡,就會畫出該範圍內的電壓。電壓越高畫出的圖越黑,形成時間對頻率的圖。

窄帶濾波器的帶寬是50Hz,大概是100Hz諧波的一半,因此濾波器在移動的時候,100Hz之下沒有電壓,大於等於100Hz才有電壓,又因為帶寬50Hz,因此每一條100Hz的諧波都能畫出來,形成一條條的橫線。如果橫線往上走,那就是F0的頻率在上升,也就是音高在升高。

F0的頻率和第一諧波的頻率是相同的,如果想要知道F0頻率的變化,照理來說應該測量第一諧波的變化,但因為他離基線太近,變化不明顯,因此一般都用第十個諧波來測量,因為第十諧波的變化比第一諧波還要大十倍。

範例:第一諧波從100Hz到110Hz只變動了10Hz,但是到了第十諧波,就是從1000Hz到1100Hz,變動了100Hz,測量100Hz自然比10Hz容易得多。

寬帶聲譜圖vs窄帶聲譜圖
寬帶聲譜圖:良好的「時間」分辨率,可以清楚地看出共振峰(聲道變化)
窄帶聲譜圖:良好的「頻率」分辨率,有利於顯示F0和各次諧波。
每個聲譜圖各有自己的優點,如果要研究聲調和語調的話,使用窄帶聲譜圖會是比較好的選擇。

語譜圖的形成

--

--