Zrozumienie rozpoznawania głosu

Zrozumienie rozpoznawania głosu

Wyobraź sobie, że siedzisz zrelaksowany na sofie i po prostu zamawiasz komputer, laptop lub telefon komórkowy, aby wykonać proste czynności, takie jak napisanie listu lub wykonanie kilku poleceń. Czy to możliwe?Oczywiście, w tym miejscu pojawia się funkcja rozpoznawania głosu.


Zgodnie z definicją jest to proces rozpoznawania mowy ludzkiej i dekodowania jej do postaci tekstowej.

Zasada

Podstawowa zasada rozpoznawanie głosu wiąże się z faktem, że mowa lub słowa wypowiadane przez jakąkolwiek istotę ludzką powodują wibracje powietrza, zwane falami dźwiękowymi. Te ciągłe lub analogowe fale są digitalizowane i przetwarzane, a następnie dekodowane na odpowiednie słowa, a następnie odpowiednie zdania.

rozpoznawanie głosuSkładniki systemu rozpoznawania mowy

Z czego więc składa się podstawowy system rozpoznawania mowy?

Składniki systemu rozpoznawania mowy

 • Urządzenie do przechwytywania mowy : Składa się z mikrofonu, który przekształca sygnały fal dźwiękowych na sygnały elektryczne oraz przetwornika analogowo-cyfrowego, który próbkuje i digitalizuje sygnały analogowe w celu uzyskania danych dyskretnych, które komputer może zrozumieć.
 • Cyfrowy moduł sygnałowy lub procesor : Przetwarza nieprzetworzony sygnał mowy, taki jak konwersja w dziedzinie częstotliwości, przywracając tylko wymagane informacje itp.
 • Wstępnie przetworzone przechowywanie sygnału : Wstępnie przetworzona mowa jest przechowywana w pamięci w celu wykonania dalszego zadania rozpoznawania mowy.
 • Odniesienia do wzorców mowy : Komputer lub system składa się z predefiniowanych wzorców mowy lub szablonów, które są już zapisane w pamięci i służą jako odniesienie do dopasowania.
 • Algorytm dopasowywania wzorców : Nieznany sygnał mowy jest porównywany z referencyjnym wzorcem mowy w celu określenia rzeczywistych słów lub wzoru słów.
Działanie systemu

Zobaczmy teraz, jak właściwie działa cały system.


Działanie systemu

 • Mowę można postrzegać jako falę akustyczną, tj. Sygnał przenoszący informacje o wiadomości. Normalny człowiek z ograniczoną szybkością ruchu swoich artykulatorów (narządów mowy) może wytwarzać mowę ze średnią szybkością 10 dźwięków na sekundę. Średnia szybkość informacji wynosi około 50-60 bitów / sekundę. Oznacza to, że w rzeczywistości wymagane jest tylko 50 bitów / sekundę informacji w sygnale mowy. Ta fala akustyczna jest przetwarzana przez mikrofon na analogowe sygnały elektryczne. Przetwornik analogowo-cyfrowy konwertuje ten sygnał analogowy na próbki cyfrowe, dokonując precyzyjnych pomiarów fali w dyskretnych odstępach czasu.
 • Sygnał zdigitalizowany składa się ze strumienia okresowych sygnałów próbkowanych 16000 razy na sekundę i nie nadaje się do wykonywania rzeczywistych rozpoznawanie mowy proces, ponieważ wzór nie może być łatwo zlokalizowany. Aby wyodrębnić rzeczywistą informację, sygnał w dziedzinie czasu jest konwertowany na sygnał w dziedzinie częstotliwości. Odbywa się to za pomocą cyfrowego procesora sygnałowego przy użyciu techniki FFT. W sygnale cyfrowym składnik co 1/100thsekundy jest analizowany i obliczane jest widmo częstotliwości dla każdego takiego składnika. Innymi słowy, zdigitalizowany sygnał jest dzielony na małe części amplitud częstotliwości.
 • Każdy segment lub wykres częstotliwości przedstawia różne dźwięki wydawane przez ludzi. Komputer dokonuje dopasowania nieznanych segmentów do zapisanej fonetyki danego języka. To dopasowanie wzorców odbywa się na 3 sposoby:

Stosowanie podejścia fonetycznego akustycznego : W podejściu fonetycznym akustycznym, generalnie używany jest ukryty model Markowa. Model ten rozwija niedeterministyczny model prawdopodobieństwa rozpoznawania mowy. Model ten składa się z dwóch zmiennych - ukrytych stanów fonemów zapisanych w pamięci komputera oraz widocznego segmentu częstotliwości sygnału cyfrowego. Każdy fonem ma swoje własne prawdopodobieństwo i segment jest dopasowywany do fonemu zgodnie z prawdopodobieństwem, a dopasowane fonemy są następnie zbierane razem w celu utworzenia poprawnych słów zgodnie z zapisanymi regułami gramatycznymi języka.

Korzystanie z metody rozpoznawania wzorców : W podejściu do rozpoznawania wzorców system jest szkolony za pomocą określonego wzorca mowy dla dowolnego języka, a nieznany wzorzec mowy jest porównywany z wzorcem referencyjnym mowy poprzez określenie odległości między sygnałami przy użyciu techniki dopasowania czasu.

Korzystanie ze sztucznej inteligencji : Podejście Sztucznej Inteligencji opiera się na wykorzystaniu podstawowych źródeł wiedzy, takich jak znajomość dźwięków wypowiadanych na podstawie pomiarów spektralnych, znajomość odpowiednich znaczących i syntaktycznych słów.

Czynniki, od których zależy system rozpoznawania mowy

System rozpoznawania mowy zależy od następujących czynników:

 • Pojedyncze słowa : Musi być przerwa między kolejnymi wypowiadanymi słowami, ponieważ ciągłe słowa mogą się nakładać, utrudniając systemowi zrozumienie, kiedy zaczyna się lub kończy słowo. Dlatego między kolejnymi słowami musi panować cisza.
 • Pojedynczy głośnik : Wielu mówców próbujących jednocześnie wprowadzić głos może powodować nakładanie się sygnałów i zakłócenia. Większość używanych systemów rozpoznawania mowy to systemy zależne od mówcy.
 • Rozmiar słownictwa : Języki z dużym zasobem słownictwa są trudne do uwzględnienia przy dopasowywaniu wzorców niż języki z małym zasobem słownictwa, ponieważ szanse na pojawienie się niejednoznacznych słów są mniejsze w przypadku tych ostatnich.
System rozpoznawania mowy w systemie Windows 7

Chciałbym polecić następujące kroki każdej osobie używającej systemu rozpoznawania mowy Windows 7

 • Otwórz Panel sterowania z menu Start lub klikając ikonę.
 • Wybierz opcję Ułatwienia dostępu, a następnie kliknij opcję Rozpoznawanie mowy.
 • Następnie kliknij ustaw mikrofon i wybierz mikrofon biurkowy z dostępnych opcji.
 • Następnie przejdź do samouczka mowy i postępuj zgodnie z podanymi instrukcjami.
 • Następnie wyszkol komputer pod kątem lepszych opcji, tak aby komputer przechował określony wzór sygnału mowy. W tym celu należy kliknąć opcję „Naucz komputer, aby lepiej Cię rozumiał”, a następnie postępować zgodnie z instrukcjami.
 • Teraz uruchom ikonę rozpoznawania mowy i zacznij dyktować swoją mowę do komputera. Możesz także dodawać własne słowa do słownika komputerowego.
Praktyczne systemy rozpoznawania mowy: korzystanie z HM2007

Praktyczny system rozpoznawania mowy można skonstruować za pomocą układu scalonego rozpoznawania mowy HM2007 . HM2007 to 48-pinowy układ scalony, który zapewnia funkcję rozpoznawania mowy. Działa w dwóch trybach: trybie ręcznym lub trybie procesora. W obu trybach układ scalony jest najpierw uczony rozpoznawania słów przez użytkownika wypowiadającego każde słowo dla odpowiadającej mu liczby naciśniętej na klawisz. Układ scalony przechowuje każdy sygnał słowa w komórce pamięci odpowiadającej temu słowu. Dane wyjściowe z układu scalonego są przekazywane do mikrokontrolera, skąd są wyświetlane na wyświetlaczu LCD.

Praktyczne systemy rozpoznawania mowy

Zwykle używamy trybu ręcznego do obsługi HM2007.

 • HM2007 składa się z kołka RDY, który jest aktywnym pinem dolnym wskazującym, że układ scalony jest gotowy do celów szkoleniowych.
 • Wejście głosowe będzie podawane przez mikrofon podłączony do styku MICIN układu scalonego.
 • Układ scalony jest połączony z klawiaturą, która służy do wprowadzania liczb odpowiadających każdemu słowu. IC działa w dwóch funkcjach - Clear i Train. Po naciśnięciu klawisza Train na klawiaturze układ scalony rozpoczyna proces uczenia.
 • Użytkownik naciska klawisz numeryczny przed naciśnięciem klawisza funkcyjnego „Train” i wypowiada wymagane słowo do mikrofonu.
 • Układ scalony wysyła wysoki sygnał do pinu ME (włączanie pamięci), który jest podłączony do odpowiedniego pinu ME pamięci SRAM. 8-bitowy sygnał danych odpowiadający wciśniętej liczbie jest przechowywany w SRAM (zewnętrzna pamięć RAM) poprzez zewnętrzną magistralę.
 • Po wykryciu wejścia głosowego pin RDY jest w stanie logicznym wysokim, a układ scalony przechodzi w stan rozpoznawania, w którym rozpoczyna proces rozpoznawania.
 • Wynik procesu jest podawany przez magistralę danych z wysokim pinem DEN (Data Enable).
 • 8-bitowe dane mogą być następnie przesłane do mikrokontrolera przez szeregowy procesor interfejsu lub najpierw zatrzaśnięte za pomocą zatrzasku IC 74HC573.
 • Mikrokontroler jest połączony z wyświetlaczem LCD i jest zaprogramowany w taki sposób, że odpowiednie słowo jest wyświetlane na wyświetlaczu.

Jedyne środki ostrożności, jakie należy podjąć, to nie używać homonimów (słów o podobnym brzmieniu), a także zadbać o pobudzenie głosu.

Więc to wszystko, jak podstawowy system rozpoznawania mowy Pracuje. Wszelkie dalsze uwagi są mile widziane.

Źródło obrazu

 • System rozpoznawania mowy wg Gstatic
 • Manipulacja przebiegiem mowy wg Dadisp

Elementy systemu rozpoznawania mowy przez wprowadzenie do rozpoznawania mowy i rozpoznawania mówcy - Richard D. Peacocke i Daryl H. Graf