Hogyan készítsünk hangvezérelt asszisztenst Raspberry Pi-vel?

A technológia rohamos fejlődésével a hangvezérelt asszisztensek, mint az Amazon Alexa vagy a Google Assistant, mindennapjaink részévé váltak. De mi van akkor, ha valami egyedit, személyre szabottat szeretnénk, ami felett teljes kontrollunk van? Nos, a válasz egy Raspberry Pi! Ez a parányi, mégis rendkívül sokoldalú mikroszámítógép tökéletes alapot biztosít ahhoz, hogy megépítsük saját, testreszabható okos asszisztensünket. Ebben a cikkben lépésről lépésre bemutatjuk, hogyan valósíthatja meg ezt a fantasztikus DIY projektet.

Miért érdemes saját hangvezérelt asszisztenst építeni?

Mielőtt belevágnánk a technikai részletekbe, érdemes átgondolni, miért is érdemes időt és energiát fektetni egy saját asszisztens megépítésébe:

Adatvédelem és biztonság: A felhőalapú asszisztensek folyamatosan figyelnek, és adataikat külső szerverek dolgozzák fel. Egy saját rendszerrel Ön dönti el, milyen adatok hagyják el az otthonát, és mit dolgoz fel a készülék lokálisan.
Testreszabhatóság: A saját asszisztens képességei csak az Ön fantáziájára vannak bízva. Integrálhatja okosotthon-rendszerével, egyedi parancsokat taníthat neki, vagy akár saját hangját is beállíthatja.
Tanulás és fejlődés: Ez a projekt kiváló lehetőséget biztosít a Python programozás, a Linux alapok és a hangfeldolgozás megismerésére.
Költséghatékonyság: Hosszú távon olcsóbb lehet, mint több kereskedelmi asszisztens megvásárlása.
Rugalmasság: Nincs lezárva egyetlen ökoszisztémába sem, így szabadon választhat a rendelkezésre álló technológiák és szolgáltatások közül.

Amire szüksége lesz: A hardver

A projekt megkezdéséhez néhány alapvető alkatrészre lesz szüksége. Ezek könnyen beszerezhetők az elektronikai boltokban vagy online:

Raspberry Pi: Bármelyik modern modell megteszi, de a Raspberry Pi 3B+ vagy a Raspberry Pi 4 ajánlott a jobb teljesítmény miatt. A 4 GB vagy 8 GB RAM-mal rendelkező Pi 4 ideális választás lehet a komplexebb feladatokhoz.
MicroSD kártya (legalább 16 GB): Erre települ az operációs rendszer és a programok. Ajánlott a Class 10 vagy U1 sebességű kártya.
Tápegység: A Raspberry Pi modelljének megfelelő (USB-C a Pi 4-hez, Micro USB a korábbi modellekhez), stabil tápegység elengedhetetlen.
USB mikrofon: Egy jó minőségű USB mikrofon kulcsfontosságú a pontos beszédfelismerés érdekében. Lehet olcsó webkamera mikrofonja, vagy dedikált USB-s mikrofon. Alternatívaként használhat audió HAT (Hardware Attached on Top) kártyát is.
Hangszóró: Egy egyszerű, 3,5 mm-es jack csatlakozóval vagy USB-vel csatlakoztatható hangszóróra lesz szüksége, hogy az asszisztens válaszolni tudjon.
Opcionális: HDMI kábel és monitor (kezdeti beállításhoz), USB billentyűzet és egér (szintén kezdeti beállításhoz), Raspberry Pi ház.

Szoftver előkészületek: A Raspberry Pi OS

Az első és legfontosabb lépés a Raspberry Pi operációs rendszerének telepítése. Javasolt a Raspberry Pi OS Lite verziója (korábbi nevén Raspbian Lite), mivel ez minimális erőforrásokat igényel, és headless módban is futtatható (azaz monitor és billentyűzet nélkül, SSH-n keresztül).

Töltse le a Raspberry Pi Imager szoftvert: Ez a hivatalos eszköz segít az operációs rendszer egyszerű telepítésében az SD kártyára.
Válassza ki az operációs rendszert: Válassza a Raspberry Pi OS Lite (32-bit vagy 64-bit) verzióját.
Válassza ki az SD kártyát: Győződjön meg róla, hogy a megfelelő meghajtót választja, mert minden adat törlődik róla!
Engedélyezze az SSH-t és állítsa be a Wi-Fi-t (opcionális, de ajánlott): Az Imager szoftverben a „Beállítások” menüpont alatt előre konfigurálhatja az SSH hozzáférést és a Wi-Fi hálózatot, így nem lesz szüksége monitorra az első indításhoz.
Írja ki az operációs rendszert: Kattintson az „Írás” gombra, és várja meg, amíg a folyamat befejeződik.
Helyezze be az SD kártyát a Raspberry Pi-be: Csatlakoztassa a mikrofont és a hangszórót, majd dugja be a tápkábelt.
Frissítések és telepítések: Miután a Pi elindult, SSH-n keresztül (vagy közvetlenül a terminálban) jelentkezzen be, és futtassa a következő parancsokat a rendszer frissítéséhez és a szükséges csomagok telepítéséhez:
```
sudo apt update
```
```
sudo apt upgrade
```
```
sudo apt install python3 python3-pip alsa-utils
```
Az `alsa-utils` a hangkártya kezeléséhez szükséges, míg a `python3` és `python3-pip` a Python programozási nyelv futtatásához és könyvtárak telepítéséhez kellenek.
Hangbeállítások ellenőrzése: Győződjön meg róla, hogy a mikrofon és a hangszóró megfelelően működik. Használja az arecord -l és aplay -l parancsokat az észlelt audioeszközök listázásához. A alsamixer paranccsal beállíthatja a hangerőt és a mikrofon érzékenységét.

A hangvezérlés lelke: Beszédfelismerés és Szövegfelolvasás

A hangvezérelt asszisztens két alapvető funkcióra épül: a beszéd felismerésére (Speech-to-Text, STT) és a szöveg felolvasására (Text-to-Speech, TTS).

Beszédfelismerés (Speech-to-Text – STT)

Ez a folyamat alakítja át az Ön hangját írott szöveggé. Többféle megközelítés létezik:

Felhőalapú megoldások: A legpontosabb és legkönnyebben implementálható módszerek közé tartoznak, de internetkapcsolatot igényelnek, és adatokat küldenek külső szerverekre. Ilyen például a Google Cloud Speech-to-Text API vagy a Google Web Speech API (utóbbi gyakran ingyenes, bizonyos korlátokkal).
Offline megoldások: Ezek a modellek közvetlenül a Raspberry Pi-n futnak, internetkapcsolat nélkül. Előnyük az adatvédelem és a sebesség (internetkésleltetés nélkül), hátrányuk, hogy erőforrásigényesebbek lehetnek és a pontosságuk változhat. Népszerű nyílt forráskódú opciók a Vosk (Kaldi alapú) és a Mozilla DeepSpeech.

Ehhez a projekthez a Python SpeechRecognition könyvtárát fogjuk használni, amely képes több STT motorral is együttműködni, beleértve a Google Web Speech API-t is, ami jó kiindulópont a pontossága és egyszerű használata miatt.

Szövegfelolvasás (Text-to-Speech – TTS)

Ez a funkció alakítja át az asszisztens válaszát emberi hanggá. Itt is választhatunk felhőalapú és offline megoldások közül:

Felhőalapú megoldások: Pl. Google Text-to-Speech, Amazon Polly. Kiváló minőségű, természetes hangokat biztosítanak, de internetkapcsolatot igényelnek.
Offline megoldások: Pl. eSpeak (egyszerű, robotikus hang), MaryTTS (jobb minőségű, de bonyolultabb beállítás).

Mi a gTTS (Google Text-to-Speech) Python könyvtárat fogjuk használni, amely ingyenesen elérhető, viszonylag jó minőségű hangot biztosít, és könnyen kezelhető.

Az asszisztens építése Pythonban: Lépésről lépésre

Most, hogy ismerjük az alapokat, lássuk, hogyan hozhatjuk létre a Python szkriptet.

1. Python könyvtárak telepítése

Nyissa meg a terminált a Raspberry Pi-n, és telepítse a szükséges könyvtárakat:

pip3 install SpeechRecognition gTTS pydub pygame

A pydub segít az audiofájlok kezelésében, a pygame pedig a hang lejátszására alkalmas (bár más módszerek is léteznek).

2. A Python szkript felépítése

Készítsen egy új Python fájlt, például assistant.py néven:

nano assistant.py

És illessze be a következő alapvető kódot:


import speech_recognition as sr
from gtts import gTTS
import os
import pygame
import time

# Inicializálja a felismertetőt
r = sr.Recognizer()

def speak(text):
    """Szöveg felolvasása."""
    print(f"Asszisztens mondja: {text}")
    tts = gTTS(text=text, lang='hu') # Változtasd 'en'-re, ha angol nyelvű választ akarsz
    filename = "response.mp3"
    tts.save(filename)
    
    pygame.mixer.init()
    pygame.mixer.music.load(filename)
    pygame.mixer.music.play()
    while pygame.mixer.music.get_busy():
        pygame.time.Clock().tick(10)
    pygame.mixer.quit() # Fontos a mixer bezárása, hogy újra lehessen inicializálni
    os.remove(filename) # Törli az ideiglenes fájlt

def listen():
    """Hangfelismerés és szöveggé alakítás."""
    with sr.Microphone() as source:
        print("Mondja ki a parancsot...")
        r.adjust_for_ambient_noise(source, duration=1) # Zajszűrés
        audio = r.listen(source)
    
    try:
        command = r.recognize_google(audio, language='hu-HU') # Magyar nyelv beállítása
        print(f"Ön mondta: {command}")
        return command.lower()
    except sr.UnknownValueError:
        print("Nem értettem, amit mondott.")
        return ""
    except sr.RequestError as e:
        print(f"Hiba történt a Google Speech Recognition szolgáltatással; {e}")
        return ""

def process_command(command):
    """Parancs feldolgozása és válasz generálása."""
    if "hello" in command:
        speak("Szia! Miben segíthetek?")
    elif "idő" in command:
        current_time = time.strftime("%H óra %M perc")
        speak(f"Jelenleg {current_time} van.")
    elif "mi a neved" in command:
        speak("Én egy Raspberry Pi alapú asszisztens vagyok.")
    elif "kilépés" in command or "viszlát" in command:
        speak("Viszlát! Örülök, hogy segíthettem.")
        return False # Jelezze a fő ciklusnak a kilépést
    else:
        speak("Sajnálom, ezt a parancsot nem értem. Próbálja újra!")
    return True

# Fő ciklus
def main():
    speak("Üdvözlöm! Készen állok.")
    running = True
    while running:
        command = listen()
        if command: # Csak akkor dolgozza fel, ha volt felismerhető hang
            running = process_command(command)
        time.sleep(1) # Kis szünet a ciklusok között

if __name__ == "__main__":
    main()

3. Kód magyarázata és működése

sr.Recognizer(): Létrehozza a beszédfelismerő objektumot.
speak(text): Ez a függvény veszi a bemeneti szöveget, a gTTS segítségével MP3 fájlt generál belőle, elmenti azt, majd a pygame.mixer segítségével lejátssza. Fontos, hogy a fájl lejátszása után töröljük az ideiglenes fájlt.
listen(): Ez a függvény figyeli a mikrofont. A sr.Microphone() megnyitja a mikrofont, a r.adjust_for_ambient_noise() segít a zajszűrésben, a r.listen(source) rögzíti a hangot. Végül a r.recognize_google() küldi el a hangot a Google szervereinek feldolgozásra és visszaadja a szöveget. A language='hu-HU' beállítással megadjuk a magyar nyelvet.
process_command(command): Ez a függvény az asszisztens „agyát” képezi. Itt dolgozza fel a felismeréseket, és ha egyezést talál a definiált kulcsszavakkal („hello”, „idő”, „mi a neved”, „kilépés”), akkor meghívja a speak() függvényt a megfelelő válasszal.
main(): Ez a fő ciklus. Folyamatosan hallgatja a parancsokat, feldolgozza azokat, és válaszol. A time.sleep(1) egy kis szünetet biztosít a ciklusok között, hogy ne terhelje túl a CPU-t.

4. A szkript futtatása

Miután elmentette a fájlt (Ctrl+O, Enter, Ctrl+X), futtathatja a következő paranccsal:

python3 assistant.py

Ezután látnia kell a „Mondja ki a parancsot…” üzenetet, és a mikrofon készen áll a hangja fogadására.

További fejlesztések és okosotthon integráció

Ez az alaprendszer egy kiindulópont. A lehetőségek tárháza végtelen:

Ébresztőszó (Wake Word): Jelenleg a szkript a futtatás után azonnal figyel. Egy ébresztőszó (pl. „Hey Pi”, „Asszisztens”) detektálása sokkal felhasználóbarátabbá tenné a rendszert. Ehhez olyan könyvtárakat használhatunk, mint a Snowboy (bár ez már nem aktívan fejlesztett) vagy a Picovoice Porcupine, illetve a Rhasspy, amely teljes offline megoldást kínál STT-vel, TTS-sel és NLU-val.
Természetes Nyelvi Feldolgozás (NLU): A jelenlegi szkript egyszerű `if-else` parancsellenőrzést használ. Az NLU keretrendszerek, mint a Rasa vagy a Rhasspy, sokkal kifinomultabbak, képesek az „intent” (szándék) felismerésére és a „slot” (információ) kinyerésére a mondatokból, így sokkal komplexebb párbeszédeket valósíthat meg.
Okosotthon integráció: Ez az egyik legizgalmasabb terület! Integrálhatja asszisztensét népszerű okosotthon platformokkal, mint a Home Assistant, Node-RED, vagy OpenHAB. Ekkor parancsokkal vezérelheti a lámpákat, termosztátot, redőnyöket stb. Ehhez általában az okosotthon platform API-ját kell meghívnia a Python szkriptből.
Külső API-k: Hozzáférhet időjárás-előrejelzéshez (OpenWeatherMap API), hírekhez, naptárbejegyzésekhez, vagy bármilyen más online szolgáltatáshoz, ami API-t kínál.
Webes felület: Egy Flask vagy Django alapú webes felületet is hozzáadhat, amin keresztül konfigurálhatja az asszisztenst, vagy láthatja a parancsok előzményeit.
Rendszerindításkori automatikus futtatás: Hogy ne kelljen minden újraindításkor manuálisan elindítani a szkriptet, beállíthatja, hogy a rendszer automatikusan futtassa. Erre a cron vagy a systemd szolgáltatások kiválóan alkalmasak.

Példa a systemd beállítására (röviden):

Hozzon létre egy service fájlt a /etc/systemd/system/myassistant.service útvonalon:


[Unit]
Description=My Raspberry Pi Assistant
After=network.target

[Service]
ExecStart=/usr/bin/python3 /home/pi/assistant.py
WorkingDirectory=/home/pi
StandardOutput=inherit
StandardError=inherit
Restart=always
User=pi

[Install]
WantedBy=multi-user.target

Ezután engedélyezze és indítsa el a szolgáltatást:

sudo systemctl enable myassistant.service

sudo systemctl start myassistant.service

Gyakori problémák és hibaelhárítás

Nincs hangfelvétel: Ellenőrizze a mikrofon csatlakoztatását. Győződjön meg róla, hogy az alsamixer programban a mikrofon bemenet nincs lenémítva és a hangerő megfelelő. Néha a /etc/modprobe.d/alsa-base.conf fájl szerkesztésére is szükség lehet, ha több hangkártya van jelen.
Nincs hanglejátszás: Ellenőrizze a hangszórót és a csatlakoztatást. Futtasson egy egyszerű aplay /usr/share/sounds/alsa/Front_Center.wav parancsot a hangkimenet teszteléséhez.
NetworkError vagy UnknownValueError: Győződjön meg róla, hogy a Raspberry Pi rendelkezik internetkapcsolattal (ha felhőalapú STT/TTS-t használ). Az UnknownValueError azt jelenti, hogy a beszédfelismerő nem értett semmit (túl halk beszéd, sok zaj, vagy nem támogatott nyelv).
Python hibák: Ellenőrizze a kódját a szintaktikai hibákért. Használjon print() függvényeket a hibakereséshez a program különböző pontjain.

Konklúzió

Egy hangvezérelt asszisztens megépítése Raspberry Pi-vel nemcsak egy izgalmas és tanulságos elektronikai projekt, hanem egy lépés a teljes kontroll felé saját okosotthonában. A nyílt forráskódú eszközöknek és a Python rugalmasságának köszönhetően a lehetőségek szinte korlátlanok. Ne féljen kísérletezni, új funkciókat hozzáadni, és az asszisztenst a saját igényeihez igazítani. Az út során szerzett tudás és tapasztalat felbecsülhetetlen értékű lesz, és hamarosan rájön, hogy a saját készítésű okos eszközök mennyivel élvezetesebbek és hasznosabbak lehetnek, mint a bolti társaik.

Sok sikert a projekthez!