Az UNION és UNION ALL parancsok: mikor melyiket válaszd?

Az adatkezelés világában az SQL (Structured Query Language) a gerince minden modern adatbázis-rendszernek. Segítségével nemcsak lekérdezhetjük, módosíthatjuk és törölhetjük az adatokat, hanem különböző táblákból vagy lekérdezésekből származó adathalmazokat is kombinálhatunk. Ezen kombinációs műveletek közül kettő kiemelten fontos és gyakran használt: az UNION és az UNION ALL parancsok. Bár első pillantásra hasonlóaknak tűnhetnek, működésükben és teljesítményükben jelentős különbségek rejlenek, amelyek alapvetően befolyásolhatják az alkalmazásaink sebességét és az adatok pontosságát. De mikor érdemes az egyiket, mikor a másikat választani? Merüljünk el a részletekben!

Az adathalmazok egyesítésének alapjai

Mielőtt rátérnénk a konkrét parancsokra, fontos megérteni, miért van szükségünk adathalmazok egyesítésére. Képzeljünk el egy nagyvállalatot, amely különböző rendszerekben kezeli az ügyféladatait: egyet a webshopban regisztráltaknak, egyet a telefonos értékesítésen keresztül érkezőknek, és egy harmadikat a fizikai üzletek vásárlóinak. Ha egy marketing kampányhoz össze akarjuk gyűjteni az összes ügyfél email címét, szükségünk lesz egy olyan eszközre, amely képes ezeket a különböző forrásokat egyetlen, koherens listává fűzni.

Ugyanez igaz lehet pénzügyi adatokra (pl. negyedéves bevételek kombinálása egy éves jelentéshez), log adatokra (különböző szerverek naplózott eseményeinek összegyűjtése), vagy termékadatokra (különböző kategóriákba tartozó termékek listázása). Ebben a kontextusban lépnek színre az UNION operátorok.

Mi az a `UNION` és mikor használd?

A UNION operátorral két vagy több SELECT lekérdezés eredményhalmazát kombinálhatjuk egyetlen adathalmazzá. A legfontosabb jellemzője, hogy automatikusan eltávolítja az ismétlődő sorokat (duplikátumokat) a végső eredményből. Gondoljunk rá úgy, mint egy „halmazegyesítésre”, ahol minden elem csak egyszer szerepelhet.

Hogyan működik a `UNION`?

Amikor az UNION parancsot használjuk, az adatbázis-kezelő a következő lépéseket hajtja végre:

Végrehajtja az első SELECT lekérdezést.
Végrehajtja a második (és az azt követő) SELECT lekérdezéseket.
Összegyűjti az összes eredményt.
Rendezi az összes eredményt. Ez a rendezési folyamat elengedhetetlen a duplikátumok azonosításához.
Eltávolítja a teljesen megegyező sorokat.
Visszaadja az egyedi, kombinált eredményhalmazt.

Ez a rendezési és duplikátum-eltávolítási lépés erőforrásigényes lehet, különösen nagy adathalmazok esetén. Ezért a UNION parancs általában lassabb, mint az UNION ALL.

Mikor válaszd a `UNION` parancsot?

A UNION akkor a legjobb választás, ha:

Feltétlenül egyedi sorokra van szükséged az eredményben. Például, ha egy marketing kampányhoz szeretnél egy listát az ügyfelek email címeiről, és nem akarod, hogy egy adott cím többször is szerepeljen, még akkor sem, ha az ügyfél több különböző rendszerben is regisztrálva van.
Nincs szükséged az összes duplikált bejegyzésre, mert azok zavarnák az elemzésedet vagy a további feldolgozást.
Az egyesítendő adathalmazok relatíve kicsik, vagy a teljesítmény nem kritikus tényező.

Példa a `UNION` használatára:


SELECT ugyfel_nev, email_cim FROM WebshopUgyfelek
UNION
SELECT ugyfel_nev, email_cim FROM BoltiUgyfelek;

Ez a lekérdezés visszaadja az összes ügyfél nevét és email címét a webshop és a fizikai bolti adatbázisból, de ha egy ügyfél mindkét helyen szerepel ugyanazzal a névvel és email címmel, akkor csak egyszer fog megjelenni a végső listában.

Mi az a `UNION ALL` és mikor használd?

A UNION ALL operátor szintén két vagy több SELECT lekérdezés eredményhalmazát kombinálja, de az UNION-nel ellentétben nem távolítja el a duplikált sorokat. Egyszerűen összefűzi az összes eredményt, az egyik lekérdezés eredményét a másik alá illeszti, ahogy azok vannak.

Hogyan működik a `UNION ALL`?

Az adatbázis-kezelő a következőképpen jár el az UNION ALL esetén:

Végrehajtja az első SELECT lekérdezést.
Végrehajtja a második (és az azt követő) SELECT lekérdezéseket.
Egyszerűen összefűzi az összes eredményt anélkül, hogy rendezné vagy ellenőrizné a duplikátumokat.
Visszaadja az összes kombinált eredményt, beleértve az ismétlődő sorokat is.

Mivel nincs szükség rendezésre és duplikátum-ellenőrzésre, a UNION ALL jelentősen gyorsabb és erőforrás-hatékonyabb, mint a UNION, különösen nagy adathalmazok esetén. Emiatt gyakran előnyösebb választás, ha az ismétlődő sorok megléte nem okoz problémát, vagy éppen azokra is szükség van.

Mikor válaszd a `UNION ALL` parancsot?

A UNION ALL akkor a legjobb választás, ha:

Nincs szükség az egyedi sorokra, vagyis a duplikált bejegyzések megléte nem zavar, sőt, akár kívánatos is lehet. Például, ha egy adott időszak összes tranzakcióját szeretnénk látni különböző pénzügyi rendszerekből, és minden egyes tranzakciót meg akarunk őrizni, még akkor is, ha technikai szempontból (az összes oszlopot figyelembe véve) duplikátumnak tűnne.
A teljesítmény kritikus tényező, és az adathalmazok nagyok.
Tudjuk, hogy az egyes lekérdezések eredményhalmazaiban nincsenek duplikátumok (vagy legalábbis a célunk szempontjából nem relevánsak), és csak egyszerűen összefűzni szeretnénk őket.
Particionált táblákkal dolgozunk, ahol a különböző partíciókból származó adatokat szeretnénk egyetlen logikai egységbe gyűjteni.

Példa a `UNION ALL` használatára:


SELECT tranzakcio_id, osszeg, datum FROM JanuaiTranzakciok
UNION ALL
SELECT tranzakcio_id, osszeg, datum FROM FebruaiTranzakciok
UNION ALL
SELECT tranzakcio_id, osszeg, datum FROM MarciusiTranzakciok;

Ez a lekérdezés az első negyedév összes tranzakcióját visszaadja, beleértve az esetlegesen duplikált tranzakcio_id-kat (bár egy tranzakció-azonosító elvileg egyedi, de tegyük fel, hogy különböző rendszerekből jönnek, és mi az összes bejegyzést látni akarjuk). Itt a hangsúly azon van, hogy minden egyes tranzakció megjelenjen, ami a havi táblákban szerepel, a teljesítmény pedig elsődleges szempont.

Fontos feltételek az `UNION` és `UNION ALL` használatához

Ahhoz, hogy az UNION vagy UNION ALL parancsokat sikeresen alkalmazhassuk, néhány alapvető szabályt be kell tartanunk:

Oszlopok száma: Az egyesítendő SELECT lekérdezéseknek pontosan ugyanannyi oszlopot kell visszaadniuk.
Oszlopok sorrendje: Az oszlopok sorrendjének logikailag azonosnak kell lennie az egyes SELECT lekérdezésekben, hogy az eredmények értelmezhetőek legyenek. (Technikailag az adatbázis nem fog hibát dobni, ha más a sorrend, de az adatok „összekeveredhetnek”.)
Adattípusok: A megfelelő oszlopok adattípusainak kompatibiliseknek kell lenniük. Például, ha az egyik lekérdezés egy VARCHAR (szöveg) típusú oszlopot ad vissza, a másik lekérdezésnek is egy kompatibilis szöveges vagy konvertálható típusú oszlopot kell visszaadnia ugyanazon a pozíción. Az SQL szerverek általában képesek implicit típuskonverzióra, de a legjobb gyakorlat az explicit konverzió (pl. CAST() vagy CONVERT()) használata, ha eltérések vannak, a váratlan hibák elkerülése végett.
Oszlopnevek: Az eredményhalmaz oszlopneveit általában az első SELECT lekérdezés határozza meg. Ha más neveket szeretnénk, az első SELECT-ben kell alias-okat (AS kulcsszóval) használni.

Teljesítmény, optimalizálás és egyéb megfontolások

A UNION ALL szinte mindig gyorsabb, mint a UNION, mert elkerüli a költséges rendezési és duplikátum-eltávolítási fázist. Egy nagy adathalmazon ez a különbség drámai lehet, és befolyásolhatja az alkalmazás felhasználói élményét és az adatbázis terhelését.

Mikor érdemes manuális duplikátum-szűrést fontolóra venni?

Előfordulhat, hogy UNION ALL-t szeretnél használni a teljesítmény miatt, de mégis szükséged van egyedi sorokra. Ebben az esetben a következő stratégiákat alkalmazhatod:

DISTINCT utólagos alkalmazása:
```
SELECT DISTINCT ugyfel_nev, email_cim
FROM (
    SELECT ugyfel_nev, email_cim FROM WebshopUgyfelek
    UNION ALL
    SELECT ugyfel_nev, email_cim FROM BoltiUgyfelek
) AS KombinaltUgyfelek;
        
```
Ez a módszer először gyorsan összefűzi az adatokat az UNION ALL-lal, majd az eredményhalmazból a külső SELECT DISTINCT szűri ki az egyedi sorokat. Ez bizonyos esetekben gyorsabb lehet, mint a natív UNION, mert a duplikátum-szűrés a már konszolidált adathalmazon történik. A tényleges teljesítmény a konkrét adatmennyiségtől és az adatbázis-kezelő optimalizálási stratégiájától függ.
GROUP BY utólagos alkalmazása:
```
SELECT ugyfel_nev, email_cim
FROM (
    SELECT ugyfel_nev, email_cim FROM WebshopUgyfelek
    UNION ALL
    SELECT ugyfel_nev, email_cim FROM BoltiUgyfelek
) AS KombinaltUgyfelek
GROUP BY ugyfel_nev, email_cim;
        
```
A GROUP BY hasonlóan működik, mint a DISTINCT, abban az értelemben, hogy egyedi sorokat eredményez a megadott oszlopok kombinációja alapján. Ha további aggregációra (pl. COUNT(), SUM()) is szükséged van az egyedi sorok mellett, a GROUP BY a jobb választás.

`ORDER BY` és `LIMIT`/`TOP` használata

Fontos tudni, hogy az ORDER BY (rendezés) és a LIMIT (vagy TOP) záradékok általában a teljes, kombinált eredményhalmazra vonatkoznak, és az utolsó SELECT utasítás után kell őket elhelyezni. Ha egyedi ORDER BY-ra van szükséged az egyes részeken, azt az al-lekérdezéseken belül kell elvégezni, de ez nem garantálja a végső sorrendet a UNION után.


SELECT ugyfel_nev, email_cim FROM WebshopUgyfelek
UNION ALL
SELECT ugyfel_nev, email_cim FROM BoltiUgyfelek
ORDER BY ugyfel_nev; -- A teljes eredményt rendezi

Indexek szerepe

Bár az indexek gyorsítják az egyes SELECT lekérdezések végrehajtását, közvetlenül nem befolyásolják a UNION vagy UNION ALL művelet duplikátum-szűrési vagy összefűzési fázisát. Azonban az al-lekérdezések gyorsabb befejezése természetesen segíti az egész műveletet.

Összefoglalás és végső gondolatok

A UNION és UNION ALL parancsok elengedhetetlen eszközök az SQL adatkezelésben, lehetővé téve a különböző forrásokból származó adathalmazok hatékony kombinálását. A köztük lévő fő különbség a duplikált sorok kezelésében rejlik, ami alapvetően befolyásolja a lekérdezések teljesítményét és az eredmények pontosságát.

Válaszd a UNION-t, ha garantáltan egyedi sorokra van szükséged, és a duplikátumok eltávolítása elsődleges szempont, még ha ez némi teljesítményveszteséggel is jár.
Válaszd a UNION ALL-t, ha a teljesítmény a legfontosabb, és az ismétlődő sorok megléte nem okoz problémát, vagy éppen azokra is szükséged van az eredményben. Ebben az esetben a manuális duplikátum-szűrés (SELECT DISTINCT vagy GROUP BY) is megfontolandó lehet, ha mégis egyedi eredményt szeretnél kapni.

Mindig gondosan mérlegeld az adataid természetét és a konkrét üzleti igényeket, mielőtt eldöntöd, melyik operátort használod. A megfelelő választással optimalizálhatod az SQL lekérdezéseid teljesítményét és biztosíthatod az adatok integritását.