česky english
Dnes je Neděle, 20. květen 2012 a svátek má Zbyšek

DSM 2008/3 - PR sgi

sgi_1Služby a data s trvalou dostupností

 

Každý úspěšný podnik zná důležitost zabezpečení svých kritických dat. Dnes už ale nejde jen o zabezpečení dat. Uživatelé také potřebují trvalý přístup k těmto datům. IT oddělení proto hledají způsob, jak zajistit trvalou dostupnost služeb a dat a to kdykoliv a odkudkoliv.

 

Životní pojištění, zdravotní pojištění nebo pojištění majetku proti živelným katastrofám apod. se stalo běžnou součástí našeho života. Znamená pro nás určitou pojistku v těžkých životních situacích. Ale většinou nás zabezpečuje jen proti ekonomickým dopadům. Pro podniky zase může mít velký finanční dopad ztráta nebo nedostupnost kriticky důležitých dat nebo dlouhodobý výpadek služeb IT podporující podnikové procesy. Proto zajištění téměř bezvýpadkového provozu a zkrácení času obnovy na minimum znamená také jistou formu pojištění.

 

Systémy zajišťující nepřetržitost podnikových procesů musí splňovat následující kritéria:
aplikace funkční po 24 hodin, 7 dní v týdnu;
 přidání storage nebo serveru za běhu systému;
 minimální nutnost plánovaných odstávek provozu;
 zabezpečení proti neplánovaným výpadkům provozu (závady, viry, uživatelské chyby);
 v případě potřeby okamžitá obnova dat;
 schopnost obnovy provozu po katastrofě ze vzdáleného záložního systému.

 

Aby systém splňoval tato kritéria a nepodléhal omezením při rozšiřování a modernizaci hardwaru, musí být splnění kritérií dotaženo ve všech vrstvách technické realizace pro dosažení celkové garance nulového výpadku.

 

Podíváme-li se například na zabezpečení uložení dat na discích, využívá se pro ochranu dat proti závadě na disku některé úrovně systému RAID, zpravidla úrovně RAID10, RAID5 nebo RAID6. Díky této formě zabezpečení je zajištěno, že výpadek jednotlivého disku nezpůsobí výpadek celého systému a že řešení na této úrovni je dostatečné. Takto je možné pohlížet na všechny redundantní hardwarové komponenty, které se instalují jako zabezpečení proti výpadku těch základních. Stejně tak je ale potřeba pohlížet na vlastní hardwarová zařízení jako jsou disková pole, servery, technická infrastruktura a v neposlední řadě také na dostupnost místa vlastního datového centra. V případě výpadku diskového pole by se servery ocitly bez vlastních datových zdrojů a došlo by tak k výpadku celého systému. V případě výpadku serverů by zase došlo k výpadku jimi poskytovaných služeb uživatelům. Pravděpodobnost výpadku celého centra je sice nízká (i když i o tom se dá polemizovat, viz časté případy překopnutých vedení při provádění stavebních prací), zato však s katastrofálními důsledky. Jakákoliv redundance však s sebou nese také vyšší náklady. To nás může vést k řadě otázek, jak navrhnout co nejefektivnější zabezpečení, které bude nejlépe odpovídat našim potřebám a nebude zbytečně plýtvat vynaloženými prostředky.

 

Musí být záložní strana fyzickým obrazem primární? Všechny aplikace nejsou vždy stejně „kritické“. A také výkon poskytovaný záložním řešením nemusí pokrývat 100 % provozní zátěže. Cílem vytvoření záložního systému je v krátkém čase obnovení dočasného provozu v záložní lokalitě, odstranění závady a co možná nejrychlejší znovuzprovoznění primární strany.

 

Musí být stejný storage systém na obou stranách? Pro zajištění replikace dat mezi storage systémy už dnes hardware nemusí být identický. Řada dodavatelů nabízí software umožňující replikaci dat mezi heterogenními storage zařízeními zapojených do storage klastru. Navíc v takovém případě ani není nutnou podmínkou stejně výkonný storage systém v záložní lokalitě.

 

Jak daleko by měla být záložní lokalita? Příklady přírodních katastrof ukazují, že malá vzdálenost neskýtá dostatečnou ochranu. Asynchronní zrcadlení umožňuje přenášet data na neomezené vzdálenosti. Navíc může pracovat i s přenosovými linkami nízké kapacity. Oproti tomu synchronní replikace vyžaduje FC linky s limitem vzdálenosti nejvýše desítek kilometrů.

 

Je vybudování záložního centra v jiné lokalitě ochranou jen proti fyzickému zničení primární lokality? Až 93 % problémů způsobí logická chyba (viry, chybná smazání, porušení dat). Nejobvyklejším a nejefektivnějším způsobem zabezpečení proti logickým chybám je používání snímků (snapshots). Řada dodavatelů dnes nabízí snímky s nízkou kapacitou, které zaberou jen datový prostor postačující pro záznam změn po předchozím snímku. Tyto snímky mohou být použity k obnově během vteřin. Eliminují potřebu dlouhého času obnovy tradičním způsobem zálohování.

sgi_2

Je možné používat záložní lokalitu v době bezporuchového provozu, kdy pouze probíhá replikace dat mezi lokalitami? Ano. Jinak by to bylo neskutečné plýtvání zdroji a finančními prostředky. Pásky se zálohami bývají velmi často přesouvány do vzdálených lokalit, například právě do záložních. Je tedy možné přesunout do záložní lokality celé procesy zálohování a zálohování provádět rovnou na místě. Primární strana naopak může obsahovat zálohovací řešení jako záložní. Jiným příkladem využití záložní lokality je provádění výkonnostního testování, např. nových verzí systému před nasazením na primární straně.

 

Poskytuje synchronní zrcadlení lepší ochranu než asynchronní? Obě řešení mají své výhody a nevýhody a co je „lepší“ závisí na tom, co má být vyřešeno. V prostředí synchronního zrcadlení je v každém okamžiku, kdy se aplikace pokouší zapsat data na disk, transakce odeslána na lokální i vzdálená storage zařízení současně. Transakce není kompletní, dokud zápis na disky všech zařízení nebyl potvrzen. Jinými slovy, aplikace, která iniciovala zápis, musí čekat, dokud neobdrží potvrzení o uložení dat na disky všech zařízení, a teprve potom může pokračovat ve zpracování dalšího úkolu. Při tomto typu zrcadlení nemůže dojít ke ztrátě dat, ale z pohledu výkonu je zřejmé, že snižuje rychlost zpracování transakce zápisu. To má samozřejmě dopad i na cenu řešení, protože synchronní replikace vyžaduje rychlejší a propustnější zařízení, aby byl výkon akceptovatelný. V prostředí asynchronního zrcadlení je zápis transakce potvrzen, jakmile lokální zařízení dokončí požadavek, ačkoliv vzdálený systém ho ještě nezpracoval nebo dokonce ani nepřijal. U asynchronního přístupu je výkon téměř identický jako u systému, kde neprobíhá zrcadlení na vzdálené zařízení.

 

Při návrhu řešení požadavku na zajištění business continuity je potřeba zvažovat mnohé faktory a dílčí požadavky. Společnost SGI využívá ve svých realizacích různá řešení, která spolu s otevřenými a flexibilními serverovými systémy Altix a storage systémy InfiniteStorage nejlépe vyhovují potřebám konkrétní realizace. Jedním z těchto řešení je využívání snapshotů zrcadlených datových objemů, které je založeno na technologii LSI StoreAge. Tato technologie slučuje platformově nezávislé, „any-to-any“, asynchronní zrcadlení snapshotů malých objemů k zabezpečení integrity dat mezi lokalitami a umožňuje tak rychlou obnovu po havárii. Princip je zobrazen na obr. 1. Kumulativní snímek produkčních dat, která byla změněna v době od posledního snímkování, je po uplynutí uživatelsky definovaného časového intervalu zmrazen a obsah snímku je přenesen (zrcadlen) do ostatních lokalit. Po zmrazení snímku je automaticky vytvořen nový prázdný snímek a proces kumulace nových změn dat se opakuje a zapisuje do tohoto nového snímku. Tímto způsobem je zajištěno, aby byla stejná kopie dat na všech místech v definovaném čase.

 

Oddělení fyzických diskových objemů od logiky prezentace diskových objemů přináší serverům a souvisejícím službám vedle trvalé dostupnosti i další výhody. Jednou z nich je například možnost migrace dat mezi dvěma diskovými systémy bez nutnosti zastavení nebo restartu aplikace nebo možnost zrcadlení dat na disková pole různých výrobců a značek. Další výhodou je například možnost automatické kontinuální replikace ukládaných dat mimo primární datové centrum pro potřeby vyšší míry jejich zabezpečení. Jednou z největších výhod výše popsaného řešení zrcadlení snapshotů s malým objemem je možnost využití stejných snapshotů také pro další účely. Jelikož každý snapshot představuje samostatnou read/write kapacitu a je trvale dostupný pro použití, mohou být využity pro zálohování s nulovou odstávkou, nedestruktivní testování aplikací nad vzorkem dat, vytváření datového zdroje pro data warehousing a jiné kritické úlohy, přičemž mohou být pro tyto účely využívány i záložní systémy v záložních lokalitách. Navrhovaný systém je tak schopen s nízkými náklady vyřešit i požadavky disaster recovery a business continuity v případě výpadku kompletního datového centra.

 

Petr Siblík
petrs(zavinac)sgi.com

 




Publikováno: 26. 09. 2008

 
TATE International s.r.o.
Hořejší nábřeží 21
150 00 Praha 5

Tel: 257 920 319-20
Fax: 257 313 695
e-mail dsm@dsm.tate.cz
DSM je odborný čtvrtletník zaměřený na problematiku informační bezpečnosti a ochrany dat. Jeho posláním je přinášet čtenářům aktuální přehled informací a vývojových trendů v širších souvislostech legislativních, sociálních, metodologických a technologických. Časopis vychází od roku 1997 a od roku 1998 je recenzovaným časopisem.
tvorba www stránek emocio