Led 27

Konverze HTML stránky do formátu .pdf v Arch Linuxu

V dnešním článku se zaměříme na nepříliš používanou oblast převodu stránky v jazyce HTML do v současnosti velmi rozšířeného formátu dokumentů .pdf. Ne, že by to bylo k práci s počítačem kdovíjak důležité, ale někdy se to hodit může.

Nejprve tedy trocha teorie z Wikipedie:

HyperText Markup Language (zkratka HTML) je v informatice název značkovacího jazyka používaného pro tvorbu webových stránek, které jsou propojeny hypertextovými odkazy. HTML je hlavním z jazyků pro vytváření stránek v systému World Wide Web, který umožňuje publikaci dokumentů na Internetu.

PDF (zkratka anglického názvu Portable Document Format – Přenosný formát dokumentů) je souborový formát vyvinutý firmou Adobe pro ukládání dokumentů nezávisle na softwaru i hardwaru, na kterém byly pořízeny. Soubor typu PDF může obsahovat text i obrázky, přičemž tento formát zajišťuje, že se libovolný dokument na všech zařízeních zobrazí stejně. Vytvářet PDF dokumenty lze jak v komerčním softwaru Acrobat od Adobe, tak v dalších programech (často však pouze jako export do PDF). Prohlížení je snazší, existují volně dostupné prohlížeče pro mnoho platforem. Nejznámějším je oficiální prohlížeč mateřské firmy Adobe Reader. Některé aktivní typy obsahu (jako například interaktivní formuláře, 3D grafika, videa, zvuk) nejsou v mnohých PDF prohlížečích podporované. PDF soubory mají příponu .pdf popřípadě .PDF. PDF je otevřeným standardem a je snadno přenositelný (jeho reprodukce je nezávislá na použitém softwaru i hardwaru), i proto je velice rozšířený a hojně využívaný.

Tolik suchá fakta. I z nich tak nějak vyplývá, že potřebujeme-li někdy rychle rozšířit či představit webovou stránku, je vhodné jí převést právě do formátu dokumentů .pdf. A jak tedy na to v naší linuxové distribuci Arch Linux? Poměrně jednoduše, stačí použít nástroj příkazové řádky s názvem wkhtmltopdf. Název je to krkolomný, ale ubezpečuji vás, že práce s ním je velmi jednoduchá, až triviální. Pro odpůrce příkazové řádky mám také dobrou správu. Pro stejnou činnost existuje i program s GUI rozhraním s názvem html2pdf. Obě aplikace si teď probereme podrobněji.

wkhtmltopdf

wkhtmltopdf a wkhtmltoimage (je jeho součástí) je open source (licence LGPLv3) nástroj příkazového řádku pro konverzi stránek v jazyce HTML do formátu PDF a do různých obrázkových formátů pomocí renderovacího enginu Qt WebKit. oba nástroje běží zcela “bezprizorně”, nevyžadují zobrazování ani nezatěžují žádnou ze spuštěných služeb.

Instalace

Instalace aplikace je také jednoduchá. V terminálu zadejte příkaz:

$ sudo pacman -S wkhtmltopdf

Použití

Jako příklad uvedu náš web. Pro vaší potřebu si zadejte svou URL. Pro převod z HTML do PDF zadejte příkaz:

$ wkhtmltopdf https://arch-linux.cz arch-linux.pdf

 

Výsledek:

 

Převod z HTML do obrázku daného formátu:

$ wkhtmltoimage https://arch-linux.cz arch-linux.jpeg

 

Výsledek:

 

Tolik o nástroji příkazové řádky, teď se vrhneme na nástroj s GUI rozhraním.

html2pdf

Jedná se o aplikaci s klasickým zobrazením okna grafického rozhraní. Pro instalaci z AUR zadejte v terminálu příkaz:

$ yaourt -S html2pdf

Rozhraní je naprosto jednoduché intuitivní a praktické. Myslím, že k němu není co dodat.

 

V obou případech se může stát, že konverze formátu bude nějakou chvilku trvat nebo že bude rozdělena do více stran výstupního dokumentu. Záleží to na konfiguraci vašeho počítače či na objemu dat na dané stránce umístěných.

Obě utilitky nejsou nic světoborného, ale i přesto někomu mohou pomoci a určitě k práci s počítačem patří.

 

2 comments

  1. Firefox 58.0 GNU/Linux x64

    Musím povedať, že po odskúšaní obidvoch programov som trošku sklamaný. Ten program v príkazovom riadku fungoval celkom dobre, akurát mi tam pridal na začiatok nejaký text o starej verzii použitého prehliadača, čo však nie je pravda, pretože používam najnovšiu verziu Firefoxu. A čo sa týka programu htlmtopdf tak tam to bolo ešte horšie. Testovaciu stránku refurbished.sk rozsekal na 29 stránok, ktoré boli prevažne prázdne a aj samotný program aj keď sa pýši verziou 1.0, tak zobrazené ikony boli zobrazené ako button1, button3 a button5 a nie názvami funkcií. Proste nedorobok, či už prostredie alebo aj funkčnosť.

  2. Vivaldi 1.95.1064.3 GNU/Linux x64

    Mně to až tak hrozné nepřijde, náš web to v .pdf zobrazovalo celkem korektně, Google a Seznam také. Pravdou je, že jsem jich víc nezkoušel.

Napsat komentář

Your email address will not be published.

%d blogerům se to líbí: