Alles over de werking van pdf-bestanden

pdf-bestand

Inhoudsopgave

  1. Inleiding
  2. Lees verder op de volgende pagina
Pdf, wat staat voor portable document format, is een bestandsformaat dat is ontwikkeld om documenten onafhankelijk van het gebruikte platform, apparaat of applicatie, te presenteren. Hoe is dit formaat ooit bedacht en hoe werken pdf-bestanden precies?

In de jaren 90 van de vorige eeuw was het concept van het ‘papierloze kantoor’ zeer levendig. Wilde men die droom verwezenlijken dan moest men een makkelijke(r) methode vinden om computerdocumenten met behoud van lay-out en afbeeldingen te delen.

Verschillende softwarebedrijven zagen hier het grote geld in: ze trachtten hun eigen bestandsformaat ingang te doen krijgen en tot een de facto standaard te laten uitgroeien. Het waren de jaren waarin formaten als Common Ground Digital Paper, DjVu, WordPerfect Envoy en Farallon Replica elkaar het licht in de ogen niet gunden. Uiteindelijk is het echter het pdf-formaat van Adobe geworden dat tot een algemeen aanvaarde standaard kon uitgroeien.

Adobe beschikte immers al over twee technologieën die perfect konden worden ingezet voor dit project: enerzijds PostScript, een pdl (page description language) waarmee documenten onafhankelijk van apparaat en platform konden beschreven worden, en anderzijds Adobe Illustrator, een applicatie die zowel op Mac als Windows draaide en PostScript-bestanden kon weergeven. Op basis van deze technologieën creëerden ontwikkelaars binnen Adobe een nieuw bestandsformaat: pdf.

Belangrijke begrippen

Voor we verder gaan, leggen we eerst even enkele belangrijke begrippen uit:

Tagged pdf

Pdf-bestand dat ook structurele meta-informatie bevat over de weergegeven data, zoals titels, tekstblokken, enz. Dat is onder meer handig voor weergaven op ebooks, gezien pdf-bestanden nu makkelijker kunnen worden aangepast met het oog op de diverse apparaattypes.

Adobe extensies

Pdf mag dan een open standaard zijn, het neemt niet weg dat Adobe regelmatig nog enkele ‘gesloten’ oftewel propriëtaire technologieën toevoegt aan pdf, in de vorm van Adobe extensies en met verschillende levels. Iets om rekening mee te houden, want wie deze extensies gebruikt, heeft geen garantie dat iedere pdf-reader daarmee overweg kan.

Pdf/A

Een speciale variant van pdf die specifiek werd ontwikkeld voor archivering en dus met name is geschikt voor het bewaren van digitale documenten. Omdat men ook op langere termijn een zo statisch en consistent mogelijke weergave beoogt, vermijdt men bewust allerlei ‘toeters en bellen’ uit de pdf-standaard, zoals multimediafuncties, scripting en formulieren.

Opbouw van een pdf-bestand

Pdf kun je vooral zien als een geoptimaliseerde subset van PostScript. Niet alleen werden meer complexe programmatorische elementen geweerd, zoals lussen en voorwaardelijke commando’s, bij pdf is het ook niet langer zo dat de beschrijving van de ene pagina de weergave van een volgende pagina kan beïnvloeden. In tegenstelling tot PostScript hoeven bij pdf dus niet noodzakelijk alle voorgaande pagina’s te worden verwerkt om de juiste weergave van een willekeurige pagina vast te stellen. Dat maakt dat je in een pdf-reader snel naar alle pagina’s van een lijvig pdf-document kunt springen.

Naast deze PostScript-subset vind je in een pdf-bestand ook een technologie terug die je toelaat fonts in te bedden, zodat de ontvanger van het document de bedoelde fonts te zien krijgt, ook wanneer die niet op zijn systeem zijn geïnstalleerd.

Al deze informatie wordt dan samen met eventuele bijkomende inhoud op een gestructureerde manier en desgevallend met gebruik van datacompressie in één enkel bestand opgeslagen.

Het is goed om weten dat een pdf-bestand twee verschillende lay-outs kan hebben. Enerzijds zijn er de niet-lineaire of niet-geoptimaliseerde pdf-documenten die weliswaar iets minder schijfruimte vergen maar die zich minder snel laten verwerken gezien allerlei data over het hele pdf-document kunnen verspreid liggen. Anderzijds zijn er de lineaire, geoptimaliseerde pdf’s: die zijn paginagewijs opgebouwd zodat bijvoorbeeld een browserplug-in niet hoeft te wachten tot het volledige bestand is gedownload om de eerste pagina’s te kunnen tonen.

Er bestaan verschillende tools waarmee je pdf-bestanden kunt lineariseren, waaronder het gratis QPDF. Op deze site lees je de nodige instructies voor dit proces. Ook met de virtuele pdf-printer BullZip kun je zulke documenten creëren, maar jammer genoeg lukt dat alleen in de betaalde Professional-editie en niet in de gratis Community-versie.

Open standaard

De eerste versie van pdf (pdf 1.0) werd door in Adobe in 1992 uitgebracht en enkele maanden later volgde Acrobat, een tool waarmee gebruikers makkelijk pdf-bestanden konden bekijken en creëren. Deze pdf-versie kon weliswaar fonts, interne links en bookmarks insluiten, maar gezien alleen de rgb-kleurenruimte werd ondersteund kon de grafische industrie daar weinig mee aanvangen.

Voor de prepress-wereld was het wachten tot versie 1.2 (1996), met ondersteuning voor onder meer cmyk en steunkleuren, en vooral tot de pdf/X-1 specificatie (1998), gezien die meer garanties inbouwde voor een geldige opmaak.

pdf-bestand

Tegen het einde van vorige eeuw was pdf – intussen aan versie 1.3 toe - stilaan tot een de facto standaard uitgegroeid en meer dan 100 miljoen gebruikers hadden intussen ook Acrobat Reader gedownload. Daaropvolgende versies boden geleidelijk aan meer functionaliteit: zo ondersteunde 1.4 ook ‘tagged pdf’s’ (zie begrippenkader) en kon 1.5 eindelijk ook met lagen (layers) overweg. Het is echter wachten tot versie 1.7, in 2008, voor pdf een officiële, ISO-standaard wordt (ISO 32000-1).

Recentelijk, in juli 2017, heeft het ISO-comité trouwens de specificaties van pdf 2.0 (ISO 32000-2) vrijgegeven. Wie zich hierin wil verdiepen kan terecht op www.bit.ly/2yatoMa, goed voor bijna 1000 pagina’s. Hiermee wil het comité het pdf-formaat vooral veiliger en toegankelijker maken en verder ook allerlei ‘rich media’ beter ondersteunen, zoals 3D, video en geospatiale data.

Geschreven door: Toon van Daele op

Category: Nieuws, Office

Tags: standaard, pdf, adobe