Facile dire conserviamo i documenti, ma quali documenti?
aprile 30, 2010 2 commenti
Come accenntato nell’articolo precedente, il responsabile della conservazione (RCS) deve preoccuparsi che il documento sia leggibile nel tempo.
Dovendo implementare un sistema opensource a norma mi sono chiesto: quali documenti conserviamo? Quali documenti sono più semplici da firmare? Quali documenti saranno leggibili tra 20 anni?
La risposta a queste domande non è affatto semplice, ve lo garantisco.
- Prima considerazione: conservare i documenti al solo scopo di eliminare la carta, non dà un valore aggiunto.
E’ vero che (a lungo termine) il risparmio di spazio corrisponde a risparmio di denaro, ma il grosso problema è il cambio delle abitudini degli utenti. Una piccola impresa, che archivia una quantità limitata di carta, difficilmente passerà ad un sistema di conservazione esclusivamente per il risparmio di spazio! Il valore aggiunto sta nei metadati, questi danno la possibilità di eseguire ricerche ed alaborazioni sull’archivio.
- Seconda considerazione: se per effettuare la firma digitale devo produrre un’altro file (es. xml di metadati) raddoppiano i file da conservare.
Non tutti i formati prevedono la possibilità di aggiungere i cosiddetti metadati (ad esmepio un semplice file di testo – .txt), questo implica che la firma di alcuni tipi di files deve essere esterna (un file separato).
- Terza ed ultima considerazione: l’acqua calda l’hanno già inventata, non sprechiamo tempo (e denaro) a reinventarla.
A cosa mi riferisco? Esistono standard creati da gruppi dedicati, il loro unico scopo è pensare e realizzare questo tipo di sistemi. Nel Settembre del 2005 la International Organization for Standardization (ISO) ha approvato il nuovo PDF/A standard per l’archiviazione di documenti elettronici. Secondo lo standard ISO 19005-1, PDF/A e’ un derivativo di PDF che “fornisce un meccanismo per la rappresentazione di documenti elettronici in maniera tale da preservarne l’apparenza visiva con il passare del tempo, indipendente dagli strumenti e sistemi usati per la creazione, memorizzazione e resa dei file“.
Peccato che il formato PDF/A non preveda metadati liberi!!!
Quindi?
Essere astratti a volte è deleterio, consideriamo un po’ di casi reali.
- Il documento è mio, l’ho scritto con un sistema di “videoscrittura” (word o similari, tanto per capirci).
Questo è un caso semplice, i modi per tradurre questo documento sono diversi. Visto che il nostro strumento di DMS è alfresco, è questo (un’estensione sinekarta in realtà) a fare tuttto : convertire il documento in PDF/A, firmarlo eapporreil riferimentotemporalmente). Il contenuto di questo documento PDF sarà “leggibile” anche da alfresco che permetterà di eseguire ricerche ed elaborazioni su di esso (sia sul testo contenuto che sui metadati).
- Il documento NON è mio, mi è arrivato via e-mail ma è un sorgente (un word – .doc – o similari creato da qualcun’altro).
Questo caso rientra esattamente nel caso precedente, la conversione in PDF a partire dal sorgente genera un PDF “leggibile” da software, quindi si possono eseguire ricerche ed elaborazioni.
- Il documento NON è mio, mi è arrivato via mail : è un’immagine
Questo caso non lo prenderei neanche in considerazione, chimate il fornitore e fatevi mandare un formato che abbia senso!!! Se il fornitore non può farlo cambiate fornitore oppure rientrate nel caso successivo.
- Il documento NON è mio, mi è arrivato via Fax, posta o consegna manuale
Questo caso è il caso che ci farà maggiormente penare… E’ necessario prendere il documento, scannerizzarlo (vedi accademia della crusca) e tradurlo in PDF/A. Sembra facile…. ma non lo è affatto! Perchè? Perchè gli scanner restitutiscono delle immagini! Anche quelli costosi che restituiscono dei PDF, in realtà inseriscono nei PDF delle immagini.
Le immagini (o i PDF che contengono immagini) non sono leggibili (facilmente) da software, quindi i contenuti di questi files non possono essere elaborati nè interpretati per le ricerche.
Come fare? Per risolvere questo problema sono nati degli algoritmi appositi, vengono chiamati OCR (Optical Character Recognition) ovvero dei software che leggono l’immagine (pixel per pixel) e la convertono in testo.
Tutto facile (si fa per dire) se l’immagine è chiara e pulita, ed in Italiano, ma cosa succede se il documento originale aveva una striscia di Nutella fatta da mio figlio? Che succede se il documento mi arriva da un cliente (o fornitore) cinese ed ha il nome dell’azienda scritto con degli ideogrammi? Che succede se il foglio originale era stropicciato, se il fax era venuto male, se la stampa era fatta a colori e non in bianco e nero, se chi ha scritto il documento ha usato un font strano, se, ma però…..
I software di OCR sono abbastanza affidabili nei casi semplici, per i casi complicati è più bravo un bambino di 1° elementare!
Questo caso non ha una soluzione perfetta! E’ necessario limitare i danni. Come? Scanneriziamo il documento per ottenerne un’immagine e tradurla in PDF/A, nel frattempo viene fatto passare un algoritmo OCR che tenta di leggere (come può) il documento e salviamo come metadati il contenuto letto dall’OCR.
Alfresco ci permette di salvare insieme al documento tutti i metadati che vogliamo, l’estensione sinekarta si preoccuperà di allegare il risultato dell’OCR come metadato del documento.
E se il documento è composto di centinaia di pagine? Qualsiasi idea migliore è bene accetta!!!
- Il documento è mio, ma è un vecchio documento cartaceo
Inutile dirlo…. questo caso rientra nel caso precedente, il documento dovrà essere scannerizzato!
- Il documento NON è mio, mi è arrivato via mail, è un PDF
In questo caso è necessario capire che tipo di PDF ci è arrivato.Se il PDF è “leggibile” da software, basterà convertire il documento il PDF/A (ma non è così facile, ci sarà da penare!) e proseguire con la normale conservazione. Se il PDF non è “leggibile” perchè contiene immagini, saremo costretti a trattarlo come un documento cartaceo, quindi OCR.
Ultima nota! Il mio caso reale (sono un’impresa individuale artigiana, una micro-impresa insomma) consiste nell’avere uno scanner comperato al centro commerciale per pochi soldi. Questo scanner mi permette di digitalizzare una pagina alla volta, un documento di 10 pagine, corrisonde quindi a 10 files in formato TIFF. Mi sono rifiutato di salvare nel mio DMS 10 files per un’unico documento, ho preferito convertire i 10 TIFF in un’unico TIFF (il formato TIFF è multipagina).Quest’unico documento l’ho convertito in PDF e l’ho messo nel mio alfresco.