Facile dire conserviamo i documenti, ma quali documenti?


Come accenntato nell’articolo precedente, il responsabile della conservazione (RCS) deve preoccuparsi che il documento sia leggibile nel tempo.

Dovendo implementare un sistema opensource a norma mi sono chiesto: quali documenti conserviamo? Quali documenti sono più semplici da firmare? Quali documenti saranno leggibili tra 20 anni?
La risposta a queste domande non è affatto semplice, ve lo garantisco.

  • Prima considerazione: conservare i documenti al solo scopo di eliminare la carta, non dà un valore aggiunto.

E’ vero che (a lungo termine) il risparmio di spazio corrisponde a risparmio di denaro, ma il grosso problema è il cambio delle abitudini degli utenti. Una piccola impresa, che archivia una quantità limitata di carta, difficilmente passerà ad un sistema di conservazione esclusivamente per il risparmio di spazio! Il valore aggiunto sta nei metadati, questi danno la possibilità di eseguire ricerche ed alaborazioni sull’archivio.

  • Seconda considerazione: se per effettuare la firma digitale devo produrre un’altro file (es. xml di metadati) raddoppiano i file da conservare.

Non tutti i formati prevedono la possibilità di aggiungere i cosiddetti metadati (ad esmepio un semplice file di testo – .txt), questo implica che la firma di alcuni tipi di files deve essere esterna (un file separato).

  • Terza ed ultima considerazione: l’acqua calda l’hanno già inventata, non sprechiamo tempo (e denaro) a reinventarla.

A cosa mi riferisco? Esistono standard creati da gruppi dedicati, il loro unico scopo è pensare e realizzare questo tipo di sistemi. Nel Settembre del 2005 la International Organization for Standardization (ISO) ha approvato il nuovo PDF/A standard per l’archiviazione di documenti elettronici. Secondo lo standard ISO 19005-1, PDF/A e’ un derivativo di PDF che “fornisce un meccanismo per la rappresentazione di documenti elettronici in maniera tale da preservarne l’apparenza visiva con il passare del tempo, indipendente dagli strumenti e sistemi usati per la creazione, memorizzazione e resa dei file“.

Peccato che il formato PDF/A non preveda metadati liberi!!!

Quindi?

Essere astratti a volte è deleterio, consideriamo un po’ di casi reali.

  • Il documento è mio, l’ho scritto con un sistema di “videoscrittura” (word o similari, tanto per capirci).

Questo è un caso semplice, i modi per tradurre questo documento sono diversi. Visto che il nostro strumento di DMS è alfresco, è questo (un’estensione sinekarta in realtà) a fare tuttto : convertire il documento in PDF/A, firmarlo eapporreil riferimentotemporalmente). Il contenuto di questo documento PDF sarà “leggibile” anche da alfresco che permetterà di eseguire ricerche ed elaborazioni su di esso (sia sul testo contenuto che sui metadati).

  • Il documento NON è mio, mi è arrivato via e-mail ma è un sorgente (un word – .doc – o similari creato da qualcun’altro).

Questo caso rientra esattamente nel caso precedente, la conversione in PDF a partire dal sorgente genera un PDF “leggibile” da software, quindi si possono eseguire ricerche ed elaborazioni.

  • Il documento NON è mio, mi è arrivato via mail : è un’immagine

Questo caso non lo prenderei neanche in considerazione, chimate il fornitore e fatevi mandare un formato che abbia senso!!! Se il fornitore non può farlo cambiate fornitore oppure rientrate nel caso successivo.

  • Il documento NON è mio, mi è arrivato via Fax, posta o consegna manuale

Questo caso è il caso che ci farà maggiormente penare… E’ necessario prendere il documento, scannerizzarlo (vedi accademia della crusca) e tradurlo in PDF/A. Sembra facile…. ma non lo è affatto! Perchè? Perchè gli scanner restitutiscono delle immagini! Anche quelli costosi che restituiscono dei PDF, in realtà inseriscono nei PDF delle immagini.
Le immagini (o i PDF che contengono immagini) non sono leggibili (facilmente) da software, quindi i contenuti di questi files non possono essere elaborati nè interpretati per le ricerche.
Come fare? Per risolvere questo problema sono nati degli algoritmi appositi, vengono chiamati OCR (Optical Character Recognition) ovvero dei software che leggono l’immagine (pixel per pixel) e la convertono in testo.
Tutto facile (si fa per dire) se l’immagine è chiara e pulita, ed in Italiano, ma cosa succede se il documento originale aveva una striscia di Nutella fatta da mio figlio? Che succede se il documento mi arriva da un cliente (o fornitore) cinese ed ha il nome dell’azienda scritto con degli ideogrammi? Che succede se il foglio originale era stropicciato, se il fax era venuto male, se la stampa era fatta a colori e non in bianco e nero, se chi ha scritto il documento ha usato un font strano, se, ma però…..
I software di OCR sono abbastanza affidabili nei casi semplici, per i casi complicati è più bravo un bambino di 1° elementare!
Questo caso non ha una soluzione perfetta! E’ necessario limitare i danni. Come? Scanneriziamo il documento per ottenerne un’immagine e tradurla in PDF/A, nel frattempo viene fatto passare un algoritmo OCR che tenta di leggere (come può) il documento e salviamo come metadati il contenuto letto dall’OCR.
Alfresco ci permette di salvare insieme al documento tutti i metadati che vogliamo, l’estensione sinekarta si preoccuperà di allegare il risultato dell’OCR come metadato del documento.
E se il documento è composto di centinaia di pagine? Qualsiasi idea migliore è bene accetta!!!

  • Il documento è mio, ma è un vecchio documento cartaceo

Inutile dirlo…. questo caso rientra nel caso precedente, il documento dovrà essere scannerizzato!

  • Il documento NON è mio, mi è arrivato via mail, è un PDF

In questo caso è necessario capire che tipo di PDF ci è arrivato.Se il PDF è “leggibile” da software, basterà convertire il documento il PDF/A (ma non è così facile, ci sarà da penare!) e proseguire con la normale conservazione. Se il PDF non è “leggibile” perchè contiene immagini, saremo costretti a trattarlo come un documento cartaceo, quindi OCR.

Ultima nota! Il mio caso reale (sono un’impresa individuale artigiana, una micro-impresa insomma) consiste nell’avere uno scanner comperato al centro commerciale per pochi soldi. Questo scanner mi permette di digitalizzare una pagina alla volta, un documento di 10 pagine, corrisonde quindi a 10 files in formato TIFF. Mi sono rifiutato di salvare nel mio DMS 10 files per un’unico documento, ho preferito convertire i 10 TIFF in un’unico TIFF (il formato TIFF è multipagina).Quest’unico documento l’ho convertito in PDF e l’ho messo nel mio alfresco.

Annunci

Il responsabile della conservazione sostitutiva: oneri ed onori


Poco tempo ho fatto “pulizia” in un armadio che non sistemavo da tempo, parecchio tempo.

In un angolo, in fondo in fondo, ho trovato dei veri e propri pezzi di antiquariato, dei floppy disk!!!! Si proprio come questi :

Ovviamente sono andati tutti a finire nel bidone dell’immondizia, sapete perchè? Perchè non avevo un lettore!!! In casa ho 4 computer ma nessuno che abbia il lettore di floppy da 3.5, figuriamoci quelli da 5.25 o addirittura quelli da 8 pollici (ho 40 anni ed in vita mia ne ho visto soltanto 1!!).

In questi giorni (Aprile 2010) sto studiando la normativa di riferimento riguardo la conservazione sostitutiva, in particolare sto approfondendo il ruolo del responsabile della conservazione sostitutiva (da ora in poi solo RCS).

Ho trovato molto utile queso articolo, spiega in modo sintetico il ruolo e le responsabilità dell’RCS, grazie a Silvana Semeraro! Silvana mi scuserà se, da informatico poco burocrate, vado a schematizzare (e riassumere ulteriormente) i punti da lei citati.

Molte delle cose che deve fare l’RCS sono burocratiche, per queste vi rimando alla normativa, vorrei però soffermarmi su quelle tecniche (ho aggiunto nel wiki una pagina con i documenti che si possono trovare in rete), in particolare :

  1. non basta salvare il documento, è necessario avere una descrizione di ciascun documento (il termine tecnico è metadati)
  2. bisogna verificare che il sistema non abbia problemi (tutto funzioni correttamente)
  3. bisogna essere sicuri che non ci siano problemi di sicurezza (che non si possa accedere ai dati se non si è autorizzati)
  4. è necessario verificare la leggibilità effettiva dei documenti conservati (con cadenza periodica non superiore ai 5 anni)

Proprio quest’ultimo punto mi ha fatto venire in mente i vecchi floppy disk. Se avessi un archivio documentale salvato su floppy, oggi non avrei idea di come leggerlo. Ai tempi dell’MSDOS inoltre (parliamo di almeno 15 anni fa) l’editor di testo che andava per la maggiore era wordstar, chi se lo ricorda? – Io non me lo ricordavo, grazie a Federico che mi ha aiutato – Se in un vecchio floppyrecuperassi un documento, avrei 2 problemi : dovrei trovare un lettore di floppy adeguato e dovrei trovare un software che sia in grado di mostrarmi il documento.

Oltre ai problemi di natura tecnica, l’RCS è il “proprietario” della firma digitale utilizzata, è quindi sua responsabilità verificare cheil riferimentotemporale apposto sia buono (quello del momento in cui si applica firma).

L’RCS non è però responsabile del contenuto dei documenti, è responsabile solo della conservazione, e dell’eventuale esibizione, ovvero deve poter mettere a disposizione un documento archiviato se richiesto.

E se qualcosa non va? Le possibilità sono tante, vediamo di riassumere :

1. se i dati vengono “rubati” si “può” incorrere nelle sanzioni previste dalla legge sulla privacy (da 10 a 50 mila euro di multa e fino a 2 anni di carcere, solo in caso di manifestainadeguatezza del trattamento dei dati sensibili)

2. se l’RCS gestisce il sistema di conservazione avvalendosi prevalentemente del proprio lavoro autonomo (questo caso si applica tipicamente alle PMI)

2-a. se l’azienda ha rilavato un’anomalia (senza danno) nel servizio si hanno a disposizione 8 giorni per le richieste di correzione, l’azienda ha comunque 1 anno di garanzia

2-b. se l’azienda ha subito un danno causato dall’RCS (perchè il sistema non funziona o perchè non si riesce a recuperare documenti) l’RCS risponde di tutti i danni

3. se l’RCS subappalta il lavoro ad aziende che forniscono servizi (questo casosi applica tipicamente alle grandi aziende)

3-a. se l’azienda ha rilavato un’anomalia (senza danno) nel servizio si hanno a disposizione 60 giorni per le richieste di correzione, l’azienda ha comunque 2 anni di garanzia

3-b. se l’azienda ha subito un danno causato dall’RCS (perchè il sistema non funziona o perchè non si riesce a recuperare documenti) l’RCS risponde comunque di tutti i danni

La cosa si complica, sia come compiti dell’RCS che come sanzioni, se si aggiunge la fatturazione elettronica, ma di questo parleremo più avanti.

Chiuderei l’articolo con questo esilarante vecchio video riguardante l’ultimo (probabilmente) sistema operativo prima dell’epoca diwindow (e dei sistemi operativi con interfaccia grafica).

Documenti originali NON unici: le fondamenta della normativa


Inizio questo articolo con un ringraziamento a Pierluigi Ridolfi che ha pubblicato questo interessante documento che spiega l’ABC della conservazione sostitutiva.

E’ importantissimo capire il concetto di “documento originale unico” e “documento originale NON unico”; se non si ha chiaro questo concetto non si va da nessuna parte!

Lasciamo temporaneamente da parte l’informatica, facciamo per un attimo finta (ma solo per poco!) che non esista e capiamo la differenza tra i due diversi tipi di documento.

Il codice dell’amministrazione digitale (Capitolo 1) definisce : “i Documenti originali non unici sono quelli per i quali è possibile risalire al loro contenuto attraverso altre scritture o documenti di cui sia obbligatoria la conservazione, anche se in possesso di terzi“. Cosa significa?

Utilizziamo un esempio : l’azienda A stipula un contratto con l’azienda B ; entrambe le aziende hanno in mano una copia del contratto firmata (la buona vecchia firma a penna) . Entrambi i documenti sono originali e validi ad ogni effetto di legge. Di questi contratti possono esserne fatte tante fotocopie ma solo 2 saranno gli originali, quelli con la firma a penna!

Un’altro esempio: se il signor C va dal notaio per fare testamento (lo so, l’esempio non è felice …), metterà la firma su un unico pezzo di carta che verrà “bollato” e controfirmato dal notaio stesso per garantirne l’autenticità. Di questo testamento potranno esserne fatte tante fotocopie, ma solo 1 avrà la firma in originale (quella a penna).

Nel primo caso (il contratto) si parlerà di documento originale NON unico, nel secondo (il testamento) si parlerà di documento originale unico. Tutte le fotocopie che vengono fatte (in entrambi i casi) NON SONO ORIGINALI quindi non valgono nulla, non secondo la legge italiana.

La maggior parte dei documenti trattati da un’azienda (quasi tutti in realtà) sono documenti originali NON unici.

E le fatture????? Non entro nel merito della fatturazione elettronica (non in questo articolo), ci basti sapere che anche le fatture (nonostante non siano firmate) sono documenti non unici: una copia è in mano al fornitore, l’altra è in mano al cliente.

Definito il concetto di “originali”, capiamo come applicarlo nell’ambito informatico ricordandoci anche che, per ora, il progetto sinekarta non tratterà la P.A., ma solo le aziende private.

Evviva! Siamo tornati a parlare di informatica!

La delibera n° 11/2004 del CNIPA definisce che : “la conservazione sostitutiva dei documenti cartacei … BLA, BLA, BLA” troppe citazioni, che noia!

Semplifichiamo : un’azienda che vuole conservare i propri documenti in formato elettronico deve :

  1. Ottenere un’immagine del documento (un .tiff, un .pdf, …)
  2. Apporre sull’immagine ottenutail “riferimento temporale” e la “firma digitale”
  3. Definire il responsabile della conservazione sostitutiva (una persona) che attesti la corretta conservazione e fornisca la firma digitale

Se questi pochi e semplici passi sono fatti secondo quanto indicato dalla normativa, i documenti elettronici avranno la stessa valenza del cartaceo. Ovvero se l’azienda dovesse esibire il documento, per esempio davanti ad un giudice, potrà fornire il formato elettronico (il .tiff o il .pdf del punto 1).

Facile no? Quasi! In effetti questa regola si applica a “quasi” tutti i documenti di un’azienda, restano esclusi i documenti originali unici ed i documenti di “eccezionale valore storico”.

Cosa bisogna fare per conservare un documento originale unico? In questo caso è necessario apporre sul documento un’altroriferimento temporale ed un’altra firma digitale! Quale? Quella del notaio (o pubblico uffiiciale) che certifica l’autenticità del documento originale unico. Non penso che la firma da parte di un pubblico ufficiale sia un processo facilmente automatizzabile nel breve periodo, inoltre questi documenti sono talmente pochi che possono essere conservati in cartaceo.

E i documenti di “eccezionale valore storico”? Se fossi in possesso di un tale documento non lo distruggerei mai!!! Ha sicuramente un valore che è ben superiore al valore indotto dalla dematerializzazione! Anche questi documenti li conserverei in cartaceo.

Conclusione : la scelta più sensata (ed economica) per un’azienda è conservare in elettronico soltanto gli originali NON unici che non hanno un particolare valore storico.

Ecco il primo passo, la direzione è chiara, la strada è lunga e faticosa, ma un passo dopo l’altro arriveremo fino in fondo!


Di cosa sto parlando? di sinekarta, il progetto opensource che implementa conservazione sostitutiva, archiviazione ottica e fatturazione elettronica!

Forse non tutti sanno che la legge italiana consente, già da qualche anno, di eliminare la carta.

Come mai pochissimi lo fanno? Perchè i software che permettono la conservazione sostitutiva sono costosi, le consulenze a riguardo anche di più.

Un fatto è chiaro : la conservazione sostitutiva non è alla portata di tutti, le piccole imprese sono tagliate fuori!

Lo scopo di questo progetto è duplice : da una parte rendere accessibile un buon strumento anche alle piccole imprese, dall’altra condividere le problematiche (analisi, interpretazione della normativa, problemi, soluzioni, …)

Da che parte partire? prima di tutto alcune decisioni già prese :

  1. il nome sinekarta che deriva dal latino sine (senza) e dalla storpiatura della parola (sempre latina) charta, che è diventata karta (e come dice il mio amico Paolo: “le kappa pikkiano sempre duro…”)
  2. le fondamenta del progetto sono alfresco (software opensource di Document Management System) e javasign (software opensource per la firma digitale)
  3. il progetto è in linguaggio java (e come potrebbe essere differente visto il punto precedente????)
  4. la piattaforma di gestione del progetto è sourceforge, tramite il quale è disponibile questo blog, un wiki e tanto altro (maggiori info le trovate sul wiki)

Quali saranno i prossimi passi? Nonostante alcune decisioni siano state prese, prima di partire con il reale sviluppo (questo è quello che ci interessa!!!) manca ancora un passo fondamentale : approfondire!!! La normativa è lunga e (ahimè) noiosa… ma senza avere ben chiaro cosa bisogna fare non penso sia opportuno nemmeno partire.

Di conseguenza i prossimi passi sono : analisi, analisi ed analisi… si studia la normativa, si verificano le funzionalità che mancano per rendere alfresco conforme, si fa un elenco delle funzionalità da implementare.

Quando avremo ben chiaro cosa fare, potremo stabilire insieme un piano dei possibili rilasci.

Nel frattempo ecco un paio di link, giusto per iniziare a capire meglio di cosa si parla :

http://it.wikipedia.org/wiki/Conservazione_sostitutiva

http://www.conservazione-sostitutiva.it/conservazione-sostitutiva/

Il mio impegno, con questo blog, sarà scrivere un post alla settimana per condividere lo stato del progetto.

Ah! dimenticavo! il progetto è opensource, chiunque può partecipare! sul sito di progetto o sul wiki è indicato come.