# File

*(Sezioni 7.1 e 7.2 del libro di testo)*

Vedremo come scrivere programmi che manipolano file. Un file, per il sistema operativo, è semplicemente una sequenza di byte con un nome associato. Dal punto di vista di come un file è utilizzato, si possono distinguere:
* file binari
* file di testo

I file di testo sono quelli che contengono caratteri, codificati in ASCII o le sue estensioni come Unicode. I file di testo possono essere aperti con un editor di testo quale il *Notepad* di Windows o il *Text Editor* di Linux, o posso essere visualizzati nel terminale (ad esempio con il comando `cat` di Linux). I file binari contengono invece sequenze di byte che non possono essere interpretati in maniera sensata come sequenze di caratteri.

Noi ci occuperemo solo dei file di testo.

Per operare su un file, di solito si seguono i seguenti passi:
* aprire il file
* leggere / scrivere il contenuto
* chiudere il file

Prima di poter eseguire i programmi in questo notebook, è necessario creare tre file chiamati *input.txt*, *input2.txt* e *input3.txt*. Potete eseguere la cella che segue per creare i file (cella che non fa parte propriamente della lezione).

In [2]:
f = open("input.txt", "w")
f.write("23\nciao sono io\n12\n")
f.close()

f = open("input2.txt", "w")
f.write("12\n2\n34\n43\n")
f.close()

f = open("input3.txt", "w")
f.write("Pescara 123 88 10\nChieti 67 23\nTeramo 88 182 4\n")
f.close()

## Lettura di file

La seguente istruzione apre il file `prova.txt` in modalità lettura (la `r` come secondo argomento è l'abbreviazione di `read`). Il risultato è un oggetto di tipo file che noi salviamo nella variabile `f`. Ci servirà dopo perché questo oggetto ha dei metodi che ci consentono di operare sul file. 

In [1]:
f = open("input.txt", "r")

Visualizzare il contenuto di `f` ci dice il nome del file, la modalità con cui è stato aperto (lettura, `r`)  e il set di caratteri usato per la codifica (UTF-8).

In [2]:
f

<_io.TextIOWrapper name='input.txt' mode='r' encoding='UTF-8'>

Uno dei metodi che si possono chiamare sull'oggetto `f` è `readline()`, che legge una riga del file e la restituisce come risultato.

In [3]:
f.readline()

'23\n'

Notare che, anche se si tratta di un numero, in maniera simile alla funzione `input` il risultato è comunque una stringa. Inoltre, l'ultimo carattere della stringa è la sequenza di escape `\n` che rappresenta il carattere di andata a capo (codice ASCII 10).

In [4]:
f.readline()

'ciao sono io\n'

In [5]:
f.readline()

'12\n'

Quando il file è terminato, ogni uteriore chiamata del metodo `readline` restituirà una stringa vuota.

In [6]:
f.readline()

''

Una volta che abbiamo letto il file possiamo chiuderlo con metodo `close()`.

In [7]:
f.close()

Finché un file è aperto, il sistema operativo deve tenere in memoria delle strutture dati per la sua gestione. Pertanto, sempre meglio chiudere un file appena non si usa. Se ci si dimentica di chiuderlo, normalmente viene chiuso automaticamente quando il programma termina. Tuttavia, con alcune implementazioni di Python, se il file è aperto in scrittura, si potrebbero anche perdere le modifiche effettuate.

Una volta che il file è chiuso, ulteriori tentativi di lettura generano un errore.

In [8]:
f.readline()

ValueError: I/O operation on closed file.

Proviamo ora a scrivere una funzione che legge un file costituito da tante righe contenenti numeri, fa la somma di queste righe e restituisce il risultato della somma. Si tratta di chiamare ripetutamente il metodo `readline` finché non c'è più niente da leggere. Sappiamo che ci sono varie strategie per gli input ripetuti, noi useremo la strategia denominata *con lettura di preparazione*.

In [24]:
def somma_file(filename):
    f = open(filename, "r")
    somma = 0
    # legge la prima riga
    linea = f.readline()
    while linea != "":
        # elabora la linea
        somma += int(linea)
        # leggo nuova riga
        linea = f.readline()
    f.close()
    return somma

Ad esempio:

In [25]:
somma_file("input2.txt")

91

## Scrittura di un file

Per scrivere un file:
* il file va aperto in modalità scrittura, usando la stringa "w" (per write) come secondo parametro;
* si può usare il metodo `write` invece di readline per scrivere una stringa dentro al file.

Il seguente programma scrive sul file `out.txt` il seguente contenuto:
```text
Ciao
mi chiamo Gianluca
```

In [None]:
pippo = open("out.txt", "w")
pippo.write("Ciao\n")
pippo.write("mi chiamo Gianluca\n")
pippo.close()

Notare che se il file esiste già, viene svuotato come prima cosa. Se vogliamo che le nostre scritte si aggiungano in fondo ad un file, dovremo usare "a" (append) come metodo di apertura invece di "w". 

Il metodo `write` è abbastanza primitivo, per cui è spesso più conveniente usare la funzione `print`. Sebbene normalmente `print` stampa sullo schermo, è possibile dirle di mandare l'output su un fiile tramite l'opzione `file=`. Ade esempio, il seguente programma ha lo stesso risultato del precedente:


In [12]:
pippo = open("out.txt", "w")
print("Ciao", file=pippo)
print("mi chiamo Gianluca", file=pippo)
pippo.close()

Notare che `print`, come sempre, va a capo ogni volta, per cui non c'è bisogno di specificare manualmente il "\n" nella stringa.

Supponiamo di voler riprendere il programma dell'esempio precedente ma ora, oltre a calcolare la somma, vogliamo che il nostro programma generi un file di output che contenga:
* gli stessi numeri del file in input, allineati a destra
* una sequenza di simboli meno
* la somma dei numeri

Ad esempio, se l'input è il file
```text
2
3
10
9
```
il file di output dovrà contenere qualcosa come
```text
    2
    3
   10
    9
------
   24
```
Potremmo scrivere anche questa volta tutto sotto forma di funzione, ma tanto per cambiare facciamo senza.

In [28]:
infile = open("input2.txt", "r")
outfile = open("out2.txt", "w")
somma = 0
# leggo prima riga
linea = infile.readline()
while linea != "":
    # converto in intero la linea
    n = int(linea)
    # scrivo il numero allineato nel file di output
    print(f"{n:8}",file=outfile)
    # aggiorno la somma
    somma += n
    # leggo nuova riga
    linea = infile.readline()
infile.close()
print("------------", file=outfile)
print(f"{somma:8}", file=outfile)
outfile.close()

### Domanda di uno studente (approfondimenti)

Supponiamo di volere perfezionare il programma in modo da scrivere un simbolo `+` a destra di ogni numero, tranne che a destra dell'ultimo numero letto in input a destra del quale va il carattere `=`. Notare che al momento in cui il numero `n` viene visualizzato, non sappiamo ancora se è l'ultimo oppure no, e se quindi andrà seguito da un `+` o un `=`. Per questo, la scrittura di  `+` e  `=` va posticipata fino a che non abbiamo letto la riga successiva.

Questo è il programma che implementa la modifica. Notare che abbiamo deciso di usare il metodo `write` invece di `print`, semplicemnte a scopo illustrativo.

In [29]:
infile = open("input2.txt", "r")
outfile = open("out2.txt", "w")
somma = 0
# leggo prima riga
linea = infile.readline()
while linea != "":
    # converto in intero la linea
    n = int(linea)
    # scrivo il numero allineato nel file di output (senza andata a capo)
    outfile.write(f"{n:8}")
    # aggiorno la somma
    somma += n
    # leggo nuova riga
    linea = infile.readline()
    # aggiungo carattere + o = e vado a capo
    outfile.write(" =\n" if linea == "" else " +\n")
infile.close()
outfile.write("------------\n")
outfile.write(f"{somma:8}\n")
outfile.close()

## Leggere i file con un for

Invece di leggere le righe di un file esplicitamente con il metodo `readline`, si può sfruttare il fatto che un file in Python è un tipo iterabile: vuol dire che può essere messo dentro una istruzione `for`, in maniera analoga alle stringhe, le liste e i range. Scrivere
```python
for l in f:
    # fa qualcosa
```
esegue il corpo del `for` tante volte, una per ogni linea del file `f` che viene copiata di volta in volta nella variabile `l`. Ad esempio, la funzione di prima che calcola la somma dei numeri in `input2.txt` può essere riscritto come segue.

In [None]:
def somma_file2(filename):
    f = open(filename, "r")
    somma = 0
    for linea in f:
        somma += int(linea)
    f.close()
    return somma

somma_file2("input2.txt")

91

### Domanda di uno studente (approfondimento)

Riprendiamo il problema di prima, quello di prendere i dati in input da un file, e produrre in output un altro file con i dati formattati, i totali, e i segni + o = a destra di ogni numero. Se proviamo a rifarlo utilizzando il `for` per leggere le linee dal file invece che il `while`, notiamo che la cosa è un po' complicata, più che altro per la necessità di distinguere il caso in cui mettere il `+` e il caso in cui mettere il simbolo `=`. Il problema è che non possiamo sapere se mettere `+` o `=` finché abbiamo letto la riga successiva, ma nel caso dell'uso del `for` vuol dire che i `+` e `=` finali di una riga vanno inseriti nella iterazione successiva.  Dentro il `for`, quindi, la prima cosa che dovremo fare è aggiungere il `+` per la riga precedente dell'output. Questo però non vale per la prima iterazione del `for`, nella quale non c'è nessuna riga precedente da completare. Per distinguere la prima iterazione dalle altre usiamo la variabile booleana `first`.

In [30]:
infile = open("input2.txt", "r")
outfile = open("out2.txt", "w")
somma = 0
# utilizzata per distinguere la prima iterazione del for dalle successive
first = True
for linea in infile:
    if not first:
        # se non sono alla prima iterazione, scrivo per prima cosa il + e l'andata a capo
        # per la riga precedente dell'output.
        outfile.write("+\n")
    else:
        # altrimenti, se sono alla prima iterazione, non scrivo nulla ma aggiorno la
        # variabile first.
        first = False
    # converto in intero la linea
    n = int(linea)
    # scrivo il numero allineato nel file di output (senza andata a capo)
    outfile.write(f"{n:8} ")
    # aggiorno la somma
    somma += n
infile.close()
# concludo l'ultima riga mettendo l'uguale
outfile.write("=\n")
# scrivo il totale
outfile.write("------------\n")
outfile.write(f"{somma:8}\n")
outfile.close()

Ad ogni modo, questa soluzione è meno leggibile della precedente. La morale di questo esempio è che di solito usare il `for` per leggere un file rende il programma più leggibile, ma non sempre.

## L'istruzione with

Per evitare di dimenticarsi di chiudere un file, Python mette a disposizione l'istruzione `with` che si occupa di chiudere automaticamente un file. La funzione di prima, con l'istruzione `with` diventa:

In [32]:
def somma_file3(filename):
    with open("input2.txt", "r") as f:
        somma = 0
        for linea in f:
            # faccio qualcosa
            somma += int(linea)
    return somma

somma_file3("input2.txt")

91

In pratica, l'istruzione `with` casusa l'esecuzione di `open("input2.txt", "r")`, mettendo il risultato in `f`. Poi viene eseguito tutto il corpo del `with`. Quando il corpo è finito, il file `f` viene chiuso automaticamente.

In realtà, la `with` fa qualcosa in più rispetto alla semplice chiusura automatica, ma per questo dovremo aspettare la prossima lezione sulle eccezioni.

## Elaborare più dati sulla stessa riga

Nell amaggior parte dei casi, una riga di un file non conterrà una singola informazione, ma più informazioni separate da caratteri come spazi e virgole. Per trattare file di questo tipo, facciamo prima una digressione e parliamo del metodo `split` per le string.

Il metodo `split()` prende la stringa a cui è applicato, la divide in sottostringhe separati da spazi, e restituisce le varie sottostringhe sotto forma di una lista di stringhe.

In [None]:
s = "ciao 23     sono   -1"

In [None]:
s.split()

['ciao', '23', 'sono', '-1']

I pezzi che compongo `s`, ovvero `ciao`, `23`, `sono` e `-1` sono stati separati e restituiti sotto forma di una lista.

Può accadere che le informazioni in una riga non siano separati da spazi ma altri caratteri, come le virgole. In tal caso, il carattere separatore può essere indicato come argomento di `split`.

In [None]:
s="23,12,34"

Se provo una semplice `s.split()`, l'intera stringa `23,12,34` viene considerata come una unica componente.

In [None]:
s.split()

['23,12,34']

Se invece fornisco la virgola come parametro, i tre numeri vengono correttamente separati.

In [None]:
s.split(",")

['23', '12', '34']

A questo punto, però, gli spazi non hanno nessun trattamente particolare e sono visti come caratteri veri e propri e non elementi di separazione.

In [None]:
"23, 12, 24".split(",")

['23', ' 12', ' 24']

Si vede come le stringhe risultato di `split` contengono degli spazi.

Vediamo adesso di mettere a buon uso questa funzione `split`. Supponiamo che il nostro file `input3.txt` abbia questa struttura:
```text
Pescara 123 88 10
Chieti 67 23
Teramo 88 182 4
```
e supponiamo di voler produre come output la stessa sequenza di città, ma con accanto un numero ottenuto come somma di tutti i numero nel file di partenza. Dando in input l'esempio di sopra, vorremmo ottenere:
```text
Pescara 221
Chieti 90
Teramo 274
```
Possiamo leggere il file di input una riga alla volta, e usare il metodo `split` per separare le tre colonne.

In [36]:
with open("input3.txt", "r") as f:
    for linea in f:
        # Leggo una linea e la divido
        l = linea.split()
        # Faccio la somma di tutti gli elementi di l dalla posizione 1 in poi (la 0 è il nome della città)
        somma = 0
        for i in range(1, len(l)):
            somma += int(l[i])
        print(l[0], somma)

Pescara 221
Chieti 90
Teramo 274


## Leggere uno o più caratteri alla volta (approfondimento)

Un'alternativa all'uso di `readline` o del `for`  è l'uso del metodo `read`. Il metodo `read()`, se usato senza parametri, legge tutto il file fino alla fine e lo restituisce come una unica stringa. Altrimenti, se viene specificato un numero come parametro, leggerà il numero di caratteri specificato nel parametro.

In [37]:
f = open("input3.txt", "r")

In [38]:
# legge un carattere
f.read(1)

'P'

In [39]:
# legge il carattere successivo
f.read(1)

'e'

In [40]:
# legge i successivi 5 caratteri
f.read(5)

'scara'

In [41]:
# legge tutto fino alla fine
f.read()

' 123 88 10\nChieti 67 23 0\nTeramo 88 182 4\n'

In [42]:
f.close()

Vogliamo usare `read(1)` per leggere un file un carattere alla volta e contare quante volte compare nel file ogni lettera dell'alfabato. Per far ciò userò una lista per contenre i conteggi di tutte le lettere. La posizione `0` della lista conterrà il numero di `A` lette dal file, la posizione `1` il numero di `B` fino alla posizione `25` che contiene il numero di `Z`.

Ci servirà però il modo di convertire una lettera da `A` a `Z` in un numero da 0 a 25 e, viceversa, il modo di convertire un numero da 0 a 25 in una lettera da `A` a `Z`. Per questo possono tornare utili le funzioni predefinite `chr` e `ord`.

La funzione `ord` perende in input un carattere e restituisce il codice Unicode associato carattere (è un intero).

In [None]:
# La lettere A maiuscola ha codice Unicode (e ASCII) 65
ord("A")

65

In [None]:
# La lettere B maiuscola ha codice Unicode (e ASCII) 66
ord("B")

66

La funzione `chr` fa esattamente il contrario: prende un intero e restituisce il carattere che ha il codice Unicode passato come parametro.

In [None]:
# La lettere A maiuscola ha codice Unicode (e ASCII) 65
chr(65)

'A'

Se nella variabile `ch` ho un carattere da `A` a `Z` e voglio convertirlo in un numero da `0` a `25`, mi basta calcolare il codice numerico di `ch` (che va da 65 in poi) e sottrarre 65 (che è il codice della A maiuscola. Questo perché i codici numerici delle lettere maiuscole sono consecutivi. Viceversa, se ho un numero `i` da 0 a 25 e voglio trasformarlo in una lettera da `A` a `Z`, mi basta sommare ad `i` il codice numerico della lettera `A` (65) e passare il tutto alla funzione `chr`.

Siamo pronti per scrivere il programma voluto.

In [43]:
with open("input3.txt") as f:
    # creo la lista che conterrà i conteggi delle 26 lettere
    conteggi = [0] * 26
    # leggo il primo carattere
    ch = f.read(1)
    while ch != "":
        # converto in maiuscolo
        ch = ch.upper()
        # se il carattere è una lettera, ovvero è compreso tra "A" e "Z"
        if "A" <= ch <= "Z":
            # determino l'equivalente numerico di ch
            x =  ord(ch) - ord("A")
            # incremento il conteggio corretto
            conteggi[x] += 1
        # leggo un nuovo carattere
        ch = f.read(1)

# visualizzo ail risultato
for i in range(len(conteggi)):
    # converto l'indice i in una lettera
    ch = chr(i + ord('A'))
    print(ch, conteggi[i])

A 3
B 0
C 2
D 0
E 3
F 0
G 0
H 1
I 2
J 0
K 0
L 0
M 1
N 0
O 1
P 1
Q 0
R 2
S 1
T 2
U 0
V 0
W 0
X 0
Y 0
Z 0
