# Il tipo stringa

Gli argomenti di questo notebook sono trattati nelle sezioni 2.4 e *Special Topic 2.5* del libro di testo.

Le stringhe sono sequenze di caratteri. È possibile scrivere un valore di tipo stringa racchiundendo i caratteri che compongono la sequenza tra virgolette doppie o singole (apici).

In [7]:
"ciao sono io"

'ciao sono io'

In [8]:
'ciao sono io'

'ciao sono io'

Notare che Python visualizza le stringhe sempre tra apici singoli, indipendentemente da come le avete scritte voi.

Un caso particolare è la *stringa vuota*, ovvero quella che non contiene nessun carattere, che si scrive come una coppia di virgolette o apici consecutive.

In [9]:
""

''

Attenzione, la stringa qua sotto non é la stringa vuota: è invece una stringa che contiene uno spazio.

In [10]:
" "

' '

Le stringhe possono essere assegnate a variabili, esattamente come i valori numerici.

In [11]:
s = "ciao"
r = "Gianluca"
s

'ciao'

## Operazioni su stringhe

### Concatenazione

Due stringhe si possono concatenare tramite l'operazione `+`.

In [12]:
"ciao" + "gianluca"

'ciaogianluca'

In [13]:
s + r

'ciaoGianluca'

Se si vogliono inserire spazi, vanno indicati esplicitamente.

In [14]:
s + " " + r

'ciao Gianluca'

### Ripetizione

È possibile concatenare copie ripetute della stessa stringa moltiplicandola per una costante.

In [15]:
"ciao" * 3  # copia 3 volte la stringa "ciao"

'ciaociaociao'

In [16]:
"-" * 50

'--------------------------------------------------'

Funziona anche se il numero sta a sinistra.

In [17]:
50 * "-"

'--------------------------------------------------'

Ovviamente non posso moltiplicare due stringhe tra di loro, non ha senso.

In [18]:
"ciao" * "gianluca"

TypeError: can't multiply sequence by non-int of type 'str'

Come abbiamo già visto per le espressioni arimetiche, le operazioni con le stringhe si possono combinare tra di loro in espressioni complesse. Ad esempio:

In [19]:
"ciao " * 2 + "Gianluca"

'ciao ciao Gianluca'

Notare che, nel risultato, c'è uno spazio dopo `ciao` solo perché lo spazio è gia presente nella espressione.

### Estrazione di caratteri

Data una stringa, è possibile estrarre un singolo carattere. Ogni carattere infatti ha una posizione, che parte da 0. Ricordiamo che la stringa `r`, definita sopra, ha valore `Gianluca`. Quindi il primo carattere, la `G`, è in posizione 0, mentre la `n` è in posizione 3. Per estrarre da una stringa `r` il carattere in posizione `i`, la notazione è `r[i]`.

In [20]:
r[0]

'G'

In [21]:
r[3]

'n'

Si possono mettere anche posizioni negative. In tal caso, `-1` è l'ultima posizione della stringa, `-2` la penultima e così via.

In [22]:
r[-1]

'a'

In [23]:
r[-2]

'c'

Si noti che, a differenza di altri linguaggi come Java o C, il Python non ha un tipo specifico per il singolo carattere: si tratta semplicemente di stringhe di lunghezza 1.

In [24]:
type(r[0])

str

Se tento di estrarre un carattere da una posizione inesistente, ottengo un errore.

In [25]:
r[10]

IndexError: string index out of range

Infine, la stringa a sinistra delle parentesi quadre potrebbe anche non essere una variabile, ma ottenuta in qualunque modo, attraverso operazioni anche complsse.

In [26]:
# Prima si somma "Ciao" e "Gianluca", ottenendo "CiaoGianluca", poi si estrae il carattere in posizione 4 (ovvero il quinto) ovvero "i"
("Ciao" + "Gianluca")[4]

'G'

Vale in generale il principio che **ovunque può andare un valore (numero, intero, stringa, o quant'altro) può andare anche una espressione complicata a piacere**.

### Lunghezza di una stringa

Per *lughezza* di una stringa si intende il numero di caratteri che la compongono. Per calcolare la lunghezza di una stringa si usa la funzione `len`.

In [27]:
len("Gianluca")

8

Ovviamente è poco utile usare la funzione `len` per calcolare la lunghezza di una stringa scritta esplicitamente tra virgolette, perché sappiamo già quanto è lunga. È molto più utile utilizzare `len` per detereminare la lunghezza di una stringa memorizzata in una variabile. Questo perché non è detto che noi sappiamo a priori il contenuto della variabile.

In [29]:
# il risultato è 4 perche AL MOMENTO la variabile s contiene la stringa 'ciao'
len(s)

4

Notare che l'ultima carattere di una stringa `r` ha  posizione `len(r)-1`. Il `-1` è dovuto al fatto che le posizioni delle stringhe partono da zero.

In [30]:
s[len(s)-1] # alternativa ad s[-1]

'o'

### Estrazione di sottostringhe

Invece di estrarre un singolo carattere da una stringa, se ne può estrarre un intero pezzo, chiamato *sottostringa*. Per estrarre una sottostringa dalla string `s`, la notazione è `s[i:j]`. Il risultato è la sottostringa formata prelevando da `s` i caratteri dalla posizione i (inclusa) alla posizione j (**esclusa**).

È molto importante ricordare che la posizione dell'ultimo elemento dell'estrazione è esclusa!!

In [33]:
r[1:5]

'ianl'

Se vogliamo estrarre tutti i caratteri di `r` dala seconda posizione (posizione 1) in poi, possiamo scrivere r[1:8], dove 8 è la lunghezza di `r`. Sebbene la posizione 8 non esista, l'estrazione va a buon fine perché l'estremo destro è escluso dall'estrazione.

In [34]:
r[1:8]

'ianluca'

In realtà, c'è una sintassi speciale per prendere tutti i caratteri da un certa posizione in poi: basta non scrivere niente dopo i due punti.

In [35]:
r[2:]  # Estrae dalla 2° posizione in poi della stringa r

'anluca'

Analogamente, se vogliamo estrarre dalla prima posizione della stringa `r` fino alla posizione `i` (esclusa), invece di scrivere `r[0:i]` possiamo solo scrivere `r[:i]`.

In [36]:
r[:2]

'Gi'

Infine, se non si mette né la posizione di partenza né quelle terminale, viene restituita tutta la stringa.

In [37]:
r[:]

'Gianluca'

Questa cosa è ovviamente abbastanza inutile, si può semplicemente scrivere `r` invece di `r[:]`, ma reincontreremo questa sintassi quando parleremo delle liste.

#### Esercizio R2.13 (variante)

Scrivete un programma Python che legge una parola e ne visualizza il primo carattere, l'ultimo e il carattere centrale. Se, ad esempio, il dato in ingresso è `Harry`, il programma deve visualizzare `H r y`. Se la lunghezza della parola è pari, il programma deve visualizzare il primo dei due caratteri centrali.

##### Soluzione

La cosa che può risultare difficile è capire in che posizione si trova il carattere centrale, e trovare una formula che funzioni sia nel caso la stringa in ingresso abbia lunghezza pari, sia nel caso abbia lunghezza dispari. Con un po' di esperimenti, si può capire che la formula corretta è la parte intera di $\frac{\text{lunghezza stringa} - 1}{2}$.

In [32]:
stringa = input("Immetti una stringa: ")
print("Il primo carattere è", stringa[0])
posizione_centrale = (len(stringa) - 1) // 2
print("Il caratere centrale è", stringa[posizione_centrale])
print("L'ultimo carattere è", stringa[-1]) # in alternativa, posso mettere len(stringa)-1 al posto di -1

Il primo carattere è c
Il caratere centrale è i
L'ultimo carattere è o


Si noti l'uso nella prima riga della funzione `input` ma senza `int`. Questo perché quello che vogliamo leggere questa volta non è un intero ma una stringa. In questi casi, si omette la funzione `int`.

#### Esercizio P2.22

Scrivere un programma che inizializza una variabile di tipo stringa e stampa i primi 3 caratteri, seguiti da tre punti, e quindi gli ultimi tre caratteri. Per esempio, se la stringa è inizializzata con `Mississippi`, allora stampa `Mis...ppi`.

##### Soluzione

In [1]:
s = input("Immetti una stringa: ")
risultato = s[:3] + "..." + s[-3:]
print(risultato)

Mis...ppi


## Sequenze di escape

Dentro le virgolette o gli apici che delimitano una stringa è possibile inserire alcune combinazioni speciali costituite dalla *barra retroversa* `\` seguita da una lettera o un numero. Queste combinazioni di caratteri, dette *sequenze di escape*, sono rimpiazzate da caratteri speciali.

### La sequenza `\n`

 La sequenza `\n`, che abbiamo già visto in lezioni precedenti, è rimpiazzata dal carattere di andata a capo. 

In [2]:
print("Ciao.\nSono io.")

Ciao.
Sono io.


Notare che, quando visualizzo il valore di una stringa da dentro un notebook, senza usare la funzione `print`, la sequenza di escape `\n` viene visualizzata come tale, non viene rimpiazzata da una andata a capo. Lo stesso vale per le altre sequenze di escape che vedremo dopo.

In [None]:
"Ciao.\nSono io."

'Ciao\nsono io'

### Le sequenze `\'` e `\"`

Altre due sequenze di escape che è utile conoscere sono `\'` e `\"`. Queste servono ad inserire apici e virgolette dentro le stringhe. Supponiamo infatti di voler stampare la stringa: 
```
Sono Gianluca e sono anche noto come "Batman"
```
Se scrivo semplicemente 

In [3]:
print("Sono Gianluca e sono anche noto come "Batman"")

SyntaxError: invalid syntax. Perhaps you forgot a comma? (4124107268.py, line 1)

c'è un errore di sintassi, perché la virgoletta subito prima della parola Batman viene interpretata come virgoletta di chiusura della stringa. Posso risolvere in problema in due modi. Una prima soluzione (la più semplice) è usare gli apici per delimitare la stringa invece che le virgolette.

In [4]:
print('Sono Gianluca e sono anche noto come "Batman"')

Sono Gianluca e sono anche noto come "Batman"


In alternativa, posso rimpiazzare le virgolette prima e dopo Batman con la sequenza di escape `\"`, che serve a scrivere una virgoletta senza che essa sia interpretata come termine della stringa.

In [5]:
print("Sono Gianluca e sono anche noto come \"Batman\"")

Sono Gianluca e sono anche noto come "Batman"


Notare che dopo Batman si trova prima la coppia `\"`, che è la virgoletta da inserire nella stringa, e poi `"` che è la virgoletta che indica il termine della stringa.

Discorso analogo se voglio inserire un apice in una stringa. Per farlo posso delimitare la stringa con le virgolette, oppure usare `\'`.

In [6]:
print("Sono Gianluca e sono anche noto come 'Batman'")
print('Sono Gianluca e sono anche noto come \'Batman\'')

Sono Gianluca e sono anche noto come 'Batman'
Sono Gianluca e sono anche noto come 'Batman'


Sembra che la cosa più semplice sia ogni volta scegliere il delimitatore che non crea problemi. Tuttavia, se vogliamo nella stessa stringa mettere le virgolette e l'apice, dobbiamo ricorrere alle sequenze di escape. Ad esempio, se vogliamo scrivere `Sono 'Gianluca' e sono anche noto come "Batman"` queste sono alcune possibilità:

In [7]:
print("Sono 'Gianluca' e sono anche noto come \"Batman\"")
print('Sono \'Gianluca\' e sono anche noto come "Batman"')

Sono 'Gianluca' e sono anche noto come "Batman"
Sono 'Gianluca' e sono anche noto come "Batman"


Notare che le sequenze `\'` e `\"` le posso usare sempre, anche quando non sono strettamente necessarie. Ad esempio, posso scrivere:

In [9]:
print("Ciao 'Batman'")

Ciao 'Batman'


In [10]:
print("Ciao \'Batman\'")

Ciao 'Batman'


anche se la sequenza di escape non è necessaria.

### La sequenza `\\`

L'ultima sequenza di escape che vediamo è `\\`, che server inserire nella stringa una barra retroversa. Non possiamo semplicemente mettere una `\` e basta, perchè la `\` indica l'inizio di una sequenza di escape. Ad esempio, se vogliamo scriver la stringa `/ Ciao /`, la seguente istruzione da errore:

In [11]:
print("\ Ciao \")

SyntaxError: unterminated string literal (detected at line 1) (1015652388.py, line 1)

Quello che accade è che la combinazione `\"` alla fine viene interpretata come virgoletta da inserire *nella stringa*, per cui la stringa dentro il print non ha nessun delimitatore. Ma anche se proviamo a risolvere questo problema mettendo uno spazio dopo la seconda `\`, otteniamo comunque un errore.

In [12]:
print("\ Ciao \ ")

\ Ciao \ 


  print("\ Ciao \ ")


Adesso l'errore è che la combinazione `\` seguita da spazio viene trattata come una sequenza di escape, che però non esiste, generando un errore di sintassi. L'unica soluzione è usare la sequenza `\\` dove vogliamo scrivere `\`.

In [13]:
print("\\ Ciao \\")

\ Ciao \


### Altre sequenze di escape

Esistono altre sequenze di escape, ma non ci dovrebbero interessare più di tanto. Comunque, questo è l'elenco di tutte le sequenze di escape supportate: https://docs.python.org/3/reference/lexical_analysis.html#escape-sequences. 