# Ricerca lineare e ricerca binaria

Copiare qui l'algoritmo di riceca linare visto nella lezione precedente.

In [5]:
def linear_search(l, x):
 """
 Restituisce la posizione di x in l se esiste, altrimenti restituisce -1.
 """
 for i in range(len(l)):
 if l[i] == x:
 return i
 return -1

Questo è invece l'algoritmo di ricerca binaria.

In [6]:
def binary_search(l, x):
 """
 Restituisce la posizione di x in l se esiste, altrimenti restituisce -1.
 La lista l deve essere ordinata.
 """
 start = 0
 end = len(l) - 1
 while end >= start:
 middle = (start + end) // 2
 if l[middle] == x:
 return middle
 elif l[middle] < x:
 start = middle + 1
 else:
 end = middle - 1
 return -1

Facciamo un paio di prove per vedere se la funzione `binary_search` funziona.

In [7]:
l = [2, 5, 10, 15, 23, 99]

In [8]:
binary_search(l, 23)

4

In [9]:
binary_search(l, 17)

-1

Carichiamo la lista words di circa 450.000 parole che abbiamo già usato nella lezione precedente.

In [10]:
with open("words.txt", "r") as f:
 words = f.read().splitlines()
words.sort()

In [11]:
len(words)

466550

Misuriamo il tempo di esecuzione della funzione `linear_search` su un valore che non esiste (che è il caso peggiore, perchè richiede di controllare tutti gli elementi della lista).

In [12]:
%%timeit
linear_search(words, "abcxyz")

13.2 ms ± 289 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Questo è invece il tempo di esecuzione della funzione `binary_search`. Attenzione che il risultato è in micro-secondi, mentre per `linear_search` era in milli-secondi. Dunque, la ricerca binaria, almeno in questa occasione, è più di 1000 volte più veloce.

In [13]:
%%timeit
binary_search(words, "abcxyz")

1.69 µs ± 22.1 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In realtà, Python mette a disposizione il metodo `index` per la classe `list`, che implementa una ricerca lineare simile alla nostra `linear_search`. Tuttavia, `index` genera un errore se l'elemento cercato non esiste. Siccome vogliamo controllare le prestazione di `index` rispetto a `linear_search`, proviamo a cercare una parola esistenze nella lista `words`, ovvero la parola `zebra`.

In [14]:
%%timeit
linear_search(words, "zebra")

12.2 ms ± 698 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [15]:
%%timeit
words.index("zebra")

4.93 ms ± 411 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Vediamo che il metodo di Python è più veloce di quello implementato da noi. Tuttavia, il miglioramento è un fattore di circa 2 o 3, non paragonabile al fattore 1000 che otteniamo usando la ricerca binaria.

In [16]:
%%timeit
binary_search(words, "zebra")

1.74 µs ± 30.5 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


# Ordinamento di liste

Un altro classico problema in informatica è l'ordinamento (tant'è che in francese il computer si chiama ordinateur, ovvero *colui che ordina*). Il problema dell'ordinamento consiste, data una lista `l` qualunque, nel permutare gli elementi di `l` in maniera tale da ordinarla dall'elemento più piccolo al più grade.

Python mette a disposizione il metodo `sort` per le liste che fa esattamente quello.

In [17]:
l = [ 12, 44, 1, -4, 0]
l.sort()
l

[-4, 0, 1, 12, 44]

Vedremo l'algoritmo noto come *selection sort* o anche *ordinamento per selezione*. Prima di tutto ci serve una funzione ausiliara che restituisce la posizione dell'elemento più piccolo in una lista. Si tratta di una funzione che abbiamo già scritto in passato, ma adesso ci serve una variante che determina il minino non di tutta la lista, ma solo di una porzione.

In pratica, vogliamo una funzione `minimum_position(l, start)` che determina la posizione dell'elemento minimo tra `l[start]`, `l[start+1]`, `l[start+2]` e così via fino alla fine della lista.

In [18]:
def minimum_position(l, start):
 """
 Restituisce la posizione dell'elemento minimo nella sottolista l[start:].
 Si assume che start sia una posizione valida per l.
 """
 # la variabile min_pos mantiene l'indice del valore più piccolo trovato
 # fino ad un dato momento. La inizializziamo con start.
 minpos = start
 # facciamo fariare l'indice i tra start+1 e la fine della lista, alla ricerca
 # del valore più piccolo
 for i in range(start + 1, len(l)):
 # se il valore corrente è più piccolo di quello minimo trovato finora,
 # aggiorna minpos
 if l[i] < l[minpos]:
 minpos = i
 return minpos

Proviamo se funziona:

In [19]:
print(minimum_position([-1, 10, 4, 3], 0))
print(minimum_position([-1, 10, 4, 3], 1))

0
3


Adesso possiamo usare `minimum_positon` per implementare il selection sort.

In [20]:
def selection_sort(l):
 """Ordina gli elementi di l."""
 # La variabile i è la posizione del primo elemento della lista che rimane
 # da ordinare. Inizialmente i = 0 perché tutta la lista è da ordinare.
 i = 0
 # Ad ogni iterazione, metto a posto l'elemento in posizione i col valore
 # corretto. Quando i raggiunge len(l)-1 (quindi rimane un solo elemento da
 # ordinare nella lista), mi posso fermare perché una lista formata da un solo
 # elemento è sicuramente ordinata.
 while i < len(l) - 1:
 # Determino la posizione dell'elemento minimo nella sottolista di l che parte
 # alla posizione i. L'elemento che trovo andrà messo in posizione i.
 m = minimum_position(l, i)
 # Scambio l'elemento in posizione m con l'elemento in posizione i. In questo
 # modo l[i] assume il valore correto.
 # Lo scambio lo realizzo usando le tuple, invece della variabile ausiliaria
 # di appoggio che abbiamo usato in altre circostanze.
 l[i], l[m] = l[m], l[i]
 # Incremento i perché l'elemento in posizione i è ormai sistemato.
 i = i + 1

Proviamo se funziona.

In [21]:
l = [1, 4, -3, 2, 10, 5]
selection_sort(l)
l

[-3, 1, 2, 4, 5, 10]

Notare che in realtà il ciclo `while` di sopra potremmo rimpiazzarlo con un `for`, per rendere il codice più compatto.

In [22]:
def selection_sort(l):
 """Ordina gli elementi di l."""
 for i in range(len(l) - 1):
 m = minimum_position(l, i)
 l[i], l[m] = l[m], l[i]

In [23]:
l = [1, 4, -3, 2, 10, 5]
selection_sort(l)
l

[-3, 1, 2, 4, 5, 10]