# Introduction à Python et application pour la data science (1. les bases)
Formations doctorales transversales, cours de Jean-Jil Duchamps et Camelia Goga.


## But du cours

Le but de ce mini-cours est d'acquérir quelques compétences en Python pour pouvoir
aborder des questions statistiques et de *data science*.
Dans cette première partie du cours, on se concentre sur:

-   L'apprentissage des bases du langage Python et des "bonnes pratiques".
-   Lire et manipuler des données avec Pandas et Numpy.
-   Visualiser nos données avec Matplotlib et Seaborn.

## Anaconda, Spyder, **Jupyter**

On vous a proposé d'installer Anaconda car tout ce dont on a besoin pour ce cours est disponible par défaut.
Un autre bel avantage de (Ana)conda est sa gestion simple des *environnements* (mais hors du cadre de ce cours)

<div class="alert alert-info">
    Il y a plusieurs manières de coder en Python. La manière "classique", très bonne pour écrire des scripts, est
d'utiliser un éditeur de code (Spyder, VS Code, ...). Vous pouvez choisir ceci si vous êtes plus à l'aise mais dans ce cours on utilise les <b>notebooks Jupyter</b> (je recommande spécifiquement <b>Jupyter Lab</b>).
</div>

**Principe des notebooks:**
- Au lancement de Jupyter, on est face à un explorateur de fichier (dans le dossier personnel)
- Après navigation dans votre dossier de travail, on peut créer un nouveau notebook avec le bouton **New**.
- Un notebook est découpé en **cellules**:
    - de texte (que vous lisez ici), écrit en Markdown et formatté automatiquement
    - de code (que vous pouvez exécuter et qui affichent des *sorties*)
- Chaque cellule de code affiche des sorties qui sont dues aux fonctions appelées (fonction `print`, etc.), mais
  **affiche aussi la dernière expression de la cellule** (exemple: si la dernière ligne de la cellule est `1+2`,
  alors `3` sera affiché).
- Chaque bout de code exécuté a un effet sur une mémoire globale liée au notebook en cours
  (exemple: si on exécute `a = 1` dans une cellule, puis `print(a)` dans une autre, on voit apparaître
  `1` en sortie, c'est-à-dire en-dessous de cette autre cellule).
- À l'ouverture d'un nouveau notebook, sa "mémoire" est vide (la variable `a` n'a plus de sens jusqu'à une
  nouvelle définition, mais les sorties des exécutions passées sont *a priori* présentes).

**Important.** Habituez-vous à utiliser le clavier (et le moins possible à la souris) pour naviguer
(**NB:** sous Mac, il faut sans doute remplacer `Ctrl` par `Cmd`):
- `Entrée` pour entrer dans l'édition d'une cellule
- `Shift+Entrée` pour l'exécuter et passer à la prochaine cellule
- `Ctrl+Entrée` pour l'exécuter et rester sur place
- `Échap` pour sortir de l'édition
- `A` et `B` pour créer de nouvelles cellules de code
- `X`, `C` et `V` pour couper, copier et colles une cellule
- `M` pour transformer une cellule de code en cellule de texte (Markdown)
- `Y` pour transformer une cellule de text en cellule de code
- `Ctrl+Shift+H` pour visualiser les raccourcis claviers. Il y en a beaucoup mais soyez curieux·ses et testez-les.

<div class="alert alert-info">
Prendre ces habitudes-là vous permet <b>d'accélerer grandement</b> votre utilisation des notebooks et donc votre capacité à manipuler votre code et vos données.
</div>

**Exercice**:
1. Exécuter les deux cellules de codes suivantes avec les raccourcis clavier.
2. Créer une cellule entre ces deux cellules pour modifier les valeurs des variables `a` et `b`. Par exemple, recopiez ce bout de code:
   ```python
   a += 2
   b += 'deux'
   ```
3. Exécuter à nouveau les cellules pour observer les changements introduits.

In [None]:
a = 1
b = 'un'

In [None]:
a, b

## Les bases du langages

Ce document est bien trop court pour vous apprendre à maîtriser complètement Python.
Il est toujours bon de chercher par vous-même et de se référer à la [documentation
officielle](https://docs.python.org/fr/3/), notamment la page de la
[bibliothèque
standard](https://docs.python.org/fr/3/library/index.html), qui décrit
tous les types natifs de Python (`str`, `list`, `tuple`, `dict`,
etc.) et les fonctions et méthodes associées. En plus de ça, des explications sur la syntaxe
(notamment des boucles `for`, des structures de conditionnement
`if`, `while`, etc.) sont trouvables sur la page du [tutoriel
officiel Python](https://docs.python.org/fr/3/tutorial/index.html).

<div class="alert alert-info">
<b>NB:</b> De manière générale, la meilleure compétence à acquérir en ce
qui concerne l'informatique (en tant qu'outil) n'est pas technique: à mon sens c'est la
capacité à aller <b>fouiller dans les documentations</b> (et sur votre
moteur de recherche favori) pour trouver ce qu'on cherche.
</div>

Malgré toutes les ressources existantes en ligne, voici encore
quelques cellules qui ont le but de fonctionner comme un pense-bête, en
énonçant quelques points important du langage de programmation Python.

### Créer des variables, types numériques et opérations classiques
Expérimentez avec les cellules suivantes.

In [None]:
1+2, 1-2, 2*3, 2/3, 2**3, 16//3, 16%3

In [None]:
a = 2
b = 3.  # Remarquez ce que change le point dans la sortie de cette cellule.
c = a+b
a, b, c

In [None]:
x, y = 1.2, 3.14  # Assignation de plusieurs variables en même temps.
[x, y]

Le type *booléen* (vrai ou faux) est utilisé pour représenter le fait qu'une condition soit vérifiée.
Il peut aussi être interprété comme un type numérique (avec les équivalences `True == 1` et `False == 0`).

In [None]:
a = 1
print(a < 2)
a += 2
print(a < 2 or 'test' == 'truc')

In [None]:
print(True / 2)
print(3*False)

### Listes

La `list` est un objet omniprésent en Python. Elle peut
contenir toute sorte d'objets (même des listes), et l'on récupère le
$n$-ième élément d'une liste `l` avec `l[n]` – l'indexation Python
commençant à 0. L'essentiel:

In [None]:
l = [1, 'deux', 3.33, [4, "zéro"]]  # Définir une liste
l.append(1000)  # Ajouter un élément à la fin de la liste
print(l[1], l[-1])  # Afficher le deuxième et le dernier élément
print(f"La liste complète est l = {l}.")

Pour extraire une sous-liste, des éléments `i` à `j-1`: `l[i:j]`.
Omettre l'un ou l'autre des indices signifie: extraire depuis le
début / jusqu'à la fin.

In [None]:
print(l[1:3], l[:2], l[-2:], sep='\n')

In [None]:
[1, 'deux'] + [3.33, [4]]  # Concaténation de listes.

### Tuple

Le `tuple` est un objet qui s'utilise globalement comme une liste,
sauf qu'il est *immutable*. À noter que dans les exemples qui suivent,
les parenthèses ne sont pas toujours obligatoires – ce sont les virgules
qui définissent le tuple.

In [None]:
t = (1, 'deux', 3.33, [4])  # Définir un tuple.
t

In [None]:
a, b = 15, 6
q, r = a // b, a % b  # On fait la division euclidienne de a par b.
print(f'{a} = {q}*{b} + {r}')

### String

Les chaînes de caractères sont indexables comme les listes
ou les tuples. Elles s'écrivent délimitées soit par des apostrophes
`'`, soit par guillemets `"` – il peut être pratique d'utiliser les
guillemets pour définir la chaîne `"J'aime le chocolat"`, plutôt que
d'utiliser la syntaxe moins lisible `'J\'aime'`.

In [None]:
"J'aime le chocolat" == 'J\'aime le chocolat'  # On teste l'égalité de ces chaînes.

In [None]:
'Exemple' + ' de ' + 'concaténation'  # Attention, aucun espace n'est ajouté.

In [None]:
' '.join(['Exemple', 'de', 'concaténation', 'bis'])  # Utilisation de la méthode `join`.

In [None]:
"À l'inverse, on peut décomposer une chaîne en liste de mots.".split()

In [None]:
print('TeST'.lower())  # Passage en minuscules.
print('tEst'.upper())  # Passage en majuscules.
'teSt de tITre'.title()  # Capitalisation des titres "à l'anglaise".

Les **chaînes formattées** (*format-strings*) permettent d'intégrer le contenu de *variables* (et d'expressions plus générales) dans une chaîne de caractères.

In [None]:
a = 2/3
result1 = "L'écriture décimale de 2/3 est {}...".format(a)
result2 = f"L'écriture décimale de 2/3 est {a}..."
print(result1 == result2)
result1

Pour une liste complète des méthodes utilisables sur les chaînes de caractères, voir [la doc](https://docs.python.org/3/library/stdtypes.html#string-methods).

Les **chaînes de documentation** ([*docstrings*](https://docs.python.org/3/tutorial/controlflow.html#documentation-strings))
sont des chaînes spéciales délimitées par trois guillemets `"""`.
Elles peuvent être écrites sur plusieurs lignes, contenir des
guillemets, des apostrophes. Il faut en fait les voir comme des
commentaires servant à la documentation du code que l'on écrit. Une
bonne pratique pour prendre l'habitude de documenter son code est
d'écrire une petite docstring pour chaque fonction écrite, qui décrit brièvement
ce que fait la fonction. Exemple:

In [None]:
def addition(x, y):
    """ Effectue l'addition de x et y. """
    return x + y

addition(1, 2)

### Dictionnaires

Les dictionnaires (de type `dict`) sont des objets qui
servent à associer des *valeurs* (objets immutables) à des *clés*
(objets quelconques).

In [None]:
d = {'clé': 'valeur', 1: 42, 0: ['une', 'liste']}  # Définition d'un dictionnaire.
d[2] = 'deux'  # Ajout d'un couple clé-valeur.
print(d)
d['clé']  # On récupère la valeur associée.

In [None]:
print(type({}))  # {} = Le dictionnaire vide.

## Syntaxe

La syntaxe et la clarté sont primordiales en Python. L'usage [des
conventions](https://peps.python.org/pep-0008/), en particulier dans
l'utilisation des espaces, est fortement recommandé pour la lisibilité.
Quelques bonnes pratiques:

-   **Le signe `=` est entouré d'espaces**, sauf quand il donne la
    valeur d'un argument optionnel dans l'appel d'une fonction (ou bien
    dans sa définition) :
    ```python
    x = ma_fonction('un argument', opt_arg=None)
    ```

-   **Même chose pour les signes arithmétiques**, la majorité du temps
    (exceptions : à juger soi-même, recommandée pour distinguer les
    opérations prioritaires) :
    ```python
    i = i + 1
    i += 1
    x = x*2 - 1
    hypot2 = x*x + y*y
    c = (a+b) * (a-b)
    ```

-   On met un **espace après une virgule**, mais pas d'espace avant. On
    ne met **pas d'espace immédiatement après des parenthèses ou
    crochets ouvrants**, ou immédiatement avant des parenthèses ou
    crochets fermants :
    ```python
    fibo = [1, 1, 2, 3, 5, 8, 13]
    a, b = (1, 2, 3), 4
    plt.plot(x, fibo)
    ```

-   Idéalement, on **évite d'écrire des lignes trop longues** (plus de
    79 caractères). On peut couper une ligne de code sur plusieurs
    lignes de plusieurs manières :
    -   En revenant à la ligne entre certains arguments d'une fonction :
        ```python
        x = ma_fonction(ma_variable_1, ma_variable_2, ma_variable_3,
        ma_variable_4)
        ```
    -   Lors d'une suite d'opérations :
        ```python
        x = (ma_variable_1 + ma_variable_2 + ma_variable_3 +
        ma_variable_4)
        ```

-   **Ne pas mettre plus d'espaces que nécessaire**. Par contre, il faut
    en mettre suffisamment quand nécessaire : **l'indentation** (de
    quatre espaces par défaut) **est nécessaire** pour définir un bloc
    de code, et elle doit être la même pour chacune des lignes de ce
    bloc. Ce que j'appelle des blocs de code sont, entre autres, les
    corps des fonctions, des boucles, des instructions conditionnelles.
    Tous ces blocs commencent après une ligne qui finit par un “deux
    points”. Exemple :
    ```python
    def addition(x, y):
        """ Effectue l'addition de x et y. """
        return x + y
    ```
    Au passage, noter qu'il n'y a pas d'espaces avant un “deux points”.

-   Finalement, **espacer le code verticalement** en sautant deux lignes
    entre chaque définition de fonction. Ne pas forcément chercher à
    sauter plus de lignes que ça, sauf s'il paraît raisonnable de
    séparer deux parties logiques du code.

## Paquets, fonctions, méthodes

- Le langage Python "de base" est un langage de programmation généraliste, il n'est pas conçu pour faire des statistiques (contrairement à R par exemple).
- On a donc besoin de paquets (*packages*) qui introduisent des fonctionalités spécifiques (fonctions dédiées aux statistiques, aux visualisations graphiques, etc.)
- Il en existe beaucoup (plus de 500 000 paquets sur [PyPI](https://pypi.org/) -- Python Package Index) mais soyez prudent avec ce que vous installez...

<div class="alert alert-info">
Utilisez les paquets bien connus, les plus répandus dans votre communauté, et ceux présents dans le répertoire d'Anaconda pour minimiser les risques de bugs et problèmes de sécurité.
</div>

Les paquets que nous allons utiliser pour cette première partie du cours sont Numpy, Matplotlib (et plus spécifiquement le module `pyplot` de ce paquet), Pandas et Seaborn.
Voilà les façons standards de les importer (c'est à dire de les "activer" dans le notebook):

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

Vous n'avez pas forcément besoin de chacun de ces modules. Importez-les quand vous en avez besoin!

Après importation, on a accès aux structures et fonctions proposées par ces paquets, en utilisant le préfixe correspondant à chaque module (**exemple simple avec Numpy et Matplotlib**):

In [None]:
x = np.linspace(0, 10, 200)  # Crée un array (vecteur) de 200 points qui discrétisent l'intervalle [0, 10].
y = np.sin(x)  # Applique la fonction sinus à chacun de ces points.
# Les lignes qui suivent concernent la création d'un graphique.
plt.plot(x, y, label="sin(x)")  # Ajout d'une courbe
plt.plot(x, np.cos(x), label="cos(x)")  # Deuxième courbe
plt.xlabel("x")  # Légendes et titres.
plt.ylabel("y")
plt.title("Mon premier graphique")
plt.legend()
plt.show()  # Optionnel dans un notebook mais évite des sorties "parasites".

### Objets
- Les variables stockent des structures de données qui peuvent être très simples (types numériques, chaînes de caractères) ou plus complexes (array Numpy, dataframes Pandas, sous-éléments de graphiques, modules, etc.).
- Dans tous les cas, ce qui est stocké en mémoire est une *instance* d'une *classe* (on pourra dire *objet*).
- À tout *objet* Python est rattaché:
    - des **attributs** (des variables qui sont rattachées à l'objet)
    - des **méthodes**, c'est-à-dire un ensemble de *fonctions*, que l'on peut appeler en passant des arguments (et qui peuvent agir sur l'objet).

Exemple simple avec les array Numpy, un attribut `shape` et les méthodes `min`, `max`, `mean`, `reshape`.

In [None]:
x = np.arange(9)  # x est un instance d'array (ndarray en fait, une structure définie par le module Numpy).
print(type(x))
x

In [None]:
print(x.shape)  # On affiche l'attribut `shape` de l'objet `x`.
print('min =', x.min(), ' moyenne =', x.mean(), ' max =', x.max())  # On appelle trois méthodes liées à l'objet.

In [None]:
y = x.reshape((3, 3))  # Une méthode avec un argument. x n'est pas modifié par celle-ci, mais on récupère un autre objet y.
print(y.shape)
y

<div class="alert alert-info">
Pour avoir une aide "rapide" sur un objet, une fonction ou une méthode dont on connait le nom, on utilise un point d'interrogation avant la méthode dans une cellule de texte, ex: <code>?np.mean</code>, <code>?x</code>, ... Sinon, <b>chercher dans la documentation officielle des paquets !</b>
</div>

### Écrire ses propres fonctions

Il est souvent pratique d'écrire des fonctions pour structurer son code et éviter les répétitions. En Python, le mot-clé utilisé pour ceci est `def`.
Exemple: on a un premier jeu de données et on veut faire une analyse sommaire de ce jeu.

In [None]:
X = [1.11, 2.56, 8.03, 0.91, 6.4 , 4.92, 0.46, 7.07, 5.34, 3.72]
print("min:", np.min(X))
print("moyenne:", np.mean(X))
print("max:", np.max(X))
print("écart-type:", np.std(X))

Maintenant, on obtient un autre jeu de données, et on veut faire la même analyse.
Au lieu de copier-coller, créons une fonction.

In [None]:
Y = [ 9, 11,  5,  8, 10, 10, 14,  0, 10,  1,  0, 15, 18,  6,  4]

In [None]:
def summary_0(donnees):
    print("min:", np.min(donnees))
    print("moyenne:", np.mean(donnees))
    print("max:", np.max(donnees))
    print("écart-type:", np.std(donnees))
summary_0(Y)

C'est déjà bien (il faut bien sûr définir `summary_0` avant et l'utiliser aussi pour `X`, mais je laisse chaque étape du processus).
Par contre, cette fonction affiche des choses, que l'on ne peut pas réutiliser par la suite...
Suivant votre problème vous voudrez **renvoyer** ces 4 quantités calculées sur le jeu de données.
<div class="alert alert-info">
Pour faire simple et clair, je vous conseille de faire en sorte qu'<b>une fonction qui effectue un calcul renvoie ses résultats</b>, et de gérer l'affichage, la mise en forme dans des fonctions distinctes.
</div>
Exemple:

In [None]:
def summary_1(donnees):  # Calculs.
    return {"min": np.min(donnees), "moyenne": np.mean(donnees),
            "max": np.max(donnees), "écart-type": np.std(donnees)}

def print_summary(summary):  # Mise en forme.
    # Si vous ne connaissez pas le principe d'une boucle for, demandez-moi, ou allez voir l'annexe.
    for nom, valeur in summary.items():
        print(f'{nom}: {valeur}')

s = summary_1(X)  # s est un dictionnaire qui contient toute l'information qui nous intéresse sur X.
print(s)
print(s["moyenne"])  # Ensuite on peut récupérer seulement la moyenne, etc.
# print_summary(s)  # Pour vérifier que ça donne bien la même chose que plus haut.

La suite du notebook (adaptée d'un cours du Master modélisation statistique) contient plus d'informations sur les structures conditionnelles et des exercices de "Python de base". Je la laisse car vous pouvez y revenir plus tard, mais dans le cadre du cours on se concentrera directement sur la manipulation des structures de données du module Pandas (voir notebook suivant).

# Annexes et exercices

## Boucles et structures conditionnelles

Les structures usuelles `if ... elif ... else`, `for` et `while`
sont bien sûr présentes en Python.

-   Comme les définitions de fonctions, ces structures sont définies par
    un bloc de code correctement indenté. Ces structures peuvent être
    imbriquées les unes dans les autres. Exemple/exercice: deviner ce
    que fait la fonction suivante.

In [None]:
def tables(n):
    if n > 12:
        print("On n'affiche pas les tables pour n >= 13.")
        return
    for i in range(1, n+1):  # Itère sur i de 1 à n.
        print('Table de', i)
        j = 1
        while j <= n:  # En pratique, itère aussi sur j de 1 à n.
            print(f'- {i} * {j} = {i*j}')
            j += 1

-   Attention pour un enchaînement de conditions exclusives: les
    mots-clés `if`, `elif` et `else` doivent être sur la même
    ligne d'indentation. Exemple:

In [None]:
def une_fonction_utile(n):
    if n % 4 == 0:
        s = f'{n} est divisible par 4'
    elif n % 2 == 0:
        s = f'{n} est divisible par 2, mais pas par 4'
    else:
        s = f'{n} est impair'
    return s
une_fonction_utile(151654354)

-   On souligne que les boucles `for` s'utilisent naturellement avec
    tout objet *itérable*. Si `ma_liste` est une liste qui vaut `[1,
    3, 'deux', x]`, le code
    ```python
    for i in ma_liste:
        ... # [fait qqch avec i]
    ```
    aura l'effet suivant: le bloc de code définissant la boucle sera
    répété avec la variable `i` prenant successivement les valeurs
    `1`, `3`, `'deux'` puis `x` – N.B.: si la variable `x`
    désigne un objet mutable, `i` sera une référence vers celui-ci,
    pas une copie.

-   Les tuples, les ensembles et les dictionnaires sont aussi itérables.
    Pour les dictionnaires, la variable de la boucle (`i` dans
    l'exemple ci-dessus) vaudra les valeurs possibles des clés. Pour
    itérer sur les valeurs d'un dictionnaire `d`, utiliser `for v in
    d.values()`, et pour itérer sur les couples (clé, valeur), utiliser
    `for (k, v) in d.items()`.

-   Si l'on veut utiliser directement une itération comme ci-dessus,
    mais en ayant accès à l'indice de l'élément, on utilisera: `for
    (i, y) in enumerate(ma_liste)`. Dans le corps de la boucle, la
    variable `i` contiendra l'indice de l'élément (ici noté `y`) –
    c'est-à-dire le compteur pour le nombre d'itérations effectuées.
    Exemple:

In [None]:
ma_liste = [1, 3, 'deux', [4, 5]]
for (i, y) in enumerate(ma_liste):
    print(i, '. ', y, sep='')

## Compréhension

La compréhension est une syntaxe présente en Python et qui facilite la
construction de certains objets avec une boucle implicite. Elle sert à
créer des listes, des tuples, des dictionnaires, des ensembles comme si
l'on ajoutait des éléments un à un à partir d'une boucle `for`.
Exemples:

In [None]:
l1 = [i**2 for i in range(10)]  # Compréhension de liste.
l2 = []
for i in range(10):
    l2.append(i**2)
print(l1 == l2)

d = {-3*i: i**2 for i in range(10)}  # Compréhension de dictionnaire.
d

### Compréhension filtrée

Pour effectuer une compréhension qui ne concerne que certains éléments
de la liste en question, on rajoute `if [condition]` à la fin de la
compréhension. Exemple:

In [None]:
basse_cour = ['poule', 'canard', 'oie', 'cochon', 'vache', 'chèvre']
[x for x in basse_cour if 'o' in x]

## Exceptions

Il est parfois utile de définir des exceptions (des erreurs porteuses de
messages qui arrêtent l'exécution du programme, à moins d'être
interceptées et traitées dans le programme) spécifiques au code que l'on
écrit. Par exemple si l'on veut écrire la fonction `produit_scalaire(x,
y)`, on pourra écrire:

In [None]:
# Définit une classe `MauvaiseDimension` qui hérite de `Exception`.
class MauvaiseDimension(Exception):
    pass

def produit_scalaire(x, y):
    if len(x) < len(y) or len(y) < len(x):
        raise MauvaiseDimension('vecteurs de longueurs différentes')
    return sum(xi * yi for (xi, yi) in zip(x, y))

print(produit_scalaire([1, 2], [3, 4]))  # Ne plante pas.
#print(produit_scalaire([1, 2], [3, 4, 5]))  # Plante !

On peut utiliser la structure `try ... except` pour traiter l'exception:

In [None]:
try:
    x, y = [1, 2], [3]
    print('Tout se passe bien jusque-là...')
    print('Le produit scalaire de', x, 'et de', y, 'vaut', produit_scalaire(x,y))
except MauvaiseDimension:
    print("Le produit scalaire n'est pas bien défini, on l'ignore.")
print("Le programme continue.")

## Lire et écrire dans un fichier

On utilise la fonction `open('nom_du_fichier', mode,
encoding='utf-8')` pour manipuler les fichiers du système
d'exploitation. Cette commande renvoie un objet qui peut être utilisé en
lecture ou en écriture, en fonction de l'argument `mode`. Les 4 modes à
connaître sont les suivants:

-   `'r'` (par défaut): lecture du fichier (on ne peut pas le
    modifier).
-   `'w'`: écriture du fichier (s'il existe un fichier avec le nom
    donné, il sera écrasé).
-   `'a'`: mode *append*, c'est-à-dire écriture à la fin du fichier
    (le contenu existant ne sera pas écrasé).
-   `'r+'`: lecture du fichier, avec écriture possible (on peut donc
    modifier une partie du contenu).

De manière générale, pour un usage simple on utilisera surtout les modes
`'r'` pour lire un fichier et `'w'` pour écrire dans un nouveau
fichier.

### En pratique.

Pour ouvrir le fichier, on recommande d'utiliser le mot-clé `with`,
qui permet d'ouvrir le fichier dans un bloc de code (et seulement dans
celui-ci). Par exemple, pour manipuler un fichier `fichier.txt` (qui sera créé dans votre répertoire de travail):

In [None]:
with open('fichier.txt', 'w', encoding='utf-8') as f:
    f.write('Ce fichier contient 2 lignes.\nCeci est la deuxième.')

# À la fin du bloc indenté, la variable f n'est plus valide, le fichier est fermé.
# print(f)  # Plante.

with open('fichier.txt', encoding='utf-8') as f:
    print('Voilà le contenu du fichier:')
    print(f.read()) 

La méthode `f.read()` renvoie tout le contenu du fichier dans une
chaîne de caractère. Pour lire le fichier ligne par ligne, on peut
utiliser la méthode `f.readline()`. Le premier appel renvoie la
première ligne, le second renvoie la ligne suivante, etc, jusqu'à
renvoyer une chaîne de caractère vide ''. Notons qu'un caractère "saut de
ligne" `\n` est présent à la fin de chacune des lignes.

Enfin, l'objet `f` peut être utilisé comme un itérateur (donc dans une
boucle `for`), pour itérer sur les lignes du fichier. Par exemple
voici un code qui affiche le nombre de mots de chaque ligne du fichier
`fichier.txt`.

In [None]:
with open('fichier.txt', encoding='utf-8') as f:
    for i, line in enumerate(f):
        n = len(line.split())
        print(f'Ligne {i+1}: {n} mots.')

On pourra se référer à [la
doc](https://docs.python.org/3/tutorial/inputoutput.html#tut-files) pour
compléter cet aperçu bref.

## Zip: deux listes en une

La fonction `zip` s'utilise dans la situation où l'on veut parcourir
plusieurs listes à la fois. Ce que j'entends par là est la chose
suivante: faire une boucle for qui récupère, à la $i$-ème itération de
la boucle, le $i$-ème élément de chacune des listes. Un exemple et son
équivalent “moins pythonesque”:

In [None]:
liste1, liste2 = [1, 2, 3], ['a', 'b', 'c', 'd (sera ignoré)']
for x, y in zip(liste1, liste2):
    print(f'x={x}, y={y}')

print("--------") # Le code ci-dessus équivaut au code (moins beau) ci-dessous.
      
for i in range(min(len(liste1), len(liste2))):
    print(f'x={liste1[i]}, y={liste2[i]}')

## Exercices

Ces exercices-là sont des exercices qui doivent être effectués sans Numpy ou Pandas (sauf exception indiquée).
Ils servent d'entraînement sur les bases du langage Python, et ont été conçu plutôt pour un public de matheux·ses...
En réalité le reste du cours, plus orienté "données", est assez différent et vous n'avez pas besoin de savoir faire tous ces exercices.

**Exercice :** **manipulations de listes.**

1.  Écrire une fonction `max_min(liste)` qui prend en argument une
    liste de valeurs numériques `liste` et renvoie, *sans utiliser les
    fonctions* `max` *et* `min` *de Python*, un dictionnaire de la
    forme `'max': max(liste), 'min': min(liste), 'imax': i, 'imin':
    j`, où `i` et `j` sont les indices du maximum et du minimum de
    la liste.
2.  Écrire une fonction `sum_list(l1, l2)` qui prend deux listes en
    argument et renvoie la liste `l3` obtenue en faisant la somme de
    `l1` et `l2` de manière vectorielle. Si l'une des listes est
    plus longue que l'autre, on considérera que des zéros complètent la
    liste la plus courte afin d'atteindre la même longueur.
3.  On considère la fonction suivante:

In [None]:
def inverse(l):
    return l[::-1]

Écrire une fonction `inverse_naif(l)` qui a le même
fonctionnement, mais sans utiliser cette syntaxe `l[::-1]`.
On pourra par exemple utiliser la compréhension de liste.

In [None]:
def inverse_naif(l):
    # à compléter
    pass

Comparer les temps d'exécution de ces deux fonctions en exécutant les cellules suivantes.

In [None]:
import numpy as np
l = np.random.uniform(size=10000)

In [None]:
%%timeit
inverse(l)

In [None]:
%%timeit
inverse_naif(l)

**Exercice : factorielle.**

1.  Écrire une fonction `fact(n)` qui calcule la factorielle $n!$.
2.  Écrire une version récursive de la fonction précédente (c'est-à-dire
    une fonction qui s'appelle elle-même, comme dans la définition d'une
    récurrence).  
    *Si vous avez d'abord écrit une version récursive de la factorielle,
    écrivez-en une itérative.*

**Exercice : Fibonacci.**
On rappelle la définition de la suite de Fibonacci par
récurrence:
$$f_0=0,\quad f_1 = 1, \qquad \text{et }f_{n+1} = f_n+f_{n-1}, \quad \forall n\geqslant 1.$$

1.  Écrire une fonction `fibo(n)` qui calcule le $n$-ième terme de la
    suite de Fibonacci.
2.  Écrire une version récursive de la fonction `fibo`.
3.  La fonction précédente est-elle efficace ? Comparez ses temps
    d'exécution avec la version itérative.
4.  Si la réponse à la question précédente est non, envisager une
    méthode récursive *efficace* pour le calcul de la suite de
    Fibonacci.

**Exercice : fonction à mémoire.**
On considère le code suivant:

In [None]:
def mapile(x, pile=[]):
    pile.append(x)
    return pile

1.  Avant de tester, devinez ce que renverra `mapile(0)`? Vérifier en exécutant cette ligne **plusieurs
    fois de suite**.
2.  Coder une version "à mémoire", récursive et efficace de la fonction donnant la suite de Fibonacci.

**Exercice : bons parenthésages.** Un *bon parenthésage* est un “mot” constitué uniquement
de parenthèses ouvrantes et fermantes de sorte que (a) à la lecture du
mot, l'on ne ferme pas plus de parenthèses qu'il n'y en a d'ouvertes, et
(b) à la fin du mot, toutes les parenthèses sont fermées. Exemples de
bons parenthésages:
$$(), \quad ()(), \quad  (()), \qquad (()(()))(),  \quad \text{ ou encore } \quad (()())(((())())(()))$$
Mauvais parenthésages: $$)(, \qquad ((), \qquad (())).$$

1.  Écrire une fonction `combine(liste1, liste2)` qui, étant donnée
    deux listes de parenthésages (chaînes de caractères) renvoie une
    liste de tous les parenthésages possibles de la forme $(x)y$, où $x$
    est un parenthésage de la liste 1 et $y$ un parenthésage de la liste 2.  
    *Pour tester cette fonction:* `combine([”, '()'], ['()',
    '(())']` *doit renvoyer la liste suivante:* `['()()', '()(())',
    '(())()', '(())(())']`.  
    Le but de cet exercice est d'obtenir, pour un entier pair fixé $n$,
    la liste de tous les bons parenthésages de longueur $n$.
2.  En utilisant soit une “fonction à mémoire”, soit une variable
    dictionnaire globale, écrire une fonction `parenth(n)` qui renvoie
    la liste voulue.  
    On utilisera pour cela la fonction `combine`, et le fait que l'on
    peut décomposer *de manière unique* un parenthésage $p$ en
    $p=(q_1)q_2$, où $q_1$ et $q_2$ sont de bons parenthésages
    (éventuellement vides). Il faudra réfléchir aux longueurs possibles
    des parenthésages $q_1$ et $q_2$, si $p$ est de longueur $n$.
3.  Vérifier, pour tous les entiers pairs plus petits que 20, que le
    nombre de bons parenthésages de longueur $n$ vaut bien
    $$\frac{2}{n+2}\binom{n}{n/2}.$$

**Exercice :** **génération de nombres premiers.**

1.  Écrire une fonction `isprime(n)` qui renvoie un booléen indiquant
    si l'entier $n$ est premier.  
    *On cherchera à diviser $n$ par tous les entiers plus petits que
    $\sqrt{n}$*
2.  Écrire une fonction `bigint(k)` qui génère, en utilisant le module
    `random`, un entier aléatoire compris entre $2^k$ et $2^{k+1}-1$.
3.  Écrire une fonction `generate(k, isprime)` qui génère un nombre
    premier aléatoire compris entre $2^k$ et $2^{k+1}-1$, en utilisant
    la question précédente.  
    *L'argument* `isprime` *désigne bien une fonction qui sera passée
    en argument. Cette fonction pourra être, dans un premier temps, la
    fonction* `isprime` *codée plus haut*.
4.  La [méthode de
    Fermat](https://fr.wikipedia.org/wiki/Test_de_primalit%C3%A9_de_Fermat)
    consiste à tester (au sens statistique) si un entier $n$ est
    premier. Elle consiste à tester si l'on a bien $a^{n-1}\equiv 1$
    modulo $n$, pour un nombre $N$ suffisamment grand de $a$ pris
    uniformément aléatoire entre $1$ et $n-1$. Si les $N$ équivalences
    sont vérifiées, on estime alors que $n$ est premier.  
    Coder le test de Fermat. On prendra $N=128$.  
    *Pour calculer des puissances de grands nombres modulo un entier, il
    est judicieux d'utiliser la fonction*
    [`pow`](https://docs.python.org/3/library/functions.html#pow).
5.  Utiliser les questions précédentes pour générer un nombre
    (pseudo-)premier sur 1024 bits.

**Exercice : algèbre linéaire (sans Numpy!).** On considère une liste de liste
comme une matrice, par exemple la matrice de rotation (en 2D) d'angle
$\theta$ sera représentée par
```python
M = [[np.cos(theta), -np.sin(theta)], [np.sin(theta), np.cos(theta)]]
```
et une liste simple sera interprétée comme un vecteur ligne. On va
d'abord chercher à vérifier si nos objets sont interprétables comme des
matrices ou vecteurs.

1.  Définir une exception `PasUneMatrice`.
2.  Écrire une fonction `dimensions(matrice)` qui renverra les
    dimensions de la matrice sous forme d'un tuple `(nb_lignes,
    nb_colonnes)`. Si l'argument n'est pas interprétable comme un
    vecteur ou une matrice (par exemple si elle a des lignes de
    longueurs variables), la fonction soulèvera l'exception
    `PasUneMatrice`.
3.  Écrire une fonction `transpose(matrice)` qui transpose une
    matrice.
4.  Écrire une fonction `produit(mat1, mat2)` qui effectue le produit
    matriciel.

On n'a pas cherché à optimiser les choses, et les codes produits seront
remplacés (plus tard, on a le temps) avantageusement par ceux de la
librairie Numpy, qui gère l'algèbre linéaire en Python de manière
infiniment plus efficace avec ces `ndarray`!

**Exercice : régression linéaire (sans Numpy!)** Considérons les données:

In [None]:
x = [7.63, 4.95, 0.38, 6.78, 7.25, 4.47, 2.73, 5.21, 2.75, 7.21]
y = [16.27, 9.25, -2.0, 13.98, 18.14, 8.2, 0.75, 12.05, 5.27, 18.37]

1.  Écrire des fonctions `mean(x)`, `var(x)`, `covar(x,y)` qui
    calculent des moyennes, variances et covariances empiriques.
2.  Calculer les estimateurs des moindres carrés ordinaires
    $\hat{\beta}_0$ et $\hat{\beta}_1$ pour le modèle linéaire
    $$y = \beta_0 + \beta_1 x + \varepsilon.$$
3.  Vérifier que la prédiction pour $y$ en $x_1=6.5$ est de $14.52$.

**Exercice : étude de textes.** <span id="ex:gutenberg1" label="ex:gutenberg1"></span>

1.  Aller sur le site du [projet
    Gutenberg](https://www.gutenberg.org/browse/languages/fr),
    télécharger votre texte favori au format “Plain Text (UTF-8)” et le
    placer dans le même dossier que le script.
2.  Écrire une fonction `get_texte(fichier, n)` qui récupère les $n$
    premières lignes du fichier donné en argument, et renvoie leur
    concaténation en une longue chaîne de caractère, “nettoyée” par la
    fonction suivante:
    

In [None]:
import re
def nettoie(texte):
    # Convertir en minuscules.
    texte = texte.lower()
    # Séparer les apostrophes des mots suivants.
    texte = re.sub(r'\s*([\'])\s*', r'\1 ', texte)
    # Remplacer les sauts de lignes par des espaces.
    texte = re.sub(r'\n', ' ', texte)
    # Supprimer la ponctuation et renvoyer.
    return re.sub(r'[^a-zA-Z \-\'êèéâàûùçîôüëïöä]', '', texte)

*Attention à l'encodage du fichier*: si vous utilisez la fonction
`open()` pour ouvrir le fichier avec Python, il faudra sans doute
utiliser l'argument optionnel `encoding='utf8'`.

3.  Écrire une fonction `occurrences_mots(texte)` qui, étant donné une
    chaîne de caractère `texte`, renvoie un dictionnaire dont les clés
    sont les mots du texte, et dont les valeurs donnent le nombre
    d'occurrences de chaque mot.
5.  Se fixer $n$ le plus grand possible qui reste tel que l'exécution de
    la ligne `occurrences_mots(get_texte('votre_fichier.txt', n))` ne prenne
    pas trop de temps.
6.  Afficher les 100 mots les plus utilisés dans l'extrait choisi du
    texte téléchargé, et leur nombre d'occurrence.

**Exercice : permutations.** On s'intéresse ici aux permutations de $[\![0,n-1]\!]$.
On les modélise d'abord comme des tuples
$\sigma = (\sigma(0),\sigma(2),\dots,\sigma(n-1))$.

1.  Écrire une fonction `composition(sigma, tau)` qui renvoie
    $\sigma\circ\tau$.
2.  Écrire une fonction `inverse(sigma)` qui calcule $\sigma^{-1}$.
3.  Écrire une fonction `decomp_cycles(sigma)` qui effectue la
    décomposition en cycles de $\sigma$.  
    Par exemple, avec `sigma=(1, 6, 2, 4, 5, 3, 0)`, on obtient la décomposition en cycles `[(0, 1, 6), (2,), (3, 4, 5)]`.
4.  Écrire une fonction `reconstruit(cycles)` qui donne la forme
    “classique” de la permutation à partir de sa décomposition en
    cycles.
5.  On peut générer une permutation uniforme de $[\![0,n-1]\!]$ grâce au
    code suivant:
    

In [None]:
import numpy as np
def perm(n):
    return tuple(np.random.permutation(n))

Sur la base de simulations, établir un intervalle de confiance pour
la probabilité qu'une *grande* permutation uniforme ne contienne pas
de point fixe. Comparer avec la valeur asymptotique (quand
$n\to\infty$) de cette probabilité: $p=e^{-1}$.