Les requêtes doivent être formulées en langage CQL (Corpus Query Language).
Le corpus, annoté syntaxiquement, contient 2 554 567 tweets géolocalisés, soit 31 868 064 tokens.
Pour chaque token, la recherche peut porter sur sa forme (word), son lemme (lemma), ou sa catégorie grammaticale (pos).
Exemples :
Mémo POS
Mémo regex
| [] | délimite un élément | [word="chat"] |
|---|---|---|
| & | et | [pos="DET"&lemma="le"] |
| | | ou | [pos="ADV|V"] |
| . | n'importe quel caractère | [word=" |
| ? | une ou aucune fois | [word="partie?s?"] |
| + | une ou plusieurs fois | [lemma="!+"] [word="j.+"] |
| * | 0, une, ou plusieurs fois | [word=".*antes"] |
| [^] | exclure un ou plusieurs caractères | [word="j[^' ]"] |
| () | capturer un groupe | [word="mang(é|ée|és)"] |
| ^$ | début et fin | [lemma="^a.*z$"] |
| %c | ne prend pas en compte la casse | [word="soleil"%c] |
| .?*+|()[]{}^$ | caractères à échapper | [word="\?"] |
| NC | nom commun | NPP | nom propre |
|---|---|---|---|
| DET | déterminant | P | préposition |
| P+DET | préposition+déterminant | P+PRO | préposition+pronom |
| ADJ | adjectif | ADV | adverbe |
| V | verbe | VINF | verbe infinitif |
| VIMP | verbe impératif | VPP | verbe participe passé |
| VPR | verbe participe présent | VS | verbe subjonctif |
| CC | conjonction coordination | CS | conjonction subordination |
| PRO | pronom | CLS | pronom clitique sujet |
| CLO | pronom clitique objet | CLR | pronom clitique réfléchi |
| PROREL | pronom relatif | ADVWH | adverbe interrogatif |
| PROWH | pronom interrogatif | ADJWH | adjectif interrogatif |
| DETWH | déterminant interrogatif | ET | langue étrangère |
| PREF | préfixe | I | interjection |
| PONCT | ponctuation |
| tri | Contexte Gauche | Motif recherché | Contexte droit | Code Insee |
|---|