Les requêtes doivent être formulées en langage CQL (Corpus Query Language).
Le corpus, annoté syntaxiquement, contient 2 554 567 tweets géolocalisés, soit 31 868 064 tokens.
Pour chaque token, la recherche peut porter sur sa forme (word), son lemme (lemma), ou sa catégorie grammaticale (pos).
Exemples :
Mémo POS
Mémo regex
[] | délimite un élément | [word="chat"] |
---|---|---|
& | et | [pos="DET"&lemma="le"] |
| | ou | [pos="ADV|V"] |
. | n'importe quel caractère | [word=" |
? | une ou aucune fois | [word="partie?s?"] |
+ | une ou plusieurs fois | [lemma="!+"] [word="j.+"] |
* | 0, une, ou plusieurs fois | [word=".*antes"] |
[^] | exclure un ou plusieurs caractères | [word="j[^' ]"] |
() | capturer un groupe | [word="mang(é|ée|és)"] |
^$ | début et fin | [lemma="^a.*z$"] |
%c | ne prend pas en compte la casse | [word="soleil"%c] |
.?*+|()[]{}^$ | caractères à échapper | [word="\?"] |
NC | nom commun | NPP | nom propre |
---|---|---|---|
DET | déterminant | P | préposition |
P+DET | préposition+déterminant | P+PRO | préposition+pronom |
ADJ | adjectif | ADV | adverbe |
V | verbe | VINF | verbe infinitif |
VIMP | verbe impératif | VPP | verbe participe passé |
VPR | verbe participe présent | VS | verbe subjonctif |
CC | conjonction coordination | CS | conjonction subordination |
PRO | pronom | CLS | pronom clitique sujet |
CLO | pronom clitique objet | CLR | pronom clitique réfléchi |
PROREL | pronom relatif | ADVWH | adverbe interrogatif |
PROWH | pronom interrogatif | ADJWH | adjectif interrogatif |
DETWH | déterminant interrogatif | ET | langue étrangère |
PREF | préfixe | I | interjection |
PONCT | ponctuation |
tri | Contexte Gauche | Motif recherché | Contexte droit | Code Insee |
---|