SoSweet - Atlas


Les requêtes doivent être formulées en langage CQL (Corpus Query Language).
Le corpus, annoté syntaxiquement, contient 2 554 567 tweets géolocalisés, soit 31 868 064 tokens.
Pour chaque token, la recherche peut porter sur sa forme (word), son lemme (lemma), ou sa catégorie grammaticale (pos).


Exemples :

  • "rugby"%c - recherche de toutes les occurrences de "rugby", sans prendre en compte la casse des caractères
  • [lemma="plage"] - recherche de toutes les formes du lemme "plage"
  • [word="t'|j'|j’|t’"%c] [pos="V"&word="[^aehioué].*"%c] - recherche des cas d'élision devant un verbe débutant par une consonne

Mémo POS

Mémo regex

[] délimite un élément [word="chat"]
& et [pos="DET"&lemma="le"]
| ou [pos="ADV|V"]
. n'importe quel caractère [word=""]
? une ou aucune fois [word="partie?s?"]
+ une ou plusieurs fois [lemma="!+"] [word="j.+"]
* 0, une, ou plusieurs fois [word=".*antes"]
[^] exclure un ou plusieurs caractères [word="j[^' ]"]
() capturer un groupe [word="mang(é|ée|és)"]
^$ début et fin [lemma="^a.*z$"]
%c ne prend pas en compte la casse [word="soleil"%c]
.?*+|()[]{}^$ caractères à échapper [word="\?"]
NC nom commun NPP nom propre
DET déterminant P préposition
P+DET préposition+déterminant P+PRO préposition+pronom
ADJ adjectif ADV adverbe
V verbe VINF verbe infinitif
VIMP verbe impératif VPP verbe participe passé
VPR verbe participe présent VS verbe subjonctif
CC conjonction coordination CS conjonction subordination
PRO pronom CLS pronom clitique sujet
CLO pronom clitique objet CLR pronom clitique réfléchi
PROREL pronom relatif ADVWH adverbe interrogatif
PROWH pronom interrogatif ADJWH adjectif interrogatif
DETWH déterminant interrogatif ET langue étrangère
PREF préfixe I interjection
PONCT ponctuation
Résultats de la requête
tri Contexte Gauche Motif recherché Contexte droit Code Insee