wharf  ·  CV  ·  Cloudschooling  ·  Cicero  ·  Eugenio  ·  deiSSi  ·  SMS · ILVAT  ·  EnTeR  ·  -180  ·  tiICSti  ·  corpora  ·  VALEREproject  ·  lfsAG  ·  man bar  · 

SMS Monitor Studies




In questa fase - che con velleità informatica definiremo versione 1.2 -, il progetto SMS si riduce alla costruzione di un monitor corpus di messaggini.
Nel lungo periodo prevedo pagine di interrogazione del database più complesse e libere, ma il risibile numero di messaggi inseriti (per ora sono appena  1395) rende assai poco significativi i risultati di qualsiasi ricerca che intenda valutare fatti linguistici di una certa specificità; senza sperare di attenersi alla norma di considerare attendibili corpora con almeno un milione di parole, arrivare almeno a 500.000 fornirebbe ai dati ottenuti una qualche effettiva rappresentatività.

Questo monitor corpus è dunque una raccolta aperta di testi strutturati, nella fattispecie etichettati attraverso inserimento nel database, senza ambizioni di bilanciamento; esso rappresenta la varietà di italiano scritto per mezzo del telefono cellulare in un certo senso per accumulazione, nel suo divenire e trasformarsi.

L'inserimento da parte degli utenti è, come accennato, libero: chiunque lo desideri può inserire nuovi messaggi compilando il modulo predisposto a questo scopo.
Va detto, però che l'inserimento dei dati è abbastanza laborioso e riguarda essenzialmente le tradizionali variabili sociodemografiche (età dello scrivente, sesso, istruzione) più qualche informazione di natura prettamente linguistica.
Fatta questa premessa desidero annunciare che cerco collaboratori (ovviamente non retribuiti) disposti a lasciarsi istruire e ad etichettare anche la parte testuale del database: in cambio posso offrire l'opportunità di usufruire di strumenti di ricerca migliori inaccessibili agli utenti normali.

Per venire al sodo, in alto a destra sono presenti alcuni links che potrebbero interessarvi: innanzitutto è fornita la (carota) possibilità di fare ricerca: i dati SD sono i dati sociodemografici degli autori e delle autrici dei messaggini, la lista FR è la lista di frequenza del corpus (tutti i dati sono estratti dinamicamente dal database, e quindi aggiornati), i dati TXT sono dati sulla configurazione e il tipo di testo (per ora è ancora necessario conoscere i dettagli di inserimento per capire tutto); in secondo luogo sono presentate le norme di inserimento e il (bastone) modulo per arricchire il corpus con nuovi messaggi.
In ultima istanza il collegamento con password per accedere alla pagina di interrogazione avanzata (solo per informatori iscritti) e il link alla mia casella di posta per iscriversi (l'iscrizione comporta anche l'inserimento in un indirizzario da me gestito per tutto ciò che riguarda il progetto SMS, come le password per accedere alla ricerca avanzata. È inutile contattarmi per essere iscritti prima di aver inserito almeno una decina di SMS nel database).



Un progetto di questo tipo, aperto al contributo di chiunque desideri arricchire la base di dati, pone naturalmente il problema dell'affidabilità degli informatori (l'informatore è, nei limiti del presente testo, colui che inserisce i dati nella base di dati, che trascrive gli SMS. Colui che li scrive sarà in questa sede definito sempre come l'autore).
I problemi potenziali sono di due ordini:
  • intenzioni dolose di un informatore, il quale potrebbe corrompere i dati volontariamente, invalidando la ricerca (per ora sono stati trovati tre fakes su 1395 messaggi);
  • corruzioni dei dati involontarie: per ridurre al minimo le quali è stato stilato un elenco di richieste minime alle quali gli informatori dovrebbero attenersi (che è possibile leggere di seguito).


Cosa si richiede all'informatore o informatrice
  • i dettagli dell'inserimento di nuovi messaggi stanno nel menù nella colonna a lato, quelle che seguono sono indicazioni di massima;
  • non trascrivere i propri messaggi che ha inviato dopo aver saputo del presente progetto: non sapere del progetto potrebbe modificare il proprio modo di scrivere. Al limite, quando informatore ed autore corrispondono, questo va segnalato nella parte del modulo dedicata alle note;
  • va data la preferenza ai messaggi altrui, ad autori non a conoscenza della raccolta di SMS, e a coloro dei quali si hanno maggiori informazioni;
  • non correggere assolutamente i testi: scorciatoie grafiche, abbreviazioni, errori di digitazione e di grammatica, maiuscole strane, spazi saltati: tutto è interessante;
  • quando un messaggio è scritto senza spazi, è legittimo fare un'eccezione alla norma di non correzione: in tal caso si inseriscono gli spazi (e solo quelli!) e nelle note si trascrive il messaggio integro;
  • sostituire i numeri di telefono e i nomi propri con una sequenza di sette N maiuscole: quel che è messo in rete rimane a disposizione di tutti, e la privacy degli autori e dei loro conoscenti va tutelata - la stringa NNNNNNN sarà comunque riconoscibile come dato sensibile;
  • dati SD
  • di distinguere numeri di telefono e nomi nelle note, con una riga-tipo: nnnnnnn=numero di telefono oppure nnnnnnn=nome (mentre i nomi possono rivestire qualche interesse, per abbreviazioni o storpiature, i numeri non lo fanno assolutamente: segnalate solo che si tratta di un numero e non di un nome senza trascriverlo correttamente. per i nomi, invece, sarebbe opportuno trascriverli;
  • usate uno pseudonimo anche come informatori, per impedire che qualcuno, conoscendo voi, possa risalire agli autori; la vostra identità e il vostro pseudonimo saranno accessibili solo a me, che non me ne faccio niente;
  • in alcuni casi, come quando sono richiesti i dialetti conosciuti dall'autore, le parole vanno semplicemente giustapposte lasciano uno spazio fra una e l'altra (nel caso dei dialetti, si avrà allora: pugliese veneto sardo, e non: pugliese, veneto/sardo);
  • fino ad ora nella segnalazione della conoscenza delle lingue si è proceduto abbastanza grossolanamente, attribuendo - probabilmente - maggiori e migliori competenze linguistiche di quelle effettivamente possedute; continuate così: se una persona ha studiato l'inglese a scuola, e lo sa appena, segnalate comunque "inglese";
  • il campo delle note può essere anche usato per segnalare se un messaggio è in risposta ad un altro messaggio contenuto nel database. In tal caso è sufficiente attribuire un nome al primo termine della coppia adiacente (al primo messaggio), nel campo "note", e poi segnalare nelle note al secondo messaggio: "risposta al messaggio etichettato come..."; oppure, come è anche stato fatto, potete riportare il (vostro?) messaggio direttamente nelle note.
contenuti:
Cerca nel corpus:

Cerca nel corpus:
funzionamento parziale
Nel corpus:
è casuale il numero di

rispetto a:

collaborare:
introduzione
dettagli
inserire i dati
contatti:
IT+TECH: adrianoDOTallora
ATgmailDOTcom