12
PARTE PRIMA – LA TEORIA
1. LA REALTA’ VIRTUALE
Nell’approcciare questo mondo ci si può imbattere in almeno tre diverse denominazioni:
Cyberspazio, Realtà Artificiale e Realtà Virtuale. Spesso questi termini sono trattati a tutti
gli effetti come dei sinonimi invece, una più accurata riflessione, evidenzia delle importanti
differenze di significato. E’ bene che ci chiariamo preliminarmente le idee in tal senso, in
modo da affrontare poi la tematica che ci interessa con maggiore confidenza.
Ecco quindi la distinzione secondo l’autore americano Myron Kreuger [Kreuger, 1992],
posizione per altro condivisa dalla maggior parte degli esperti in questo campo:
Cyberspazio: è il termine più antico, coniato nel 1984 da William Gibson nel suo
romanzo Neuromancer, e sta ad indicare il luogo dove è possibile sperimentare la
virtualità simultaneamente da più persone in tutto il mondo. Il fine è quello di far
coesistere con una sorta di unione tecnologico-culturale, mondi completamente
diversi e lontani creando una realtà sostitutiva a quella reale, in grado di mettere
in comunicazione allo stesso modo e su piani identici tutti i popoli [Gallarini,
1994].
Realtà Artificiale: permette di sperimentare un mondo che non esiste,
infrangendo le leggi della fisica che governano la nostra vita reale. Dentro a
questa dimensione possiamo quindi volare, passare attraverso i muri,
volatilizzarci, ecc. Per la sua caratteristica di estrema libertà, senza condizioni,
vincoli o limiti, è stata esaltata nella sua espressione artistica.
Realtà Virtuale: è la possibilità di entrare in un mondo verosimile, e quindi
esistente, almeno per il fatto che risponde puntualmente a tutte le leggi della
13
fisica. Quando ci troveremo all’interno di esso non potremo quindi fare tutto ciò
che vogliamo: se attraversiamo dei binari, potremo essere travolti da un treno, se
viene raffigurata una barriera fisica, non potremo oltrepassarla, almeno se non
attraverso metodi del tutto simili a quelli che utilizziamo nella realtà. Quindi
saremo in grado di esplorare il mondo fantastico nel quale siamo immersi ma
restando vincolati alle leggi fisiche con le quali conviviamo quotidianamente.
Esaurita questa doverosa puntualizzazione didascalica, diciamo che ai fini di quanto sto
esponendo, ci focalizzeremo unicamente sulla terza fattispecie.
Può essere forse sfuggito (io stesso me ne sono reso conto scrivendo queste pagine), ma il
sintagma “Realt{ Virtuale” è a tutti gli effetti un ossimoro in quanto “vengono accostati due
termini i cui significati si respingono vicendevolmente”.
La logica infatti imporrebbe che una qualunque cosa o sia reale o sia virtuale. In altre
parole: delle due, l’una!
Per contro, la presunta incompatibilità tra quel sostantivo e quell’aggettivo qualificativo,
trova invece una sua ragion d’essere nel momento in cui si valutano a “corpo”. Tanto che,
quasi in ossequio al famoso moto gestaltico, ci si può azzardare ad affermare che in questo
caso “L’insieme…” (cioè le due parole abbinate) “…è diverso (e di più) della somma delle
singole parti” (ovvero le due parole prese da sole).
Nei prossimi capitoli prenderemo confidenza con questo mondo, solo apparentemente
contradditorio, passando dai suoi aspetti più tecnologici a quelli invece cognitivi, che sono
poi il preludio alla tesi che intendiamo dimostrare.
14
1.1 Definizione
Jonathan Steuer e Steven R. Ellis, due americani, pionieri di questa tematica, definivano, in
due diversi articoli apparsi nei primi anni ’90, la RV come “Un insieme di dispositivi
informatici in grado di consentire un nuovo tipo di interazione uomo-computer” [Steuer,
1992; Ellis, 1994].
A distanza di quasi vent’anni, se ricerchiamo, più asetticamente il termine “Realt{
Virtuale” in un dizionario, troviamo la seguente indicazione “Simulazione con tecniche
elettroniche multimediali di una realtà che dà la sensazione di essere effettiva”
1
.
Queste due definizioni, condivise largamente dalla Comunità Scientifica, a prima vista
potrebbero sembrare riduttive, quasi banalizzanti di un argomento così vasto. Tuttavia ad
un’analisi più attenta entrambe offrono un’occasione di riflessione - che nelle prossime
pagine andrò a circostanziare in dettaglio - sui due aspetti peculiari della RV: da una parte
la sua caratteristica imprescindibilmente tecnologica (“Insieme di dispositivi informatici”,
“Tecniche elettroniche multimediali”), dall’altra il riferimento alle “esperienze” che è in
grado di suscitare nell’utente (“Nuovo tipo di interazione uomo-computer”, “Realtà che dà la
sensazione di essere effettiva”).
Sebbene ai fini della mia trattazione l’interesse verso quest’ultimo aspetto risulti
ampiamente preminente, e pertanto sarà più approfonditamente indagato, è importante
avere qualche nozione sulle caratteristiche tecniche sottostanti la RV e sugli strumenti da
essa utilizzati.
1.2 Gli strumenti
Da un punto di vista tecnologico, la RV è un ambiente grafico, dinamico, generato dal
computer. Essa può essere bi- o tri-dimensionale (quest’ultima modalit{ offre ovviamente
1
Tratto da Il Grande Dizionario d’italiano, pubblicato da Garzanti Linguistica, Milano, 2010
15
maggiore coinvolgimento simulando la sensazione di profondità) ed è costituita da una
serie di strumenti di input e di output [Vincelli, Riva, Molinari, 2007].
Gli strumenti di input (ingresso)
2
sono quelli attraverso i quali l’utente è in grado di far
pervenire al computer alcune informazioni che verranno integrate e codificate in tempo
reale in modo da formare un’immagine in movimento. I principali strumenti di input
attualmente esistenti sono:
Sensori di posizione
Guanti
Tute
Webcam sofisticate
Gli strumenti di output (in uscita)
3
, di converso, sono quelli che restituiscono all’utente
l’immagine elaborata dal computer in modo che questi possa vivere “l’esperienza” virtuale.
I principali strumenti di output attualmente esistenti sono:
Caschi (Head Mounted Display),
Occhiali Video,
Monitor
Sistemi di suono surround,
Simulatori olfattivi
Simulatorie tattili
Simulatori di condizioni meteorologiche (es. temperatura, vento, acqua)
2
Il termine “ingresso” va considerato dalla prospettiva del computer e non dell’utente
3
Il termine “in uscita” va considerato dalla prospettiva del computer e non dell’utente
16
Figura 1: utente che indossa strumenti di input e output
(Courtesy of HowStuffWorks.com – All rights Reserved)
Compreso il meccanismo bidirezionale assunto dagli strumenti di input e output rispetto
al computer, appare evidente che le informazioni devono essere elaborate al fine di
costruire un’immagine (meglio se tridimensionale) il più possibile corrispondente al
movimento compiuto e in tempi rapidi tali da creare un’illusione di concomitanza. E’ in
questo modo che l’utente sperimenta un ambiente che, benché generato da una macchina,
è del tutto simile (o molto prossimo) alla realtà [Ibidem].
1.3 Categorie e caratteristiche
Vi sono differenti livelli incrementali di simulazione forniti dalla RV, anche in funzione
degli obiettivi che si vogliono raggiungere. Tali livelli sono strettamente dipendenti dagli
strumenti di input ed output che abbiamo illustrato nel precedente capitolo.
Vediamoli più nel dettaglio: si parla di RV immersiva quando i canali percettivi del soggetto
sono completamente isolati e si sperimenta quindi una totale “immersione” nell’ambiente
tridimensionale generato dal computer. Questa sensazione è garantita da un particolare
casco, denominato Head Mounted Display, già citato precedentemente, che, una volta
17
indossato, è in grado di visualizzare in due o tre dimensioni gli ambienti elaborati dal
computer ed al contempo isolare l’utente dall’ambiente esterno. Negli ultimi anni, a questi
caschi molto sofisticati (ma anche piuttosto costosi e scomodi da indossare), si stanno
affiancando occhiali speciali con visori a LCD. Si tratta di supporti ovviamente più leggeri
(che quindi non affaticano il collo), più economici, e che garantiscono un buon livello di
immersività (anche se non ancora ai livelli degli H.M.D.). Uno o più sensori di posizione
4
sono inseriti nel casco o negli occhiali, in modo da rilevare i movimenti dell’utente e
trasmetterli al computer affinché questo possa modificare l’immagine tridimensionale
sulla base del punto di vista del soggetto. Ad integrazione di questi tracker, possono essere
aggiunti guanti speciali o tute dotate di sensori di posizione [Ibidem].
Figura 2: strumenti di RV che consentono un’esperienza totalmente immersiva
(Courtesy of vrealities.com e Vuzix.com – All rights Reserved)
La RV non immersiva, come suggerisce il termine, è, invece, meno coinvolgente. I caschi e
gli occhiali sono sostituiti da un monitor, più o meno grande, e l’utente ha l’impressione di
vedere il mondo creato dal computer attraverso una sorta di “finestra”.
In genere i sistemi di RV non immersiva permettono la visione stereoscopica solo
utilizzando degli occhiali speciali e riproducono graficamente solo indici di profondità
monoculari, quali grandezza relativa, gradiente di tessitura o paralasse di movimento. Ai
4
I sensori di posizione sono denominati anche tracker (tracciatori)
18
primi occhiali stereoscopici con lenti di colore diverso (rosse e verdi, o rosse e blu) che
fornivano all’osservatore due immagini solo leggermente diverse per ciascun occhio, sono
stati recentemente introdotti occhiali che utilizzano otturatori a cristalli liquidi o
polarizzazione della luce per ottenere immagini diverse per l’occhio destro e per quello
sinistro [Ibidem].
E’ ragionevole pensare che, lo straordinario sviluppo che ha avuto la recente produzione
cinematografica in 3D, e la conseguente comparsa dei primi televisori a display
tridimensionali, fungerà sicuramente da traino per questo settore, introducendo
progressivamente il classico mercato mass-market che ha come primo effetto
l’abbattimento dei costi di produzione. Inoltre, la Società sudcoreana Samsung – leader
mondiale nella vendita di televisori LCD – nel corso dell’ultimo CES
5
a Las Vegas ha
annunciato la commercializzazione di speciali monitor-TV che consentiranno la
visualizzazione stereoscopica senza alcun supporto da indossare.
In altre parole l’effetto 3D sar{ garantito da televisori e/o monitor che non richiederanno
l’uso degli occhialini polarizzati, e quindi in modalit{ del tutto analoga a quanto avviene
adesso per la visione classica bi-dimensionale.
E’ evidente che a quel punto la RV non immersiva potrà conoscere una stagione di grande
sviluppo.
5
Il CES (Consumer Electronics Show) è la più grande fiera dell’elettronica mondiale ed è spesso l’evento nel quale la
case produttrici annunciano le tendenze di mercato e le conseguenti previsioni di produzione nel breve-medio
termine.
19
Figura 3: esempio di sistema di RV non immersivo
(Courtesy of G. Riva – All rights Reserved)
Esiste infine una dimensione a metà strada, denominata RV semi immersiva basata su
schermi di proiezione con differenti forme e gradi di convessità in grado di isolare
maggiormente l’utente dal mondo esterno e di permettere la riproduzione di adeguati
indici di profondit{ dell’immagine. Si tratta generalmente di piccole stanze in cui le pareti,
il soffitto e il pavimento vengono sostituiti da schermi retroproiettati. I movimenti
dell’utente sono rilevati da appositi tracciatori che permettono l’aggiornamento
dell’ambiente grafico visualizzato sulle pareti. Questo sistema viene spesso denominato
CAVE
6
, proprio per il suo senso di “avvolgimento” grafico che ricorda la sensazione di
essere in una caverna.
6
L’acronimo CAVE sta per Cave Audio Visual Environment, dal nome della prima installazione di questo tipo
realizzata agli inizi degli anni novanta dall’Università dell’Illinois a Chicago.
20
Figura 4 - Esempio di sistema RV semi immersivo
(Courtesy of Howstuffworks.com – All rights Reserved)
Non sarà sfuggito nella lettura delle precedenti righe, che esistono almeno due peculiarità
elettive in grado di avvicinare il più possibile la RV al mondo reale.
La prima è la sua potenziale caratteristica tridimensionale
7
. In tal senso è bene specificare
che non tutte le costruzioni grafiche di cyberspazio lo sono; esistono ambienti virtuali
bidimensionali
8
che possono validamente assolvere a molteplici applicazioni (ivi compresa
la psicoterapia di cui tratta questo documento) ma è evidente che il grado di
coinvolgimento fornito dalla visione 3D sia molto più coinvolgente.
Ciò è imputabile essenzialmente ad un fattore determinante: la constatazione che
filogeneticamente gli esseri umani utilizzano la visione come senso dominante (a
differenza invece di molti animali che hanno più sviluppati fiuto, udito, ecc.). Per mezzo del
sistema visivo essi infatti non solo percepiscono lo spazio circostante ma in questo spazio
sviluppano gli eventi dell’esperienza quotidiana. Questa evidenza giustifica il fatto che alla
7
La tridimensionalità è caratterizzata da: larghezza, altezza, profondità
8
La bidimensionalità è caratterizzata da: larghezza e altezza
21
base della maggior parte dei sistemi di RV ci sia la generazione su computer di un
ambiente visivo tridimensionale illusorio, un ambiente virtuale (virtual environment), che
sia esplorabile in tempo reale e nel quale il soggetto possa interagire con gli oggetti
contenuti al suo interno.
La seconda caratteristica peculiare della RV, è la possibilit{ di inviare all’elaboratore le
informazioni sul proprio movimento in modo che esso possa costruire l’ambiente grafico
senza che l’utente debba fare uso di strumenti di mediazione tradizionali. E’ quello che con
un termine americano si definisce embodiment [Riva, 2006].
Proviamo a comprendere la sostanziale differenza tra i due sistemi con un esempio.
Io posso indicare al computer che l’immagine che sto visualizzando deve ruotare verso
destra in due modi: o agendo su un sistema di puntamento classico (un mouse, un joystick,
una tastiera, ecc.) oppure, se ho strumenti di input traccianti, semplicemente ruotando la
testa. In altre parole il tracker montato sul mio casco o sui miei occhiali o, in alternativa,
speciali webcam dislocate nell’ambiente, intercetteranno il mio movimento e passeranno
automaticamente l’istruzione al computer senza che io debba fare altro. Non vi è dubbio
che questa seconda modalità risulta essere la più naturale (cioè quella che adottiamo nella
vita di tutti i giorni quando sperimentiamo il mondo circostante) ed è, pertanto quella che
attiva più facilmente i processi cognitivi ad essa abbinati.
In altre parole l’interazione incarnata (embodied interaction) ha come obiettivo principale
l’uso della corporeit{ per facilitare e rendere il più naturale possibile l’interazione uomo-
computer.
Anche in questo caso, stiamo parlando dell’eccellenza. Infatti non è detto che tutti gli
apparati di RV siano dotati di questi costosi sistemi di tracciamento e, come per la
22
tridimensionalità, questo non significa che, laddove non vi siano, la loro funzionalità sia
fortemente compromessa.
1.4 Gli elementi degli ambienti virtuali
La lettura del capitolo precedente ci ha chiarito che possiamo definire un ambiente
virtuale come la simulazione su un computer di una rappresentazione grafica,
possibilmente tridimensionale, esplorabile in tempo reale e nel quale un soggetto può, più
o meno sofisticamente, interagire con gli oggetti contenuti nel suo interno.
Veniamo ora a descrivere quali sono gli elementi contenuti all’interno di questo “mondo”.
Ogni ambiente virtuale contiene al suo interno tre costituenti: un contenuto, una geometria
e una dinamica [Ellis, 1994].
Il contenuto è costituito dall’insieme della qualit{ degli oggetti presenti nell’ambiente.
Ogni oggetto è infatti rappresentato con un insieme di proprietà che includono colore,
trasparenza, brillantezza, texture
9
, ecc. che sono modificabili secondo gli obiettivi dello
sviluppatore.
Oltre ad oggetti statici (sfondo, arredamenti, ecc.) è possibile introdurre anche elementi
attivi, denominanti agenti (persone, animali, ecc.), a cui è possibile attribuire la capacità di
interazione col soggetto. Quando questi oggetti si muovono nell’ambiente,
indipendentemente dall’azione dell’utente, prendono il nome di attori e svolgono, se
vogliamo introdurre una metafora cinematografica, la medesima funzione delle comparse
nei film.
L’obiettivo, come sempre, è quello di rendere il più naturale possibile lo stage, giacché
trovarsi completamente soli in una piazza, o in un vagone della metropolitana o ancora in
9
Texture è un’immagine di qualsiasi tipo utilizzata per rivestire la superficie di un oggetto virtuale, tridimensionale o
bidimensionale, con un apposito programma di grafica
23
un supermercato, per quanto ottimamente rappresentati da un punto di vista della qualità
grafica, passerebbe comunque una sensazione di indubbia artificialità.
Anche l’utente, a sua volta, dovr{ essere definito all’interno del contenuto di un ambiente
virtuale sotto forma di attore. Il nome ad esso attribuito sar{ “self” e potrà prendere la
forma di un agente o costituirà il punto di vista da cui ogni volta lo scenario viene
modificato.
La geometria di un ambiente fa riferimento alle caratteristiche fisiche che lo sviluppatore
intende dargli nel suo complesso. Da un lato esso potrà essere bi- o tri-dimensionale,
utilizzare indici di profondità, e così via. Dall’altro la geometria dell’environment definisce
l’estensione dello stesso: un ambiente può essere chiuso (come per esempio una stanza),
aperto (come per esempio una piazza), semi aperto (come per esempio un supermercato,
una stazione, ecc.).
La dinamica, infine, si riferisce alle regole di interazione fra i contenuti che il progettista
deve tenere presente nella creazione della simulazione. Abbiamo già richiamato
precedentemente che, in linea generale, perché un ambiente virtuale sia credibile, gli
oggetti contenuti al suo interno dovranno prima di tutto essere reali (quindi niente draghi,
folletti, creature di fantasia) e, di conseguenza, rispondere alle normali leggi della fisica a
che sperimentiamo nel mondo non simulato. Questo significa che, a parte alcune scelte
deliberate fatte dagli sviluppatori per particolari esigenze applicative, gli oggetti fisici non
dovranno essere oltrepassati e, se toccati da self (ovvero l’utente), dovranno avere un
movimento e un’accelerazione corrispondenti alla forza che è stata loro imposta.
Quindi attraverso l’interazione tra contenuto, geometria e dinamica, il computer elabora
l’immagine tridimensionale finale. Viene definita “computer grafica” (dall’inglese
“computer graphics”) l’insieme delle tecniche informatiche di disegno, generazione
24
automatizzata e modifica di immagini 2D e 3D, fisse o in movimento, che consente di
produrre l’immagine tridimensionale finale. La tecnica principale della computer grafica è
il rendering, che converte le proprietà degli oggetti in elementi grafici utilizzando una serie
di algoritmi.
Dopo un’elaborazione preliminare della scena che produce un’immagine composta da
semplici linee che collegano i vertici dei diversi oggetti presenti (wireframe), inizia la fase
di rendering vera e propria. A seconda dell’algoritmo utilizzato viene prodotta
un’immagine più o meno realistica, e quindi dotata, ad esempio, di ombreggiatura,
trasparenze e capacità di riflettere la luce.
Figura 5: in questa immagine è proposto un esempio di processo di rendering che inizia
a sinistra con la modalità wireframe e termina a destra con la grafica realistica.
(Courtesy of virtualgraphics.com. All Rights Reserved)
1.5 L’esperienza nella realtà virtuale
Dopo aver preso confidenza con gli aspetti tecnologici riguardanti la RV, siamo ora in
grado di affrontare l’aspetto che più ci interessa ai fini dell’argomento che vogliamo
25
trattare in questa tesi, ovvero, che tipo di esperienza percepisce un utente quando si
“immerge” in un ambiente virtuale.
Nel nostro caso, invito il lettore a fare addirittura un passo in più, cominciando
progressivamente a sostituire, almeno mentalmente, il termine “utente” con il termine
“paziente”. Così facendo quando si arriver{ a trattare le varie psicoterapie che si avvalgono
della RV, si sar{ gi{ familiarizzato con il fatto che l’utente non è più un soggetto che vuole
fare un esperimento più o meno ludico, bensì una persona che si trova in una condizione di
disagio, difficoltà e sofferenza dovuta ad un disturbo.
Da un punto di vista esperienziale, cominciamo subito col dire che la RV rappresenta un
cambiamento radicale nel rapporto uomo-computer. Infatti, a differenza delle altre forme
di comunicazione mediata, in RV avviene il fondamentale passaggio dalla sensazione di
“stare percependo un’informazione”, alla sensazione di “essere nel luogo
dell’informazione”.
La risposta cognitiva ed emozionale che ne deriva porta l’utente da mero osservatore di
un’esperienza, a protagonista della stessa. In questo modo il soggetto non è più un passivo
ricettore di informazioni, ma compie scelte deliberate all’interno del medium
comunicativo così da definire ed essere artefice della propria esperienza soggettiva.
Ma quali sono gli agenti che consentono tale trasformazione? La risposta a questa
domanda è piuttosto complessa e va ricercata a partire dagli sviluppi più recenti delle
scienze cognitive [Vincelli, Riva, Molinari, 2007].
In particolare due teorie, quella della cognizione situata e quella della cognizione
incarnata, hanno modificato il concetto di conoscenza: da capacità di manipolazione
simbolica a capacit{ di organizzazione dell’azione. Alla base di questo cambiamento c’è la
scoperta che le rappresentazioni di eventi percepiti (percezioni) e di eventi da eseguire
26
(azioni) si avvalgono dello stesso dello stesso codice di tipo motorio [Knoblich e Flach,
2003].
In altre parole, quando un soggetto pianifica e/o osserva un’azione, attiva una simulazione
motoria collegata al contesto in cui si svolge o si svolger{ l’azione.
Questa simulazione scatena delle rappresentazioni interne degli stati corporei associati a
quelle azioni, vale a dire delle sensazioni esattamente “come se” il soggetto stesse
compiendo un’azione simile o provando una simile emozione o sensazione.
Per fare un esempio, la vista di un arancio attiverebbe una simulazione mentale degli atti
motori per prenderlo; la vista di un soggetto che allunga la mano verso l’arancio,
attiverebbe una simulazione dell’azione che questo sta per compiere.
A conforto di questa posizione ci sono delle evidenze biologiche. Infatti un gruppo di
neurofisiologi di Parma coordinati dal Prof. Giacomo Rizzolatti, hanno scoperto nella
corteccia cerebrale l’esistenza di due gruppi di neuroni bimodali
10
che si attivano sia
durante l’esecuzione di azioni correlate ad oggetti sia durante l’osservazione degli oggetti
stessi, anche in assenza di qualunque esecuzione esplicita dell’azione.
Il primo gruppo di neuroni, denominati “canonici”, si attiva anche quando il soggetto
guarda un oggetto a cui potrebbe essere rivolta la propria azione. Il secondo gruppo di
neuroni, denominati “a specchio”, si attiva invece quando il soggetto osserva un altro
soggetto che compie la stessa azione [Rizzolatti e Sinigallia, 2006].
Dal momento che la RV contempera sia la dimensione corporea/motoria sia quella
simulativa, questo scenario teorico suggerisce la possibilità di utilizzarla per intervenire
sui processi di concettualizzazione attraverso la simulazione.
10
L’aggettivo “bimodali” sta ad indicare che i neuroni sono sia motori che sensitivi