La salut del català a Internet el 2005 - Softcatalà
Per Jordi Mas i Hernàndez/ jmas@softcatala.org
15/10/2005
1. Introducció
Aquest article és una revisió de l’
informe publicat l’any 2003
sobre la presència de la llengua catalana a Internet. S’ha cregut necessari, després de més dos anys –i això és molt de temps a Internet–, fer una revisió d’aquestes dades i actualitzar-les amb el màxim rigor possible.
Determinar amb exactitud la presència d’una llengua a Internet és una tasca complexa i fora de l’abast dels mitjans tècnics i humans de què disposem a Softcatalà. Internet no és només la web, hi ha multitud d’espais sensibles a les llengües, com ara el correu electrònic, els xats, els grups de discussió o la missatgeria instantània, que són difícils de mesurar, quan no impossibles, sense la col·laboració dels proveïdors d’accés a la Xarxa. En aquest article ens centrarem en mesurar la presència del català a la web.
2. Mètode utilitzat
Per a l’elaboració d’aquest article s’ha utilitzat la base de dades del cercador
Google
. Bàsicament, s’ha intentat interrogar amb la màxima fiabilitat possible la quantitat de pàgines web que té indexades per a cada llengua. S’ha utilitzat la tècnica anomenada “complement del conjunt buit” que es basa en cercar paraules no existents en una llengua per a determinar el nombre de pàgines indexades.
Aquestes dades són una mesura molt eficaç de la presència del català a Internet. En qualsevol cas, és important tenir presents els punts següents:
– L’informe de l’any 2003 es va fer usant el cercador
AllTheWeb
, mentre que l’actual s’ha realitzat amb el cercador
Google
. Això és un canvi força important, ja que les llengües comparades, així com la tecnologia sobre la que es basen els dos cercadors, són sensiblement diferents.
– El sistema utilitzat per Google per a determinar la llengua d’una pàgina es basa principalment en la freqüència d’aparició de determinats mots en les pàgines (
term frequency
). Aquests sistemes no són totalment fiables, ja que en pàgines petites, o per a llengües properes (com ara l’occità i el català), la detecció de la llengua pot ser incorrecta.
2. Dades sobre la presència del català a Internet (octubre 2005)
Aquestes són les dades que mostren la presència del català a Internet segons el cercador
Google
el mes d’octubre de 2005.
Cercador Google
Llengua
Pàgines l’octubre 2005
Pàgines l’agost 2003
Anglès
9.200.000.000
1.280.041.397
Francès
202.000.000
99.737.704
Alemany
184.000.000
182.005.546
Japonès
150.000.000
69.730.375
Castellà
133.000.000
65.814.567
Xinès
74.700.000
65.730.212
Italià
68.400.000
41.849.365
Holandès
54.300.000
41.119.851
Portuguès
44.000.000
37.695.762
10
Rus
43.200.000
42.276.247
11
Suec
42.100.000
14.901.968
12
Noruec
28.700.000
8.123.301
13
Txec
26.700.000
15.580.583
14
Finès
26.200.000
5.678.599
15
Coreà
24.400.000
64.606.324
16
Polonès
23.800.000
22.154.325
17
Danès
22.200.000
12.107.133
18
Hongarès
15.100.000
8.540.941
19
Àrab
12.600.000
2.470.616
20
Turc
11.200.000
4.704.212
21
Hebreu
10.100.000
4.792.646
22
Grec
9.230.000
2.366.733
23
Indonesi
8.660.000
1.044.038
24
Croat
7.950.000
1.672.582
25
Romanès
7.250.000
2.052.990
26
Català
7.140.000
2.926.550
27
Eslovè
6.950.000
1.685.426
28
Estonià
6.510.000
1.464.539
29
Eslovac
6.130.000
5.077.965
30
Letó
5.750.000
559.913
31
Lituà
5.720.000
1.078.341
32
Islandès
5.250.000
1.391.302
33
Búlgar
3.810.000
1.120.713
34
Serbi
3.340.000
42.848
Notes
1. Les dades relatives al xinès inclouen les pàgines escrites en xinès tradicional i xinès simplificat.
3. Nombre relatiu de pàgines web per parlant
La taula següent mostra, de més gran a més petit, el nombre de pàgines per parlant, és a dir, el seu nombre relatiu.
Cercador Google
Llengua
Pàgines web (mostra)
Parlants
Pàgines per parlant
Anglès
9.200.000.000
341.000.000
26,98
Islandès
5.250.000
250.000
21,00
Estonià
6.510.000
1.100.000
5,92
Noruec
28.700.000
5.000.000
5,74
Suec
42.100.000
9.000.000
4,68
Finès
26.200.000
6.000.000
4,37
Danès
22.200.000
5.326.000
4,17
Letó
5.750.000
1.543.844
3,72
Eslovè
6.950.000
2.000.000
3,48
10
Francès
202.000.000
72.000.000
2,81
11
Holandès
54.300.000
20.000.000
2,72
12
Txec
26.700.000
12.000.000
2,23
13
Hebreu
10.100.000
5.150.000
1,96
14
Alemany
184.000.000
100.000.000
1,84
15
Lituà
572.0000
3.125.281
1,83
16
Japonès
150.000.000
126.000.000
1,19
17
Italià
68.400.000
62.000.000
1,10
18
Eslovac
6.130.000
5.606.000
1,09
19
Català
7.140.000
6.565.000
1,09
20
Hongarès
15.100.000
145.00.000
1,04
21
Grec
9.230.000
12.000.000
0,77
22
Polonès
23.800.000
44.000.000
0,54
23
Búlgar
3.810.000
8.954.811
0,43
24
Castellà
133.000.000
322.000.000
0,41
25
Croat
7.950.000
21.000.000
0,38
26
Indonesi
8.660.000
23.143.354
0,37
27
Coreà
24.400.000
78.000.000
0,31
28
Serbi
3.340.000
11.144.758
0,30
29
Romanès
7.250.000
26.000.000
0,28
30
Rus
43.200.000
167.000.000
0,26
31
Portuguès
44.000.000
176.000.000
0,25
32
Turc
11.200.000
61.000.000
0,18
33
Xinès
74.700.000
885.000.000
0,08
34
Àrab
12.600.000
213.223.637
0,06
Notes
1. Les dades del nombre de parlants provenen d’
Ethnologue
2. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i en xinès simplificat.
3. Les dades sobre el nombre de parlants del català varien segons les fonts (vegeu
Generalitat de Catalunya
). S’ha decidit usar les dades provinents d’Ethnologue per a totes les llengües i no fer cap modificació per a cap d’elles. Cal destacar que Ethnologue considera solament el nombre de parlants que tenen una llengua com a materna.
Conclusió
A tall de conclusió, podem afirmar que, en menys de dos anys, s’ha doblat el nombre de pàgines web indexades en català, i que el català, segons aquest estudi, és avui dia la vint-i-sisena llengua a Internet. Cal remarcar que l’increment de pàgines web és degut en part a que els cercadors actuals tenen més pàgines web indexades que l’any 2003.
El català a Internet continua amb una forta posició respecte a altres llengües, i la popularització dels blocs en llengua catalana ha suposat també un increment important del nombre de pàgines disponibles.
Bibliografia recomanada
Informe de Vilaweb sobre la presència del català l’any 2000
Informe de Softcatalà sobre la presència del català l’any 2003
Baròmetre de l’ús del català a Internet
Observatori de les llengües i cultures de Funredes
Anàlisis d’Alis de les llengües a Internet (1997)
Les llengües del món
Millan, José Antonio. (2001): Internet y el español
Fundación Retevisión
Comentaris
US