Quien quiera ofrecer contenidos en línea a escala internacional, tarde o temprano se pregunta: ¿A qué idiomas merece la pena traducir?

Yo me la hice mientras valoraba traducir automáticamente entradas del blog con un LLM.

Datos disponibles (a 2020, investigados en 2025)

Wikipedia recoge un resumen del número de usuarios de Internet por idioma (marzo de 2020) (Tabla 1). De momento no he encontrado cifras más recientes.

Los mismos valores aparecen en otras fuentes, por ejemplo en wéb-tränslatiôns, StarAvis, Optimational (allí incluso se indican como si fueran de 2025), así como en una publicación en ResearchGate. Wikipedia señala como origen a Internet World Stats. Aunque el sitio ya no parece ofrecer estos datos, siguen accesibles en el Internet Archive con esas cifras exactas.

Puesto Idioma Usuarios de Internet Porcentaje del total de usuarios de Internet
1 Inglés 1.186.451.052 25,9 %
2 Chino 888.453.068 19,4 %
3 Español 363.684.593 7,9 %
4 Árabe 237.418.349 5,2 %
5 Indonesio 198.029.815 4,3 %

Vigencia de estas cifras

Es probable que la lista haya cambiado desde 2020. Por un lado, la población mundial creció en 300 millones entre 2020 y 2024. Por otro, la proporción global de usuarios de Internet subió del 59% al 68% en ese periodo. Este aumento fue especialmente marcado en economías emergentes, como India, Indonesia, Nicaragua o Filipinas. Así que en los últimos años se han sumado varios cientos de millones de usuarios de Internet, muchos de ellos con lenguas maternas distintas del inglés. Los dos primeros puestos (inglés y chino) probablemente se mantendrán por su peso absoluto. A partir del tercer puesto, el orden podría haberse movido.

También llama la atención que el hindi no figure en la tabla. En 2020, India tenía una penetración de Internet de algo más del 43%. A finales de 2019, según Ethnologue, unos 612 millones de indios hablaban hindi. Eso arroja unos 263 millones de usuarios de Internet que hablan hindi en 2020, lo que en realidad debería situar al hindi en el top 5:

1
2
3
612 millones de hablantes de hindi
x 43% usuarios de Internet (India)
≈ 263 millones de usuarios de Internet que hablan hindi

En las notas de la tabla se indica que a cada persona se le asignó un único idioma (enfoque de “suma cero”), aun cuando muchas son bilingües o multilingües. Es muy posible que gran parte de la población india se haya contabilizado como angloparlante. Una pista: no hay 1,5 mil millones de personas en el mundo con inglés como lengua materna ( L1). Al parecer se contabilizó también el inglés como segunda lengua (L2), mientras que otros idiomas de la tabla solo aparecen como L1.

Intento de deducir cifras actuales

Dado que no parecen existir estadísticas más recientes sobre usuarios de Internet por idioma, he intentado aproximar cifras actuales a partir de otros datos.

El Banco Mundial publica tanto el porcentaje de usuarios de Internet por país (basado en datos de la UIT, un organismo especializado de la ONU), como las cifras de población. Ambos conjuntos están disponibles como CSV y se prestan bien a su uso programático. Con ellos podemos calcular primero el número absoluto de usuarios de Internet por país, por ejemplo para Hong Kong:

1
7 524 100 habitantes x 96% de usuarios de Internet = 7 223 136 usuarios de Internet

Después necesitamos la distribución de idiomas por país para derivar de ahí los usuarios de Internet por idioma. Evidentemente es solo una aproximación, porque el uso de Internet no se reparte de forma uniforme entre lenguas. A partir de los resultados por país, se podrían estimar las cifras globales.

Posibles fuentes para los porcentajes lingüísticos por país:

Sin embargo, extraer manualmente los porcentajes por país a partir de Wikipedia sería un proyecto bastante laborioso, que por ahora no me resulta realista.

Plan B

Volvamos a la pregunta inicial: ¿Qué idiomas merece la pena priorizar al traducir contenidos en línea?

Ante la falta de datos actuales y fiables, de momento me guiaré por los idiomas más hablados: inglés, chino mandarín, hindi, español y árabe estándar.

Con el aumento de la penetración de Internet, la proporción de usuarios por idioma tenderá a aproximarse a la distribución real de idiomas de la población. Si en algún momento aparecen estadísticas sólidas y actualizadas de usuarios de Internet por idioma, podré ajustar mi selección.