Dead Channel






      "The sky above then port was the color of television, 
       tuned to a dead channel..."
      Neuromancer


17 April, 2007

Jugando con letras III: Demasiado caos

Escrito a las 13:23 en la categoría: Informatica y Tecnología

Esta es la tercera entrega de la serie de entradas sobre codificaciones, aleatoriedad y probabilidad enfocada a cadenas de caracteres. En el primero hablaba un poco sobre como entiende nuestro cerebro las palabras. Si le echais un ojo veréis que podemos modificar en gran medida las palabras, que creemos inmutables, y aun así seguiremos siendo capaces de reconocerlas e incluso de leerlas a velocidad normal. En la segunda entrega puse algunas cifras sobre combinatoria de caracteres a la hora de formar palabras y cuantas palabras podrían existir.

Esta entrega no me pareció muy explícita, pese a que podéis bajaros un archivo con todas las palabras de 4 letras y si lo abrís con un procesador de textos veréis que son unas 500 páginas de palabras, de las cuales identificaremos algunos cientos, un par de miles si hablamos varios idiomas…

Pero creo que no se apreciaba la exponencialidad del problema. Siempre es algo difícil de apreciar si no se tiene algo de imaginación, pero hoy traigo otro ejemplo y algunos números más, para tratar de ejemplificarlo un poco más.

Después de esta pequeña introducción vamos con el applet:



Lo que véis sobre estas líneas son frases aleatorias carácter a carácter de un total de 30 caracteres. He incluido en la lista el espacio (’ ‘), el punto (’.'), la coma (’,') y la ñ, con lo que tenemos un total de 30 posibilidades. Esto es, que para una frase de 30 símbolos tenemos 30^30 = 2.0589 * 10^44 posibilidades. Esos son muchos ceros. Pero como así puesto nunca parece tanto, vamos a una medida comprensible, como los campos de futbol. O los años en este caso:

El campo de texto de arriba muestra una frase distinta cada segundo. Un año tiene 3600*24*365 = 31536000 segundos, por tanto el campo de arriba tardaría en mostrar todas las posibilidades, si no se repitiera nunca (cosa por otro lado de probabilidad cero): 6.5 * 10^36 años, siguen siendo 36 ceros, lo que quiere decir que es millones y millones de veces más que la vida del universo (1.37 * 10^10 años). ¿Y la de abajo que corre tanto? Pues más de lo mismo. La de abajo se actualiza cada milésima de segundo, lo que significa que ganamos 3 ceros, 6.5*10^33, que a efectos prácticos sigue siendo muchos órdenes de magnitud por encima de la edad del universo.

En teoría, cada X tiempo debería aparecer una frase que entendieramos. Una frase completa y correcta en español, inglés, frances, italiano, portugués… todas las frases de 30 caracteres o menores pueden aparecer en algún momento en alguno de los cuadros. Pero ¿cuántas oraciones de 30 caracteres o menores creéis que podéis reconocer? ¿Varios miles? ¿Varios millones? ¿miles de millones? (”EL PERRO ES MARRON……”, “EL PERRO ES BLANCO”, “ESE PERRO, ES MARRÓN.”, “..ELXPERROXESXBLANCO..” etc.) Teniendo en cuenta la cantidad de frases posibles, para ver una frase comprensible cada 14000 millones de años por ejemplo (edad del universo redondeada a la alza) seguimos quedándonos muchos órdenes por encima del TRILLÓN de combinaciones.

¿Esto significa que NUNCA veremos una frase comprensible en esos cuadros? No necesariamente, pero si véis una, podéis considerad que sois tremendamente afortunados (no sabéis lo feliz que me haríais con una captura en la que apareciera algo comprensible o^^o) Es infinitamente más probable que os toque la lotería o que os alcance un rayo…

Estas cifras me hacen pensar en los videos de potencias de diez y del tamaño del universo… Somos pequeños.

Todo esto es así por la explosión combinatoria que se produce, hay cientos de problemas de la vida diaria cuya complejidad es exponencial y por tanto no tienen solución óptima en tiempo razonable si el número de elementos es alto. En esto se basan los algoritmos de criptografía para obtener su robustez, y por tanto la seguridad de tarjetas de crédito, transacciones, envíos encriptados, intercambios de información confidencial, alarmas, etc, etc…

Pero la reflexión final que yo quería traer es que la información compresible, la información ordenada que utilizamos, es una parte infitesimal de las variaciones que nos ofrece nuestro alfabeto. Es decir, que tal vez podríamos expresarnos con 5 o 6 letras en lugar de con 26/27, pero que, como otras muchas cosas en la naturaleza, hemos necesitado un amplio margen para construir el sistema. Y a su vez el sistema se ha ido diversificando y ramificando con el tiempo.

Deja tu opinión - 4 »

Si quieres hacer TrackBack de esta entrada, usa esta URI: (Simplemente copia la dirección de la barra de herramientas)

  1. GENIAL POST ;), me encanta la línea :)

    No he podido probar el appelt, pero en cuanto pueda te doy resultados

    1Saludo

    Comment by The_IBITH — 17 April, 2007 @ 22:11

  2. Vale, ya lo he visto, pensé que sería posible encontrar alguna frase… veo que NO! (podrías hacer una tabla de 2x10 o algo así por que en el listado de abajo, como que no me da tiempo a leerlas, y quien sabe si ha pasado ya el perro ;)

    Comment by The_IBITH — 17 April, 2007 @ 22:19

  3. jajajaja, ya comento que es más fácil que toque la lotería. Si pusiera 1000 líneas, ganaríamos otros 3 ceros, lo que quiere sigue siendo mierdecilla con los números que manejamos, y no seríamos capaces de estar pendientes de más de 2 o 3 ya que cambian cada segundo…

    Comment by Juanmi — 18 April, 2007 @ 0:27

  4. A veces podemos tener la suerte de ver algo comprensible entre la maraña de letras, ¡yo he visto un segundo la palabra “GODEL” entre un montón de consonantes! :D (una pena no haber tenido el dedo preparado sobre imprimir pantalla… :() Por cierto, ¿curiosa casualidad verdad? :)

    Comment by Juanmi — 18 April, 2007 @ 0:32

RSS suscríbete a los comentarios de este post

Deja tu opinión

El parrafo se justifica solo, nunca se mostrará el correo, están permitidas etiquietas HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>



Medida anti-spam. Por favor, escribe el texto de la imagen en el cuadro de texto para saber que no eres una tonta máquina automática que intenta que compre muñecas hinchables ;).