El post que buscas se encuentra eliminado, pero este también te puede interesar

Te cuento sobre el misterio Zipf

Hace poco vi un video que me impresionó muchísimo, se trata de un misterio sobre un patrón rarísimo que ocurre en el lenguaje inglés, llamado el misterio Zipf, el video dura 20 minutos, esta repleto de información, hice lo mejor que pude para resumirlo y traducirlo al español (ya que se encuentra en inglés), contiene mucho texto, pero le puse algunas imagenes para hacerlo menos denso, y de paso explicar con mas claridad de que se trata.

En el idioma inglés, al rededor de 6% de todo lo que se dice, escribe y lee, es "the", lo que significa que "the" es la palabra mas usada de dicho idioma (diariamente es 1 de las 16 palabras que nos encontramos). Las 20 palabras mas usadas, en orden, son:

♦ the

♦ of

♦ and

♦ to

♦ a

♦ in

♦ is

♦ I

♦ that

♦ it

♦ for

♦ you

♦ was

♦ with

♦ on

♦ has

♦ have

♦ but

♦ be

♦ they



Es algo interesante, son todas palabras de una sílaba, pocas letras, pero no es simplemente qué palabras sean las mas usadas, sino que es mas, mucho mas.

Si tomamos las palabras mas usadas dentro de un idioma completo, o simplemente en un libro o revista, casi todas las veces aparece un patrón muy extraño.


Te cuento sobre el misterio Zipf

Por alguna razon, la segunda palabra mas usada, aparecerá la mitad de veces que la primera, la tercera una tercia parte de veces que la primera, la cuarta una cuarta parte de lo que aparece la primera, y así durante TODAS las palabras. La cantidad de palabras usada es proporcional a la cantidad de veces que se usa la primera, dividido el puesto en el que esté. Si creamos una grafica con las palabras mas usadas, ubicando su frecuencia en el eje y, y su puesto en el eje x, nos queda una casi perfecta línea recta, diagonal inclinada hacia abajo. Éste fenómeno está denominado "Ley de Zipf".

Por ejemplo, ésta es una gráfica con las palabras mas usadas en la obra "Romeo y Julieta", teniendo en cuenta su frecuencia y su puesto.


info

¿Impresionado? Todavía queda más, ésta ley no sólo se aplica al idioma inglés, sino tambien a muchos otros, como... TODOS. Absolutamente todos los idiomas conocidos, incluso aquellos antiguos que no se han podido traducir completamente.

Lo mas interesante sobre ésta ley, es que todo esto pasa, pero nadie sabe por qué, realmente nadie puede explicar como es ésto posible, en algo tan grande e infinito como la realidad misma, todos los lenguajes que han sido creados, con tanta creatividad posible, se puede predecir con exactitud la frecuencia de palabras de cada uno.

En el video, para demostrar que tan predecible es esta ley, realizaron una prueba.
Existe una página llamada Wordcount.org, la cual nos muestra los puestos de las palabras mas usadas en el British National Corpus (Una colección de textos de varios géneros del siglo 20, reuniendo un total de 100 millones de palabras)


misterio

Según ésta página, la palabra "sauce" está en el puesto 5.555 de las más usadas en el idioma inglés.

lenguaje

Basándose en un texto que muestra la cantidad de veces que las palabras aparecen en absolutamente toda la página "Wikipedia", combinada con el "Gutenberg Corpus" (Una colección de decenas de miles de libros).
La palabra más usada, "the", aparece unas 181 millones de veces (181076598 veces para ser exactos), sabiendo que siendo "the" la palabra mas usada, las veces que aparece, y el puesto en el que está la palabra "sauce", podemos estimar la cantidad de veces que aparecerá la palabra "sauce" en éste texto.


idioma

Él cálculo nos dice que la palabra debería aparecer unas 30mil veces en wikipedia y Gutenberg combinados. Aparece 29.594 veces.

Pongámonos a pensar, el mundo es un caos, hay muchisimas cosas distribuidas en muchísimas maneras, y el idioma, el lenguaje, es algo personal, ¿Qué tiene el mundo y nosotros mismos, que cause que todas estas actividades y comportamientos complejos sigan una regla tan básica?

Ésta ley, a pesar de 100 años de estudios, sigue sin ser resuelta, pero más interesante aún, de todo lo que hemos visto hasta ahora, es que la ley de Zipf no aparece solamente en el uso de las palabras, tambien se encuentra en otras cosas, como...


♦ Poblaciones de ciudades.

palabras

♦ Intensidad de erupciónes solares.

raro

♦ Secuencias de proteínas.

frecuencia

♦ Tráfico de páginas web.

patron

♦ Magnitudes de terremotos.

Shout GifGIF


♦ La cantidad de veces que un artículo académico es citado.

Zipf

♦ Apellidos.

Te cuento sobre el misterio Zipf

♦ Ingredientes usados en libros de cocina.

info

♦ La cantidad de llamadas que la gente recibe.

misterio

♦ El diámetro de los cráteres lunares.

lenguaje

♦ La cantidad de personas que mueren en las guerras.

idioma

♦ La popularidad de movimientos de ajedrez iniciales.

palabras

♦ El ritmo en el que olvidamos cosas.

raro


Ahora, vamos a adentrarnos en las ramificaciones de la ley, patrones relacionados con ella, algunas posibles explicaciones y la profundidad de la ley misma.
La ley de Zipf fue popularizada por George Zipf, un lingüista en la Universidad de Harvard. Es una forma discreta de la distribución de Pareto, del cual obtenemos el Principio de Pareto.


frecuencia
Distribución de Pareto.

Ya que muchos procesos del mundo real se comportan de esta manera, el Principio de Pareto nos dice que, como regla permanente, vale la pena asumir que el 20% de las causas, son responsables del 80% del resultado.


patron

Como sucede en el idioma, el 18% de las palabras mas usadas ocupan mas del 80% de las palabras que aparecen.
Vilfredo Pareto, en el año 1896, demostró que aproximadamente el 80% de las tierras en Italia eran poseídas por solo el 20% de la población.


vsauce

Y se dice que mas adelante notó que en su jardín, el 20% de sus chauchas, contenían el 80% de las arbejas.

Zipf

Él y otros investigadores miraron en varios conjuntos de datos y se dieron cuenta que este balance de 20 y 80% aparece mucho en el mundo.
El 20% de los humanos mas ricos tienen un 82.7% de las ganancias del mundo.


Te cuento sobre el misterio Zipf

En los Estados Unidos, el 20% de los pacientes usan el 80% de los recursos de cuidado de la salud.

info

En 2002, Microsoft mencionó que el 80% de los errores y crasheos en Windows y Office, son causados por el 20% de los virus detectados. Una regla común en el mundo de los negocios dice que el 20% de tus clientes son responsables por el 80% de tus ganancias; Y el 80% de las quejas que recibas, provendrán del 20% de tus clientes. El libro llamado "El principio 80/20" incluso dice que en un hogar o en una oficina, el 20% de las alfombras reciben el 80% del uso. El Principio de Pareto está en todos lados, lo cual es bueno, ya que enfocándote en sólo el 20% de lo que está mal, podes esperar resolver el 80% de los problemas.

misterio

El mismo George Zipf pensaba que la razón de la rara distribución de frecuencias de palabras en el idioma era una consecuencia del "Principio del Menor Esfuerzo", lo cual es la tendencia de que la vida y las cosas sigan el camino de la menor resistencia, para Zipf ésto era la mayoría del comportamiento humano, e hipotetizo que mientras el idioma se desarrollaba en nuestra especie, los emisores naturalmente preferían dibujar la menor cantidad de palabras posibles para dar a conocer sus pensamientos. Era más fácil. Pero para poder entender lo que decían, los receptores preferían vocabularios mas largos y específicos, para que ellos tengan que hacer menos trabajo.

lenguaje

Zipf sentía que el compromiso entre hablar y escuchar, llevó al estado actual del idioma. Algunas palabras son usadas usualmente, mientras que muchas, muchas, muchísimas otras son usadas raramente.

idioma

Recientes estudios han sugerido que al tener varias palabras predecibles, cortas y muy usadas, ayuda a disipar la densidad de información en los receptores, dejando fuera vocabularios importantes para que la frecuencia de informacion sea mas constante.
Ésto tiene sentido, mucho se ha aprendido aplicando el Principio del Menor Esfuerzo a otros comportamientos, pero, investigadores posteriores plantearon que para el idioma, la explicación era mucho mas simple.


palabras


Solo unos años después del estudio de Zipf, Benoit Mandelbrot demostró que puede ser que no haya nada misterioso sobre la ley de Zipf, porque incluso si escribes aleatoriamente en un teclado, producira palabras distribuídas siguiendo la ley de Zipf. Es un buen punto, ésto es por qué sucede: Hay muchísimas mas palabras largas que palabras cortas, el alfabeto inglés puede ser usado para producir 26 palabras de 1 letra, pero 26 elevado al cuadrado, de palabras de 2 letras.


raro

También, en escritura aleatoria, el botón "espacio" es apretado cuando una palabra termina, ya que siempre hay una cierta posibilidad de que se oprima la barra espaciadora, los estiramientos mas largos de tiempo de que se oprima la barra espaciadora, son exponencialmente menos probables que los mas cortos. La combinación de todas estas exponencialidades es bastante parecido a lo que plantea Zipf.

Por ejemplo:


frecuencia

Si las 26 letras y la barra espaciadora fueran igualmente probables de ser presionadas, luego de que una letra haya sido apretada y una palabra haya comenzado, la probabilidad de que la siguiente tecla sea un espacio, creando una palabra de 1 letra, es sólo 1 en 27.

patron

Y seguramente, si generas aleatoriamente caracteres, o contratas a un mono que aprete teclas en un teclado, aproximadamente 1 de 27, o el 3.7% de las cosas entre espacios, serán letras únicas.

Las palabras de 2 letras, aparecen cuando, despues de comenzar una palabra con una letra, cualquier caracter menos la barra espaciadora es presionado, una posibilidad de 26 sobre 27, y luego la barra espaciadora.


vsauce

Una palabra de 3 letras, es la posibilidad de que se presione un caracter, luego otro, luego otro y recién ahora la barra espaciadora.

Zipf

Si dividimos por el número de palabras unicas de cada longitud que puede haber, obtenemos la frecuencia de aparicion esperada de cualquier palabra dada.

Te cuento sobre el misterio Zipf

Por ejemplo, la letra V será el 0.142% de la escritura aleatoria.

info

La palabra Vsauce, será el 0.00000000993%.

misterio

Las palabras mas largas, son menos frecuentes, pero si esparcimos esas frecuencias segun los puestos que tendrian en una lista mas usada, tenemos Zipf.

lenguaje

Nuestra misteriosa distribucion ha sido creada solamente por las inevitabilidades de la matemática. Por lo tanto, tal vez no haya ningún misterio, tal vez las palabras son el resultado de los humanos aleatoriamente segmentando el mundo observable y el mundo mental en etiquetas, y la ley de Zipf describe lo que ocurre naturlamente cuando haces eso. Caso cerrado.

Gracias por pasar por el po... ¡Espera un momento!

El idioma real es muy diferente a la escritura aleatoria, la comunicacion es algo determinado a cierto grado, los temas y los enunciados llegan basados en lo que fue dicho antes. Y el vocabulario con el que tenemos que trabajar ciertamente no es el resultado de nombres aleatorios.

Por ejemplo, el modelo del mono que escribe no puede explicar por qué incluso los nombres de los elementos, días de la semana, de los planetas son usados en el idioma, segun la ley de Zipf. Frecuencias como estas estan formadas por el mundo natural y no son el resultado de que nosotros segmentemos el mundo en etiquetas.


idioma

Incluso, cuando nos dan una lista de palabras de novela, palabras que que nunca hemos usado o escuchado, como cuando nos dicen que escribamos una historia sobre aliens con nombres extraños, las personas naturalmente usarán el nombre de uno de los aliens el doble de veces que otro, el triple de veces que otro...

palabras

Parece que la ley de Zipf está construida dentro de nuestros cerebros. Tal vez hay algo sobre como los pensamientos y los temas de conversacion fluyen que contribuye con la ley de Zipf.
Otra manera en que las distribuciones de Zipf ocurren, es a traves de procesos que cambian dependiendo de como han operado anteriormente. Estos son llamados Procesos de Fijación Preferencial.
Ocurren cuando algo - Dinero, visitas, antencion, variacion, amigos, trabajos-, cualquier cosa en realidad, se da dependiendo de cuanto se tenga en el momento.

Volviendo al ejemplo de la alfombra, si la mayoria de gente camina desde el living hasta la cocina siguiendo un cierto camino, los muebles serán ubicados en otro lugar, haciendo ese camino mas popular.

raro

Mientras más visitas tenga un video o una imagen, es mas probable que sea recomendado automáticamente o aparecer en las noticias por tener tantas visitas, lo cual haría que recibiera incluso más visitas. Es como una bola de nieve rodando por una colina de nieve, cada vez es mas grande, y cada vez va mas rapido, por lo tanto crece cada vez más.
Los Procesos de Fijación Preferencial no tienen por qué pasar por una decisión o una acción, pueden pasar naturalmente, te invito a que intentes algo:


Toma un puñado de clips
frecuencia

Agarra 2 clips aleatoriamente
patron

Únelos entre sí, y tíralos de nuevo en el montón
vsauce

Repite esto varias veces, si agarras un clip que ya está unido con otro, unelo de todos modos.
Zipf

Despues de un rato de hacer esto, tendras un resultado que sigue la ley de Zipf.
Te cuento sobre el misterio Zipf

Una pequeña cantidad de cadenas contienen la mayor cantidad de clips. Ésto es simplemente porque mientras mas larga sea la cadena, mayor será la proporción de ella cuando la pongas en el montón, lo que le da una mejor oportunidad de ser levantada y consecutivamente ser alargada aún más.
info

Los ricos se vuelven más ricos. Lo grande se vuelve mas grande. Lo popular se vuelve mas popular. Es simplemente matemáticas. Ésta podria ser la respuesta del misterio de Zipf, aunque no esté causado por los Procesos de Fijación Preferencial, al menos está reforzado por ellos.
Una vez que una palabra es usada, es mas probable que sea usada de nuevo pronto.

Los puntos criticos también juegan un rol importante. La escritura y la conversacion usualmente se mantienen en un tema hasta que se llega a un punto critico, el tema es cambiado, y el vocabulario varía.

Procesos como éstos son conocidos por terminar en leyes fuertes. Entonces al final, parece sostenible que todos estos mecanismos podrian concluir en hacer la ley de Zipf la ley mas natural que exista del lenguaje. Tal vez alguna parte de nuestro vocabulario y gramática fue desarrollada aleatoriamente, siguiendo la teoría de Mandelbrot. Y la manera natural en que la conversación y la discución siguen los Procesos de Fijación Preferencia y los puntos criticos, sumados al principio del menor esfuerzo cuando se habla y se escucha, son todos responsables por la relacion entre los puestos de las palabras y su frecuencia.


misterio

Es una lastima que explicarlo no sea mas simple, pero es fascinante por las consecuencias que tiene en las causas de la comunicación. Hablando en general, y esto es realmente impresionante, mas o menos la mitad de cualquier libro, conversación o artículo serán solo las mismas 50 a 100 palabras repetidas.

lenguaje

Y aproximadamente la otra mitad serán palabras que aparecen solo una vez en esa selección.

idioma

Eso no es tan sorprendente cuando nos ponemos a pensar que solo una palabra "the" es el 6% de todo lo que se dice, las primeras 25 palabras mas usadas son aprox. un tercio de todo lo que decimos, y las primeras 100 palabras, son la mitad.

palabras

Realmente. No importa si son todas las palabras en "Wet Hot American Summer", o todas las palabras en "Platón: Obras completas", o en los trabajos completos de Edgar Allan Poe, o la Biblia misma, solo unas 100 palabras son usadas para casi la mitad de todo escrito o dicho.

En "Las aventuras de Alicia en el País de las Maravillas" un 44%...

raro

En "Las aventuras de Tom Sawyer" un 49.8%...
frecuencia

...de las palabras únicas utilizadas, aparecen solo una vez en todo el libro. Una palabra que aparece sólo una vez en una selección de palabras se llama un "Hapax Legomenon".
Las Hapax Legomena son muy importantes para entender idiomas. Si una palabra sólo se ha encontrado una vez en una colección completa de todo un idioma antiguo conocido, puede ser muy dificil averiguar que siginifica.

No hay ninguna coleccion de todo lo dicho o escrito en Inglés, pero hay muy, MUY grandes colecciones y es divertido encontrar Hapax Legomena en ellos. Por ejemplo, la palabra "quizzaciously" está en el diccionario inglés de Oxford, pero no aparece en ningun lado de Wikipedia, o en la Colección Gutenberg, o en la Colección Nacional Inglesa, o en la Colección Nacional Americana, pero si aparece cuando se busca en Google, en sólo un resultado.


patron

El link es sobre un libro llamado "ElderSpeak", el cual la lista como una palabra rara.
La palabra significa "De una manera burlona", y es un poco triste que haya sido usada tan poco, es divertida, pero esa es la manera que funciona la ley de Zipf. Algunas cosas reciben todo el amor, mientras que otras reciben poco. La mayoría de las cosas que experimentas a diario, son olvidadas, olvidables.
Una persona que tiene 30 años, ha vivido 10.827 días, pero no podría decirte una cosa de cada uno de esos días, ni cerca. La mayoría de las cosas que hacemos, vemos, pensamos, decimos, escuchamos y sentimos, es olvidado. En un rango bastante similar a la ley de Zipf.


vsauce

Lo cual tiene sentido, si un número de factores, seleccionados naturalmente por pensar y hablar sobre el mundo de una manera como Zipf, tiene sentido que recordemos lo que ha pasado de esa manera. Algunas cosas, muy bien, la mayoría de las cosas, casi nada.
Cosas que cuando pasaron nunca pensaste que podrías olvidar, las olvidaste. Muchísimos recuerdos han desaparecido. Si lees 100 libros, despues de unos años solo podrás recordar algunos títulos y ciertas partes de ellos, nunca podrás recordar todo lo que realmente leíste, lo cual nos hace pensar ¿Por qué molestarnos en leerlos, si la ley de Zipf dicta claramente que olvidaremos la mayoría? Sin embargo, Ralph Waldo Emmerson dijo una vez:

"No puedo recordar los libros que he leído, mas que las comidas que he comido. Aún así, ellas me han formado."


Gracias por pasar.

22 comentarios - Te cuento sobre el misterio Zipf

jorgeb557 +4
Zipf
Vylkar +1
Jjajajajaj es denso y complicadísimo, pero leelo todo que vale la pena, gracias por pasar!
Francox13 +1
No entendí una mierda, pero me me tengo que ir apurado que se me pasa el bondiiiiiiiiiiiiiiiiiiiii.


Salu2.
Ninguneano +2
Te cuento sobre el misterio Zipf

Pero en este caso de romeo y julieta La palabra mas usada es "And" (la cual esta aprox en 700 veces) y la segunda es "The", que por ser segunda deberia estar la mitad de veces que la primera (350 veces) y esta muy pegada alrededor de los 600, osea no la cumple. O yo estoy entendiendo para el culo? O esta para el orto la imagen.

Me explicas eso?
alfredosaidAS
Tb puede ser la mariguana q fumaba.
(hecho comprobado)
Ninguneano +1
@alfredosaidAS pero q mierda tiene q ver eso jajajajaja
alfredosaidAS
@Ninguneano jajaja...
Shakespeare no sigue el partón "perfecto" q tratan de hacer calzar.
Se repiten otras palabras y en otra progresión.

Dónde ven números, yo veo literatura.
JackClass +1
"Parece que la ley de Zipf está construida dentro de nuestros cerebros. Tal vez hay algo sobre como los pensamientos y los temas de conversacion fluyen que contribuye con la ley de Zipf. "

Se llama economía del lenguaje. Muy buen el post ameeeo.
colcrt1 +1
en resumida cuenta... no entendi nada
RodosSVP +1
y yo que pensaba que sería uno de esos días que tendría que desperdiciar mis últimos puntos en un crap cualquiera, como sea +10 capo seguí remandola Lince
eravanalmoran +1
Muy entretenido e ilustrativo. Me gustaría que se hiciese un estudio semejante con nuestro idioma, a lo mejor existe, y comprobar si la regla matemática se cumple para el castellano.
Me da lata que una mayoría de estudios sobre el lenguaje se haga para el inglés y en el nuestro no haya tantos.
Vylkar +1
Me parece que te pasaste una parte por alto o no leiste, la ley de Zipf se cumple para todos los idiomas, la han puesto a prueba en todos los idiomas conocidos, incluso los antiguos que no han podido traducir todavia, gracias por pasar!
eravanalmoran
@Vylkar Ocurre que busqué en internet el estudio para el castellano, pero no lo encontré. Será puro verso o lo hicieron? No me conformo con el comentario, quiero verlo y a lo mejor tratar de comprobar si es cierto
XavierTenka
Como que esto es un copypaste de Vsauce.
Vylkar +3
En la intro dice que lo traduci y lo pase a post, e incluso puse la fuente el video del cual lo saque, en nigun momento dije que fue de mi autoría.
andreseduardoahu +1
Interesante, algunos gráficos no se entienden para nada y la probabilidad de error al teclear tmbn es de 20%, pero creo q valdría la pena comparar con la sucesión de Fibonacci y tal vez haya relación
oliviapopeye98 +1
Yo prefiero vivir feliz y ni siquiera pienso en estas cosas, de todos modos gracias por mostrarme lo complejo del mundo.
jdboliva +1
Este es, sin duda alguna, el artículo más interesante que he tenido el placer de leer hasta ahora en taringa.

Muchas gracias por compartir.
spyroamir7 +1
Parece que tiene un espectro el tipo ruido 1/f^alfa, muy parecido com processos estocásticos lentos, por ejemplo, un fractal.

info
RenzoPaolo
¿Qué fenómenos en la naturaleza/experimentos/situaciones, realizan procesos estocásticos lentos?
00vargarv +1
lei la mitad, luego me di cuenta que realmente no me sirve de nada tener presente esta informacion , luego recorde que si seria un buen tema de conversacion para quedar como un lince frente a mis amigos en las conversas cerveceras donde cada cual clama ser mas listo que el otro, tanto con temas de sociedad con curiosidades de mujeres y aventuras locas, ya dispuesto esto, me quedo con la informacion que lei y no seguire leyendo, realmente es un dato interesantisimo pero inutil para mi vida diaria, ya que como dicho anteriormente seria para parecer mas intelectual, ya que no trabajo en nada que me pueda servir esta informacion masque para eso, pero realmente no tengo amigos, asique a la verga :v gracias por leer mi mierda .
CyborgGhost +1
Largooooooooooooooooo pero muy interesante, inteligencia colectiva, lastima que a este tipo de articulos sino se le den puntos.
G-O-C-E +1
ME LEÍ PARTES PARTES, PERO MUY BUEN POST ! TAMBIÉN PASA EL LINK DEL VIDEO QUE VISTE PA LOS QUE SABEMOS INGLÉ JAJA !
Vylkar
Esta en la fuente, gracias!
danilo1333
Buen post viejo, lo único es que de repente se te mezclan, o a los que hicieron esto, se les mezclan las funciones y distribuciónes, es evidente que todas las cosas se pueden modelar por funciones, pero no todas corresponden a la ley de Zift.
Cyprexx +1
está bueno porque a la gente le interesa que el conocimiento les sea de alguna utilidad práctica para su vida diaria, entonces por ejemplo en vez de material académico terminan leyendo "hágase millonario en solo 10 pasos"