La penalización del contenido duplicado
A menudo corre el rumor de que Google penaliza a las webs que duplican contenidos. Pero hay mucha ambiguedad en este concepto, porque la pregunta es, ¿cuándo estoy duplicando contenido?
Hay gente que piensa que cada línea que escribe debe ser completamente creativa y no parecerse a nada de lo que haya escrito otro en una web similar porque entonces estamos duplicando contenido.
Quizás el modo más idóneo de tratar estos temas es pensar al más puro estilo matemático como lo haría Google. Supongamos que en los índices de Google hay varios miles de millones de páginas indexadas, que probablemente sean más :). Si cada línea que tu escribes debe ser comprobada contra los miles de millones de páginas indexadas para ver si el contenido es duplicado, entonces, ¿cómo es capaz Google de gestionar ese cálculo tan desproporcionado?
La respuesta es sencilla, no funciona así.
Aunque esto os haya parecido matemático porque hemos intentado escalar una hipótesis, y por su propio peso descomunal no es sostenible, en realidad lo que intentamos hacer es reducir al absurdo.
Y siguiendo en esta línea hagamos lo propio con un contenido habitual, real, y que se genera todos los días.
¿Por qué si la agencia EFE, o Europa Press, que emiten cientos de notas de prensa, y son reproducidas textualmente por muchos medios, todos estos periódicos, tienen Page Ranks muy altos y no son penalizados?
La respuesta es sencilla, porque no funciona así.
¿Pero entonces cómo funciona?
Lo primero que hay que llegar a la conclusión es que Google, no es un Juez. Google no se pone en situaciones o condiciones concretas para determinar cómo penalizar a una página web. Google sencillamente determina qué contenido es útil para valorar la popularidad del sitio web. Y este axioma, tiene la contraparte por ende, de que el resto de contenidos no van a formar parte de su tratamiento para obtener el Page Rank. Eso no significa que esos otros contenidos, no formen parte del índice, ni sean indexados.
Entonces la pregunta concreta es, cuándo incurrimos en contenido duplicado y por ello perdemos la posibilidad de que Google trate bien nuestro contenido.
Lo que debe quedar bien claro es que el contenido duplicado sólo afecta a nuestro ámbito local, y no es perjudicial como tal. Sencillamente si Google considera que ese contenido de tu página ya ha sido indexado, no lo volverá a indexar. Sin embargo aquí aparece un punto considerablemente importante y bueno, y es que si nuestra intención no es duplicar el contenido sino anexar en otra página contenido nuevo relacionado con el anterior, Google será capaz de determinarlo así, si se lo explicamos bien, y aparecerá indexado como se muestra en la figura.

No hay ningún problema en tener 30 enlaces en una página web apuntando al mismo contenido. Eso no es contenido duplicado, puesto que la página destino es la misma en todos los casos. No tiene ningún sentido entonces puesto que Google ha indexado esa página y sólo esa.
El contenido duplicado aparece cuando la misma página es copiada con diferentes referencias o url, y su contenido es el mismo. Google esto no lo penaliza. Es probable que en muchas webs, haya contenidos duplicados, no forzados, pero sencillamente como consecuencias de migraciones y actualizaciones, y volvemos a reducir al absurdo, ¿entonces cómo Google determina que tu contenido duplicado está hecho sin mala intención y el del otro es con mala intención?
Sencillamente no pierde el tiempo en determinarlo.
Aunque sería hipotetizar demasiado en pensar hasta donde llegan los algoritmos de Google, para determinar este tipo de cosas, se puede técnicamente descartar supuestos, cuando la solución pasa por trabajos excesivamente descomunales, a nivel informático, y por el propio volumen que Google maneja, y la velocidad de indexado que se ha conseguido ya, en el que una página rastreada habitualmente como puede ser ADSL Net, es capaz de tener sus contenidos nuevos indexados en 9 minutos. Si tenemos que pensar que en 9 minutos Google ha sido capaz de rastrear la web, encontrar el contenido nuevo, indexarlo, valorarlo, y además compararlo con millones de páginas, llegamos a la conclusión de que algo no tiene sentido en este modelo de trabajo, y es que si multiplicamos por millones y millones de webs este trabajo, no habría sistema informático capaz de absorber este continuo y escalable trabajo creciente.
Por tanto la respuesta de Google en su tratamiento sobre todo debe ser muy rápida, y esto reduce muchas hipótesis.
Después de todo este comentario, en el que he intentado trasladar un poco y espero haberlo conseguido, la forma en la que debemos pensar con Google, ciñéndonos al titular del artículo, debemos exclusivamente tener cuidado con el contenido para evitar que Google lo pueda tratar como igual a otro, pero exclusivamente por nuestro interés de ser indexado correctamente, y no por la amenaza de que podamos salir perjudicados.
Enviado: Noviembre 13th, 2007 under SEO.
Commentarios: 3
Comments
Comment from salvatror
Time: 20 Noviembre, 2007, 1:04 am
Te recomiendo que te leas este hilo para saber como procesa Google la información (no algoritmo) http://foros.dirson.com/16591-solo-curiosidad-crear-buscador-google/
Comment from Escorts
Time: 18 Septiembre, 2008, 3:24 pm
Google ha pasado de ser una herramienta a ser un medio.
Un saludo
Comment from Will Castillo
Time: 5 Octubre, 2008, 4:22 pm
Obviamente en 9 min. no pueden hacer tal cantidad de calculos y comparaciones, pero nadie dice que el proceso de penalización sea inmediato.
Yo si creo que existe algún tipo de penalización bien pensado. Algunas teorías podrían ser:
- Es un proceso paralelo e independiente al indexado.
- Es un proceso que toma un set aleatorio de páginas y las analiza en búsqueda de contenidos duplicados.
- Creo que las páginas mas noveles o de menos page-rank son mas propensas a la penalización que aquellas con alto page-rank o autoridad (algo parecido al Smart Pricing)
Slds,
Will

Escribe tu comentario