Originele inhoud

Origineel

Als mensen iets belangrijk vinden, dan is dat wel hun uniekheid. Hoewel als ze goed zouden kijken, dan zouden ze moeten vaststellen dat hun uniekheid bepaald wordt door maar vijf procent van hun uiterlijk en persoonlijke gedrag. Eigenlijk zijn mensen voor het grootste deel uniform met een klein beetje originele inhoud. Maar of je dat erg moet vinden is natuurlijk maar de vraag. Wie het wel erg vindt dat iets niet origineel is, is Google.

Informatie zoeken

Het principe van de zoekmachine bestaat natuurlijk al een paar eeuwen. Eigenlijk sinds de bibliotheek met bibliothecaris werd bedacht kennen we de zoekmachine, ook al was die zoekmachine dan wel menselijk. Deze bibliothecaris/zoeker had echter maar een beperkte informatie waarbinnen hij moest zoeken. Dat is verandert sinds het midden van de twintigste eeuw toen niet alleen het aantal bewoners op deze wereld toenam, maar ook het aantal mensen

Bibliotheek

werkzaam in de wetenschap. Maar de echte informatie explosie kwam met de introductie van de personal computer en de ontwikkeling van het wereld wijde web. Vanaf de dag dat iedereen zijn eigen website kon bouwen is de hoeveelheid doorzoekbare informatie op internet zo groot dat zelfs een bibliothecaris moeite heeft om informatie te vinden. Gelukkig kwam er op internet al snel hulp van zoekmachines.

Zoekmachines

In het begin waren zoekmachines niet vele meer dan indexen van webpagina’s, die door mensen waren bekeken en beoordeeld. Ze werden door diezelfde mensen ook van steekwoorden voorzien, zodat ze gevonden konden worden door gebruikers van de zoekmachine. De grote doorbraak van de zoekmachine kwam met het ontstaan van Google.

Het idee achter Google was namelijk dat je als mens niet zelf naar een pagina hoefde te kijken om te weten of hij belangrijk was en hoe belangrijk de pagina was. Alles wat je hoefde te doen is kijken hoeveel websites en webpagina’s naar een pagina verwezen. Als je wist hoeveel verwijzingen een pagina had, dan zei dat iets over hoe belangrijk mensen die pagina vonden. Hetzelfde principe dat werd gebruikt in de wetenschap om te bepalen of een artikel en wetenschapper veel invloed had of heeft op zijn vakgebied.

Originele artikelen

Een belangrijke voorwaarde voor de goede werking van de Google zoekmachine is echter dat alleen originele artikelen verwijzen naar een ander artikel. Dus honderd kopieën van een artikel, die allemaal verwijzen naar een originele pagina, dat zijn geen goede bepalers voor de kwaliteit

Zoeken

van de pagina waarnaar verwezen wordt. Om een kopie van een artikel te maken die naar een website of pagina verwijst hoef je namelijk niet te kijken naar wat de waarde van de pagina voor jou is.

Om kwalitatief goede zoekresultaten te krijgen heeft Google dus zoveel mogelijk originele artikelen nodig die verwijzen naar een artikel of pagina. Daarbij kan het gaan om artikelen die kritiek uiten op het artikel waarnaar ze verwijzen of het kan gaan om medestanders die het artikel gebruiken om hun ideeën te onderbouwen. Of het gaat er om dat iemand het artikel gebruikt als inspiratie voor zijn eigen artikel. Maar waar het Google werkelijk om te doen is, is de zekerheid dat de verwijzende artikelen hun verwijzing baseren op een kwalitatief oordeel van het artikel. De schrijvers van de verwijzende artikelen geven met hun verwijzing aan dat ze het andere artikel waardevol genoeg vonden om er naar te verwijzen.

Artikelen vergelijken

Nu is het natuurlijk moeilijk als je een computerprogramma laat beoordelen of een artikel dat een verwijzing bevat niet gewoon een kopie is van een ander artikel. Maar het wordt natuurlijk wat anders als je zoals Google de beschikking hebt over de middelen om artikelen te vergelijken. Wat heb je daarvoor nodig een paar miljard Giga Byte aan server- en geheugenruimte natuurlijk en een zoekmachine die grotensdeels gebaseerd is op software die vergelijkingen uitvoert. Wat doe je vervolgens:

Je onderzoekt een artikel dat je tegenkomt op:
1. steekwoorden,
2. aantal woorden,
3. lengte van de woorden,
  
  Tekst
4. interpunctie,
5. gebruikte afbeeldingen,
6. links
7. Aantal herhalingen in de tekst van de woorden in de titel .
- Het vreemde is namelijk dat de meeste mensen die artikelen kopiëren, een letterlijke kopie maken. Dus de steekwoorden zijn hetzelfde, het aantal woorden, de lengte van de woorden, de interpunctie en de links zijn hetzelfde.
Vervolgens vergelijk je deze gegevens met andere artikelen die je in het cache voor je zoekmachine hebt opgeslagen.
Als bij de vergelijking twee artikelen bijna identiek zijn, bijvoorbeeld voor 99%, dan verklaar je ze kopieën van elkaar.
Beide artikelen worden afgewaardeerd, want ze zijn niet langer origineel. Wat betekent dat ze op pagina honderd of lager komen in de zoekresultaten of helemaal niet.

∪ Index

Bewerkte kopie

Maar zelfs als mensen niet een letterlijke kopie maken van een artikel is te achterhalen of er reeds een ander artikel bestaat dat er op lijkt. Dat doe je met dezelfde gegevens die je onderzoekt als je kijkt of een artikel een kopie is. Maar nu laat je er wat statistiek op los, bijvoorbeeld:

“Wat is de gemiddelde lengte van de woorden in het artikel?”

Tot en met de vorige zin heeft dit artikel bijvoorbeeld een gemiddelde woordlengte van 5,2 tekens. Samen met het aantal tekens van 4152, maakt dat dit artikel uniek. Want hoe groot is de kans dat andere artikelen op internet met hetzelfde aantal tekens een gemiddelde woordlengte hebben van 5,2 tekens? Als je zoals Google de beschikking hebt over miljarden teksten, dan kun je die waarschijnlijkheid berekenen en vervolgens een variantieanalyse uitvoeren op ieder artikel dat je tegenkomt. Verder kun je ook nog naar de moeilijkheidsgraad van een artikel kijken, bijvoorbeeld:

“Wat is het aantal woorden met meer dan twaalf tekens en zo omlaag naar vijf tekens?”

Als ik de tekst hiervoor bijvoorbeeld op leesbaarheid laat beoordelen met de Douma methode, dan komt hij uit op 51, dat is redelijk moeilijk. Dit samen met de gemiddelde woordlengte en het aantal tekens maakt het artikel al weer beter herkenbaar in een vergelijking met andere artikelen. Want hoe groot zou de kans zijn dat er een ander artikel bestaat met precies dezelfde kenmerken:

een gemiddelde woordlengte van 5,2,
4152 tekens en
een moeilijkheid van 51?

Dat is waarschijnlijk maar iets van 1 op een miljoen artikelen.

Als je dan ook nog de taal waarin het artikel geschreven is meeneemt en het moment in de tijd dan wordt de waarschijnlijkheid dat er toevallig twee originele artikelen zijn die precies dezelfde eigenschappen hebben wel heel klein. Helemaal als je ook nog de opmaak en html code in de vergelijking meeneemt.

Kopieëren

Uitgaande van de bovenstaande vergelijkingsmogelijkheden die Google heeft is het dus bijna onmogelijk om Google voor de gek te houden, als je een origineel neemt en dat in kopie rondstrooit op internet. Het enige wat je daarmee bereikt is dat Google het origineel en alle kopie uit zijn zoekresultaten gooit. Het doel van Google is tenslotte het aanbieden van bruikbare resultaten na een zoekopdracht en niet honderd dezelfde resultaten. Daar zit je zelf ook niet op te wachten als je in de boekhandel vraagt om een paar boeken over economie of natuurkunde en gebruikers van Google ook niet.

Beleidsaanvulling

Google heeft dan ook onlangs haar beleid ten aanzien van content farming en link insertion aangescherpt. Waarbij het allang stelde dat het kopieëren van artikelen een

Google

nadelige invloed heeft op de pagerank van de website, waar de kopieën staan.

Google doet er dus alles aan om de resultaten van zoekopdrachten een hoge kwaliteit mee te geven. Niet honderd keer hetzelfde artikel, maar honderd keer originele artikelen over het onderwerp van de zoekopdracht. Wil je Google dus voor de gek houden, dan zul je het artikel dat je wilt kopieëren moeten herschreven en wel volledig. Vandaar ook dat content farming gebruik maakt van software om tekst uit verschillende artikelen te kopieëren zodat er een origineel artikel ontstaat. Wat eigenlijk wel kunstzinnig is. Want je maakt iets nieuws met behulp van een hulpmiddel. Het wachten is op de software die instaat is zelf originele teksten te schrijven over een onderwerp op basis van alle artikelen die te vinden zijn op internet.

Maar het belangrijkste advies dat ik hier kan achterlaten is, dat je maar beter originele artikelen kunt publiseren als je hoog in de zoekresultaten van Google wilt komen. Zeker in Nederland waar Google toch negentig procent van de zoekmarkt heeft.