Jak funguje vyhledávač. Internetové vyhledávače: přehled existujících řešení

Co je to

DuckDuckGo je poměrně známý open source vyhledávač. Servery jsou umístěny v USA. Kromě vlastního robota využívá vyhledávač výsledky dalších zdrojů: Yahoo, Bing, Wikipedia.

Ten lepší

DuckDuckGo se staví jako vyhledávač, který poskytuje maximální soukromí a důvěrnost. Systém neshromažďuje žádná uživatelská data, neukládá protokoly (žádná historie vyhledávání), používání cookies co nejvíce omezený.

DuckDuckGo nesbírá osobní informace uživatelů a nesdílí je. Toto jsou naše zásady ochrany osobních údajů.

Gabriel Weinberg, zakladatel DuckDuckGo

Proč to potřebuješ

Všechny velké vyhledávače se snaží personalizovat Výsledky vyhledávání na základě údajů o osobě před monitorem. Tento jev se nazývá „filtrační bublina“: uživatel vidí pouze ty výsledky, které souhlasí s jeho preferencemi nebo které systém za takové považuje.

Vytváří objektivní obrázek, který nezávisí na vašem minulém chování na webu, a eliminuje tématiku Google Ads a Yandex na základě vašich dotazů. DuckDuckGo usnadňuje vyhledávání informací v cizích jazycích, zatímco Google a Yandex ve výchozím nastavení upřednostňují stránky v ruštině, i když je požadavek zadán v jiném jazyce.


Co je to

not Evil je vyhledávač pro anonymní síť Tor. Chcete-li ji používat, musíte do této sítě přejít, například spuštěním specializované.

not Evil není jediným vyhledávačem svého druhu. Existuje LOOK (výchozí vyhledávání v prohlížeči Tor, přístupné z běžného internetu) nebo TORCH (jeden z nejstarších vyhledávačů v síti Tor) a další. Rozhodli jsme se ne Zlo kvůli jednoznačnému náznaku Google (stačí se podívat na úvodní stránku).

Ten lepší

Vyhledávání, kde jsou Google, Yandex a další vyhledávače v zásadě uzavřeny.

Proč to potřebuješ

V síti Tor je mnoho zdrojů, které nelze nalézt na internetu, který dodržuje zákony. A jejich počet poroste s tím, jak vláda zpřísní kontrolu nad obsahem webu. Tor je druh sítě v rámci sítě s vlastními sociálními sítěmi, sledovači torrentů, médii, obchodní platformy, blogy, knihovny a tak dále.

3. YaCy

Co je to

YaCy je decentralizovaný vyhledávač založený na P2P sítích. Každý počítač, na kterém je nainstalován hlavní softwarový modul, skenuje internet nezávisle, to znamená, že je analogem vyhledávacího robota. Získané výsledky se shromažďují ve společné databázi, kterou využívají všichni účastníci YaCy.

Ten lepší

Těžko říct, jestli je to tady lepší nebo horší, protože YaCy je úplně jiný přístup k organizaci vyhledávání. Absence jediného serveru a vlastníka společnosti činí výsledky zcela nezávislými na něčích preferencích. Autonomie každého uzlu vylučuje cenzuru. YaCy je schopen prohledávat hluboký web a neindexované veřejné sítě.

Proč to potřebuješ

Pokud jste zastáncem softwaru s otevřeným zdrojovým kódem a bezplatného internetu, kterého se to netýká vládní agentury a velké korporace, pak je YaCy vaší volbou. Lze jej také použít k organizaci vyhledávání v rámci podnikové nebo jiné autonomní sítě. A i když YaCy není v každodenním životě příliš užitečný, z hlediska procesu vyhledávání je to hodná alternativa k Google.

4. Pipl

Co je to

Pipl je systém určený k vyhledávání informací o konkrétní osobě.

Ten lepší

Autoři Pipl tvrdí, že jejich specializované algoritmy vyhledávají efektivněji než „běžné“ vyhledávače. Upřednostňují se zejména profily. sociální sítě, komentáře, seznamy účastníků a různé databáze, kde jsou zveřejňovány informace o lidech, například databáze soudních rozhodnutí. Vedení Piplu v této oblasti potvrdily Lifehacker.com, TechCrunch a další.

Proč to potřebuješ

Pokud potřebujete najít informace o osobě žijící v USA, Pipl bude mnoho efektivnější než google... Databáze ruských soudů jsou zřejmě pro vyhledávač nepřístupné. S občany Ruska si proto tak dobře neporadí.

Co je to

FindSounds je další specializovaný vyhledávač. Vyhledává v otevřených zdrojích různé zvuky: dům, příroda, auta, lidé atd. Služba nepodporuje dotazy v ruštině, ale existuje působivý seznam značek v ruském jazyce, které můžete vyhledat.

Ten lepší

Výsledkem jsou pouze zvuky a nic víc. V nastavení si můžete nastavit požadovaný formát a kvalitu zvuku. Všechny nalezené zvuky jsou k dispozici ke stažení. K dispozici je vyhledávání podle vzoru.

Proč to potřebuješ

Pokud potřebujete rychle najít zvuk výstřelu z muškety, rány sajícího datla nebo křik Homera Simpsona, pak je tato služba určena právě vám. A to jsme vybrali pouze z dostupných ruskojazyčných požadavků. Na anglický jazyk spektrum je ještě širší.

Vážně, specializovaná služba předpokládá specializované publikum. Ale co když se to bude hodit?

Co je to

Wolfram | Alpha je výpočetní vyhledávač. Místo odkazů na články obsahující klíčová slova poskytuje hotovou odpověď na požadavek uživatele. Pokud například do vyhledávacího formuláře zadáte „porovnat populace New Yorku a San Francisca“ v angličtině, Wolfram | Alpha okamžitě zobrazí tabulky a grafy s porovnáním.

Ten lepší

Tato služba je lepší než ostatní pro vyhledávání faktů a výpočet dat. Wolfram | Alpha shromažďuje a organizuje znalosti dostupné na webu z různých oblastí, včetně vědy, kultury a zábavy. Pokud tato databáze obsahuje hotovou odpověď na vyhledávací dotaz, systém jej zobrazí, pokud ne, spočítá a zobrazí výsledek. V tomto případě uživatel vidí pouze a nic zbytečného.

Proč to potřebuješ

Pokud jste například student, analytik, novinář nebo vědecký pracovník, můžete použít Wolfram | Alpha k vyhledání a výpočtu dat souvisejících s vaší prací. Služba nerozumí všem požadavkům, ale neustále se vyvíjí a je chytřejší.

Co je to

Metavyhledávač Dogpile zobrazuje kombinovaný seznam výsledků z výsledků vyhledávání Google, Yahoo a dalších oblíbených vyhledávačů.

Ten lepší

Za prvé, Dogpile zobrazuje méně reklam. Za druhé, služba používá speciální algoritmus k nalezení a zobrazení nejlepších výsledků z různých vyhledávačů. Podle vývojářů Dogpile jejich systém generuje nejúplnější výsledky vyhledávání na celém internetu.

Proč to potřebuješ

Pokud nemůžete najít informace v Google nebo jiném standardním vyhledávači, vyhledejte je v několika vyhledávačích najednou pomocí Dogpile.

Co je to

BoardReader je systém pro textové vyhledávání na fórech, ve službách Q&A a dalších komunitách.

Ten lepší

Služba vám umožňuje zúžit pole vyhledávání na sociální platformy. Díky speciálním filtrům můžete rychle najít příspěvky a komentáře, které odpovídají vašim kritériím: jazyk, datum vydání a název webu.

Proč to potřebuješ

BoardReader může být užitečný pro PR specialisty a další mediální profesionály, kteří se zajímají o názor masy na určité otázky.

Konečně

Život alternativních vyhledávačů je často pomíjivý. Lifehacker se zeptal Sergeje Petrenka, bývalého generálního ředitele ukrajinské pobočky Yandexu, na dlouhodobé vyhlídky takových projektů.


Sergej Petrenko

Bývalý generální ředitel Yandex.Ukrajina.

Pokud jde o osud alternativních vyhledávačů, je jednoduchý: být velmi úzce specializovanými projekty s malým publikem, tedy bez jasných komerčních vyhlídek, nebo naopak s naprostou jasností jejich absence.

Když se podíváte na příklady v článku, můžete vidět, že takové vyhledávače se buď specializují na úzkou, ale žádanou niku, která se snad jen zatím nerozrostla natolik, aby byla patrná na radarech Google nebo Yandex, nebo testují původní hypotéza v hodnocení.která zatím není použitelná v běžném vyhledávání.

Pokud se například vyhledávání na Tor náhle ukáže jako žádané, to znamená, že výsledky odtamtud bude potřebovat alespoň procento publika Google, pak samozřejmě běžné vyhledávače začnou řešit problém, jak najít a ukázat uživateli. Pokud chování publika ukazuje, že výsledky se zdají relevantnější pro znatelný podíl uživatelů ve značném počtu dotazů, data bez zohlednění faktorů závislých na uživateli, pak Yandex nebo Google začnou poskytovat takové výsledky.

„Být lepší“ v kontextu tohoto článku neznamená „být lepší ve všem“. Ano, v mnoha ohledech jsou naši hrdinové daleko od Yandexu (dokonce i Bing je daleko). Ale na druhou stranu každá z těchto služeb dává uživateli něco, co giganti z vyhledávacího průmyslu nabídnout nemohou. Určitě také znáte podobné projekty. Podělte se s námi - budeme diskutovat.

Dobré odpoledne, milí čtenáři mého seo blogu ... Tento článek je o jak funguje vyhledávač Yandex jaké technologie a algoritmy používá k hodnocení stránek, co dělá pro přípravu odpovědi uživatelům. Mnoho lidí ví, že tato vlajková loď ruského vyhledávání udává tón Runetu, vlastní největší databázi v Eurasii, provozuje více než miliardu stránek obsahu, zná odpověď na jakoukoli otázku. Podle dat Liveinternetu za srpen 2012 je podíl Yandexu v Rusku 60,5 %. Měsíční návštěvnost portálu je 48,9 milionů lidí. Pro nás, blogery, je ale nejdůležitější to, jak vyhledávač naše požadavky přijímá, jak je zpracovává a jaký je výsledek. Na jedné straně, když tyto informace známe a rozumíme jim, je pro nás snazší používat všechny zdroje Yandex, na druhé straně je snazší propagovat naše blogy. Proto navrhuji vidět nejvíce důležité technologie nejlepší vyhledávač v Runetu.

Když se uživatel internetu chce poprvé obrátit na vyhledávač pro informace, může mít jednu otázku: "Jak probíhá vyhledávání?" Ale když ji dostane, často se tato otázka změní na jinou: "Proč tak rychle?" Proč vlastně hledání souboru na počítači trvá 20 sekund, ale výsledek dotazu z celé sítě počítačů po celém světě se objeví během vteřiny? Nejzajímavější je, že první dvě otázky (jak hledání probíhá a proč 1 vteřina) mohou být v jedné odpovědi – vyhledávač se na požadavek uživatele předem připravil.

Abychom pochopili, jak Yandex, stejně jako jakýkoli jiný vyhledávač, funguje, nakreslíme analogii s telefonním seznamem. Pro vyhledání libovolného telefonního čísla je potřeba znát příjmení předplatitele a případné hledání v tomto případě trvá maximálně minutu, protože všechny stránky adresáře jsou souvislým abecedním rejstříkem. Představte si ale, že by hledání probíhalo podle jiné možnosti, kde by se telefonní čísla řadila podle čísel samotných. Po takových hledáních, která se budou protahovat delší dobu, budou čísla před očima hledajícího stát ještě hodně dlouho. 🙂

Vyhledávač tedy vloží všechny informace z internetu do podoby, která mu vyhovuje. A co je nejdůležitější, všechna tato data jsou uložena do jejího adresáře předem, než dorazí návštěvník se svými požadavky. To znamená, že když Yandexu položíme otázku, už zná naši odpověď. A dá nám to ve vteřině. Ale tato sekunda zahrnuje řadu důležitých procesů, které nyní podrobně zvážíme.

Indexování internetu

Yandex ru shromažďuje všechny informace na internetu, ke kterým má přístup. Pomocí speciálního vybavení je veškerý obsah prohlížen, včetně obrázků podle vizuálních parametrů. Takovým sběrem se zabývá vyhledávač a proces shromažďování a přípravy dat se nazývá indexování. Základem takového stroje je počítačový systém, kterému se také říká vyhledávací robot. Pravidelně prochází indexované stránky, kontroluje na nich nový obsah a také prohledává internet smazané stránky... Pokud zjistí, že některá taková stránka již neexistuje nebo je uzavřena z indexování, odstraní ji z vyhledávání.

Jak vyhledávací robot najde nové stránky? Za prvé díky odkazům z jiných stránek. Protože pokud je odkaz umístěn na nový webový zdroj z již indexovaného webu, pak při příští návštěvě druhého webu robot navštíví i ten první. Za druhé je tu úžasná služba, lidově zvaná „addurilka“ (z anglického slovního spojení -addurl – přidat adresu). V něm můžete zadat adresu svého nového webu, který po chvíli navštíví vyhledávací robot. Za třetí, s pomocí speciální program Yandex.Bar sleduje návštěvy uživatelů, kteří jej používají. Pokud tedy člověk přistane na novém webovém zdroji, brzy se tam objeví robot.

Přejdou všechny stránky do vyhledávání? Každý den jsou indexovány miliony stránek. Mezi nimi jsou stránky různé kvality, které mohou obsahovat ruzne informace- od unikátního obsahu až po úplný odpad. Navíc podle statistik je na internetu mnohem více odpadků. Vyhledávací robot analyzuje každý dokument pomocí speciálních algoritmů. Určuje, zda nějaké má užitečné informace zda bude schopen odpovědět na žádost uživatele. Pokud ne, pak se takové stránky neberou „na astronauty“, pokud ano, pak je zařazen do vyhledávání.

Poté, co robot navštívil stránku a určil její užitečnost, objeví se tato stránka v úložišti vyhledávače. Zde je analýza jakéhokoli dokumentu až do úplných základů, jak říkají mistři autocentra - na ozubená kola. Stránka je vyčištěna od html značek, čistý text prochází úplným inventářem - počítá se umístění každého slova. V takto rozložené podobě se stránka promění v tabulku s čísly a písmeny, které se jinak říká rejstřík. Nyní, bez ohledu na to, co se stane s webovým zdrojem, který obsahuje tuto stránku, je vždy ve vyhledávání jeho poslední kopie. I když stránka již neexistuje, kopie jejích dokumentů jsou nějakou dobu uloženy na internetu.

Každý rejstřík spolu s údaji o typech dokumentů, kódování, jazyku spolu s kopiemi tvoří vyhledávací základna ... Je pravidelně aktualizován, proto je umístěn na speciálních serverech, pomocí kterých jsou zpracovávány požadavky uživatelů vyhledávače.

Jak často probíhá proces indexování? To závisí především na typu stránek. První typ webového zdroje velmi často mění obsah svých stránek. To znamená, že když na tyto stránky pokaždé přijde vyhledávací robot, pokaždé obsahují jiný obsah. Příště už na nich nic nenajdete, takže takové stránky nejsou zahrnuty do indexu. Druhým typem stránek jsou datové sklady, na jejichž stránkách jsou pravidelně přidávány odkazy na dokumenty ke stažení. Obsah takové stránky se obvykle nemění, takže ji robot navštěvuje velmi zřídka. Ostatní weby závisí na frekvenci aktualizací obsahu. Mám na mysli následující – čím rychleji se na webu objeví nový obsah, tím častěji přichází vyhledávací robot. A přednost mají především nejdůležitější webové zdroje (zpravodajský web je řádově důležitější než jakýkoli blog, například).

Indexování umožňuje provádět první funkci vyhledávače – shromažďování informací o nových stránkách na internetu. Yandex má ale i druhou funkci – hledání odpovědi na požadavek uživatele v již připravené vyhledávací základně.

Yandex připravuje odpověď

Proces zpracování požadavku a vydání příslušných odpovědí zajišťuje počítačový systém "Metaseoisk" ... Pro svou práci nejprve shromáždí všechny vstupní informace: ze kterého regionu byl požadavek podán, do které třídy patří, zda jsou v požadavku nějaké chyby atd. Po takovém zpracování metasearch zkontroluje, zda databáze obsahuje přesně stejné dotazy se stejnými parametry. Pokud je odpověď ano, systém uživateli zobrazí dříve uložené výsledky. Pokud taková otázka v databázi neexistuje, metasearch se obrátí na vyhledávací databázi, která obsahuje data indexu.

A tady se dějí úžasné věci. Představte si, že existuje jeden supervýkonný počítač, ve kterém je uložen celý internet zpracovaný vyhledávacími roboty. Uživatel zadá požadavek a v paměťových buňkách se zahájí vyhledávání všech dokumentů zapojených do požadavku. Odpověď se našla a všichni jsou spokojení. Ale vezměme si jiný případ, kdy je spousta dotazů obsahujících v těle stejná slova. Systém musí pokaždé procházet stejnými paměťovými buňkami, což může čas na zpracování dat několikrát prodloužit. V souladu s tím se čas prodlužuje, což může vést ke ztrátě uživatele - obrátí se o pomoc na jiný vyhledávač.

Aby se předešlo takovýmto zpožděním, jsou všechny kopie v indexu webu distribuovány mezi různé počítače. Po odeslání požadavku metasearch dá těmto serverům pokyn, aby hledaly svůj kus textu. Poté se všechna data z těchto strojů vrátí zpět centrální počítač, kombinuje všechny získané výsledky a dává uživateli deset nejlepších odpovědí. S touto technologií jsou okamžitě zabity dvě mouchy jednou ranou: čas hledání se několikrát zkrátí (odpověď je získána ve zlomku sekundy) a díky nárůstu webů se informace duplikují (data se neztrácejí náhlým poruchy). Samotné počítače s duplicitními informacemi tvoří datové centrum - to je místnost se servery.

Když uživatel vyhledávače požádá o svůj dotaz, ve 20 případech ze 100 jsou v otázce získány nejednoznačné cíle. Pokud například do vyhledávacího řádku napíše slovo „Napoleon“, pak ještě není známo, jakou odpověď očekává – recept na dort nebo životopis velkého velitele. Nebo fráze "Bratři Grimmové" - pohádky, filmy, hudební skupina. Aby bylo možné zúžit takový možný vějíř cílů na konkrétní odpovědi v Yandexu, existuje speciální technologieRozsah... Zohledňuje potřeby uživatelů pomocí statistik vyhledávacích dotazů. Ze všech otázek položených návštěvníky v Yandexu Spectrum zvýrazňuje různé objekty v nich (jména lidí, názvy knih, modely aut atd.) Tyto objekty jsou rozděleny do určitých kategorií. V současné době existuje více než 60 takových kategorií. Pomocí nich má vyhledávač v základu různé významy slov v dotazech uživatelů. Je zajímavé, že tyto kategorie jsou pravidelně kontrolovány (analýza probíhá několikrát týdně), což umožňuje společnosti Yandex přesněji odpovídat na položené otázky.

Na základě technologie Spectrum uspořádal Yandex dialogové výzvy. Zobrazují se pod vyhledávacím polem, do kterého uživatel zadá svůj nejednoznačný dotaz. Tento řádek odráží kategorie, do kterých může předmět otázky patřit. Další výsledky vyhledávání závisí na uživatelově volbě takové kategorie.

15 až 30 % všech uživatelů vyhledávače Yandex chce dostávat pouze místní informace (údaje z regionu, ve kterém žijí). Například o nových filmech v kinech ve vašem městě. Proto by odpověď na takovou žádost měla být pro každý region jiná. V tomto ohledu Yandex využívá svou technologii vyhledávání podle regionů ... Například následující odpovědi mohou obdržet obyvatelé, kteří hledají repertoár filmů ve svém kině Oktyabr:

Takový výsledek však obdrží obyvatelé města Stavropol za stejnou žádost:

Oblast uživatele je určena především jeho IP adresou. Někdy tyto údaje nejsou přesné, protože řada poskytovatelů může pracovat pro několik regionů najednou, a proto měnit ip-adresy svých uživatelů. V podstatě, pokud se vám to stalo, můžete svůj region snadno změnit v nastavení ve vyhledávači. Je uveden vpravo horním rohu na stránce s výsledky. Můžete to změnit.

Vyhledávač Yandex ru - výsledky odpovědí

Když Metasearch připraví odpověď, vyhledávač Yandex by ji měl zobrazit na stránce s výsledky. Je to seznam odkazů na nalezené dokumenty s malým množstvím informací o každém z nich. Úkolem technologie pro vydávání výsledků je poskytnout uživateli co možná nejrelevantnější odpovědi. Šablona pro jeden takový odkaz vypadá takto:

Podívejme se na tuto formu výsledku podrobněji. Pro název výsledku vyhledávání Yandex často používá název názvu stránky (co optimalizátory píší do značky title). Pokud tam není, pak se zde objevují slova z nadpisu článku nebo příspěvku. Pokud je text nadpisu velký, vyhledávač vloží do tohoto pole svůj fragment, který je pro daný dotaz nejrelevantnější.

Je to velmi vzácné, ale stává se, že hlavička neodpovídá obsahu požadavku. V tomto případě Yandex vytvoří svůj název pro výsledek vyhledávání pomocí textu v článku nebo příspěvku. Určitě bude mít slova žádosti.

Pro úryvek vyhledávač použije veškerý text na stránce. Vybere všechny fragmenty, kde existuje odpověď na požadavek, a poté vybere nejrelevantnější z nich a do pole formuláře vloží odkazy na dokument. Díky tomuto přístupu jej může kompetentní optimalizátor po zhlédnutí úryvku předělat, a tím zvýšit atraktivitu odkazu.

Pro lepší vnímání výsledku pro požadavek uživatele jsou záhlaví v textu formátována jako odkazy (zvýrazněny modře s podtržením). Pro atraktivitu webového zdroje a jeho rozpoznání je přidána favicon - malá ikona firemního webu. Zobrazí se vlevo od textu na prvním řádku před nadpisem. Všechna slova, která byla zahrnuta v žádosti v odpovědi, jsou pro snazší pochopení také vyznačena tučně.

PROTI Nedávno vyhledávač Yandex přidává do úryvku různé informace, které uživateli pomohou najít jeho odpověď ještě rychleji a přesněji. Pokud například uživatel ve své žádosti napíše název organizace, Yandex přidá její adresu do fragmentu, Kontaktní telefonní čísla a odkaz na umístění v geografických mapách. Pokud je vyhledávač obeznámen se strukturou webu, ve kterém je dokument s odpovědí pro uživatele, jistě jej zobrazí. Yandex navíc může do úryvku okamžitě přidat nejnavštěvovanější stránky takového webového zdroje, takže v případě potřeby může návštěvník okamžitě přejít do sekce, kterou potřebuje, a ušetřit tak svůj čas.

Existují úryvky, které obsahují cenu produktu pro internetový obchod, hodnocení hotelu nebo restaurace ve formě hvězdiček a další zajímavé informace s různými čísly o objektech ve vyhledávacích dokumentech. Úkolem těchto informací je poskytnout úplný seznam údajů o těch subjektech nebo objektech, které uživatele zajímají.

Obecně, již s různými příklady, bude stránka odpovědí vypadat takto:

Hodnocení a hodnotitelé

Yandex nemá za úkol pouze vše najít možné možnosti odpověď, ale i výběr toho nejlepšího (relevantního). Uživatel se totiž nebude prohrabávat všemi odkazy, které mu Yandex poskytne jako výsledek vyhledávání. Proces organizace výsledků vyhledávání se nazývá žebříčku ... To znamená, že je to pořadí, které určuje kvalitu navrhovaných odpovědí.

Existují pravidla, podle kterých Yandex určuje relevantní stránky:

  • Degradace pozic na stránce s výsledky očekává weby, které zhoršují kvalitu vyhledávání. Obvykle se jedná o webové zdroje, jejichž majitelé se snaží oklamat vyhledávač. Jedná se například o stránky se stránkami, které obsahují nesmyslný nebo neviditelný text. Samozřejmě je to viditelné a srozumitelné pro vyhledávacího robota, ale ne pro návštěvníka, který tento dokument čte. Nebo stránky, které po kliknutí na odkaz v SERP okamžitě převedou uživatele na úplně jiný web.
  • stránky s erotickým obsahem se neobjevují ve výsledcích nebo jsou výrazně sníženy v hodnocení. To je způsobeno skutečností, že tyto webové zdroje často používají agresivní metody propagace.
  • stránky infikované viry nejsou ve výsledcích vyhledávání redukovány a nejsou z výsledků vyhledávání vyloučeny – v tomto případě je uživatel o nebezpečí informován pomocí speciální ikony. Důvodem je skutečnost, že Yandex předpokládá, že takové webové zdroje mohou obsahovat důležité dokumenty na žádost návštěvníka vyhledávače.

Takto například Yandex seřadí stránky pro dotaz „jablko“:

Kromě faktorů hodnocení používá Yandex speciální šablony s dotazy a odpověďmi na ně, které uživatelé vyhledávačů považují za nejvhodnější. Žádný stroj nedokáže vyrobit takové vzorky tento moment- to je výsada člověka. V Yandexu se takoví specialisté nazývají posuzovatelé... Jejich úkolem je plně analyzovat všechny hledané dokumenty a vyhodnocovat odpovědi na zadané dotazy. Vyberou nejlepší odpovědi a vytvoří speciální tréninkový vzorek. V něm vyhledávač vidí vztah mezi relevantními stránkami a jejich vlastnostmi. S těmito informacemi může Yandex vybrat optimální vzorec hodnocení pro každý požadavek. Metoda pro konstrukci takového vzorce se nazývá Matrixnet. Výhodou tohoto systému je odolnost proti přemontování, což umožňuje zohlednit velké množství hodnotících faktorů bez zvýšení počtu zbytečných odhadů a vzorů.

Na konci mého příspěvku vám chci ukázat některé zajímavé statistiky, které vyhledávač Yandex shromáždil v průběhu své práce.

1. Popularita osobních jmen v Rusku a ruských městech (data převzata z účtů bloggerů a sociálních sítí v březnu 2012).

Velký věštec

V roce 1863 vytvořil velký spisovatel Jules Verne svou další knihu Paříž ve 20. století. Podrobně v něm popsal metro, auto, elektrické křeslo, počítač a dokonce i internet. Vydavatel však odmítl knihu vytisknout a ležela přes 120 let, dokud ji v roce 1989 nenašel pravnuk Julese Verna. Kniha vyšla v roce 1994.

Dobrý den, milí čtenáři!

V globálním internetovém prostoru je v současnosti spousta vyhledávačů. Každý z nich má své vlastní algoritmy pro indexování a hodnocení stránek, ale obecně je princip práce vyhledávačů velmi podobný.

Znalost fungování vyhledávače v prostředí rychle rostoucí konkurence je významnou výhodou při propagaci nejen komerčních, ale i informačních stránek a blogů. Tyto znalosti pomáhají budovat efektivní strategii optimalizace webu a s menší námahou se dostat do TOP výsledků u propagovaných skupin dotazů.

Jak fungují vyhledávače

Smyslem práce optimalizátoru je „přizpůsobit“ propagované stránky vyhledávacím algoritmům a pomoci tak těmto stránkám dosáhnout vysokých pozic pro určité dotazy. Než však začnete pracovat na optimalizaci webu nebo blogu, musíte alespoň povrchně porozumět zvláštnostem práce vyhledávačů, abyste pochopili, jak mohou reagovat na akce provedené optimalizátorem.

Detailní detaily tvorby výsledků vyhledávání jsou samozřejmě informace, které vyhledávače nezveřejňují. Ke správnému úsilí však stačí pochopit hlavní principy, podle kterých vyhledávače fungují.

Metody vyhledávání informací

Dvě hlavní metody, které dnes vyhledávače používají, se liší ve způsobu vyhledávání informací.

  1. Algoritmus přímého vyhledávání, která zahrnuje spárování každého z dokumentů uložených v databázi vyhledávače s klíčovou frází (požadavek uživatele), je poměrně spolehlivou metodou, která vám umožní najít všechny nezbytné informace... Nevýhodou této metody je, že při vyhledávání ve velkém množství dat je čas potřebný k nalezení odpovědi poměrně dlouhý.
  2. Algoritmus inverzního indexu, když se klíčová fráze porovnává se seznamem dokumentů, ve kterých se vyskytuje, je to výhodné při interakci s databázemi obsahujícími desítky a stovky milionů stránek. S tímto přístupem se vyhledávání neprovádí ve všech dokumentech, ale pouze ve speciálních souborech, které obsahují seznamy slov obsažených na stránkách webu. Každé slovo v takovém seznamu je doprovázeno uvedením souřadnic pozic, kde se vyskytuje, a dalších parametrů. Právě tato metoda se dnes používá v práci takových známých vyhledávačů, jako jsou Yandex a Google.

Zde je třeba poznamenat, že když uživatel vstoupí do vyhledávací lišty prohlížeče, vyhledávání neprobíhá přímo na internetu, ale v předem shromážděných, uložených a aktuálně relevantních databázích obsahujících bloky informací zpracovávaných vyhledávači (stránky webu ). Rychlá tvorba výsledků vyhledávání je možná právě díky práci s inverzními indexy.

Textový obsah stránek (přímé indexy) vyhledávači je také uložen a použit při automatickém generování úryvků z textových fragmentů nejvhodnějších pro požadavek.

Matematický model hodnocení

Pro urychlení vyhledávání a zjednodušení procesu generování problému, který nejlépe odpovídá požadavku uživatele, se používá určitý matematický model. Úkolem tohoto matematický model- vyhledání potřebných stránek v aktuální databázi inverzních indexů, posouzení jejich stupně shody s požadavkem a jejich distribuce v sestupném pořadí podle relevance.

Pouhé nalezení požadované fráze na stránce nestačí. Při určení pomocí vyhledávačů se použije výpočet váhy dokumentu vzhledem k požadavku uživatele. Pro každý dotaz je tento parametr vypočítán na základě následujících údajů: frekvence použití na analyzované stránce a koeficient odrážející, jak vzácně se stejné slovo vyskytuje v jiných dokumentech v databázi vyhledávače. Součin těchto dvou hodnot odpovídá váze dokumentu.

Prezentovaný algoritmus je samozřejmě velmi zjednodušený, protože vyhledávače mají k dispozici řadu dalších doplňkových koeficientů používaných při výpočtech, ale význam se tím nemění. Čím častěji se určité slovo z požadavku uživatele v dokumentu vyskytuje, tím větší je jeho váha. V tomto případě je textový obsah stránky považován za spam při překročení určitých limitů, které jsou pro každý požadavek jiné.

Hlavní funkce vyhledávače

Všechny existující vyhledávací systémy jsou navrženy tak, aby vykonávaly několik důležitých funkcí: vyhledávání informací, indexování, hodnocení kvality, správné řazení a vytváření výsledků vyhledávání. Prvořadým úkolem každého vyhledávače je poskytnout uživateli informace, které hledá, co nejpřesnější odpověď na konkrétní požadavek.

Protože většina uživatelů nemá ponětí o tom, jak fungují internetové vyhledávače, a možnosti vzdělávat uživatele o „správném“ vyhledávání jsou velmi omezené (např. tipy pro vyhledávání), jsou vývojáři nuceni vylepšit samotné vyhledávání. To znamená vytvoření algoritmů a principů práce vyhledávačů, které vám umožní najít požadované informace bez ohledu na to, jak "správně" je vyhledávací dotaz formulován.

Snímání

Jedná se o sledování změn v již indexovaných dokumentech a hledání nových stránek, které mohou být prezentovány ve výsledcích vyhledávání pro požadavky uživatelů. Vyhledávače skenují zdroje na internetu pomocí specializované programy tzv. pavouci nebo prolézači.

Vyhledávací roboty automaticky skenují internetové zdroje a shromažďují data. Po první návštěvě webu a jeho zařazení do vyhledávací databáze začnou roboti pravidelně navštěvovat tyto stránky, aby mohli sledovat a zaznamenávat změny v obsahu.

Vzhledem k tomu, že počet rozvojových zdrojů na internetu je velký a nové stránky se objevují každý den, popsaný proces se nezastaví ani na minutu. Tento princip fungování vyhledávačů na internetu jim umožňuje mít vždy aktuální informace o stránkách dostupných na síti a jejich obsahu.

Hlavním úkolem vyhledávacího robota je vyhledat nová data a přenést je do vyhledávače k ​​dalšímu zpracování.

Indexování

Vyhledávač je schopen najít data pouze o stránkách prezentovaných v jeho databázi – jinými slovy indexovaných. V tomto kroku musí vyhledávač určit, zda mají být nalezené informace vloženy do databáze a pokud ano, do které sekce. Tento proces je také automatický.

Předpokládá se, že Google indexuje téměř všechny informace dostupné na webu, zatímco Yandex přistupuje k indexování obsahu selektivněji a ne tak rychle. Oba vyhledávací giganti ruského internetu pracují ve prospěch uživatele, ale obecné zásady práce vyhledávače Google a Yandex jsou poněkud odlišné, protože jsou založeny na jedinečných softwarových řešeních, která tvoří každý systém.

Obecným bodem pro vyhledávače je, že proces indexování všech nových zdrojů trvá déle než indexování nového obsahu na stránkách známých systému. Informace, které se objeví na stránkách, které jsou vysoce důvěryhodnými vyhledávači, se do indexu dostanou téměř okamžitě.

V rozsahu

Ranking je hodnocení významnosti indexovaných dat pomocí algoritmů vyhledávače a jejich seřazení v souladu s faktory vlastními danému vyhledávači. Přijaté informace jsou zpracovávány za účelem generování výsledků vyhledávání v celém spektru uživatelských dotazů. Které informace budou uvedeny ve výsledcích vyhledávání výše a které níže, závisí výhradně na tom, jak funguje vybraný vyhledávač a jeho algoritmy.

Stránky v databázi vyhledávačů jsou rozděleny podle předmětů a skupin dotazů. Pro každou skupinu požadavků je vygenerováno předběžné vydání, které podléhá další úpravě. Pozice většiny webů se mění po každé aktualizaci problému – aktualizace hodnocení, ke které dochází na Google každý den, ve vyhledávání Yandex – každých pár dní.

Člověk jako asistent v boji o kvalitu vydání

Realita je taková, že i ty nejpokročilejší vyhledávače, jako je Yandex a Google, v současnosti stále potřebují lidskou pomoc, aby vytvořily SERP, které splňují přijaté standardy kvality. Kde vyhledávací algoritmus nefunguje dostatečně dobře, jeho výsledky se upravují ručně – vyhodnocením obsahu stránky podle různých kritérií.

Velká armáda speciálně vycvičených lidí z rozdílné země- moderátoři (posuzovatelé) vyhledávačů - každý den musíte vykonat obrovské množství práce při kontrole souladu webových stránek s požadavky uživatelů, filtrování výsledků od spamu a zakázaného obsahu (texty, obrázky, videa). Práce hodnotitelů umožňuje čistší vydání a propagaci další vývoj samoučící se vyhledávací algoritmy.

Závěr

S rozvojem internetu a postupnou změnou standardů a forem prezentace obsahu se mění přístup k vyhledávání, zlepšují se procesy indexování a řazení informací, používané algoritmy, objevují se nové faktory řazení. To vše umožňuje vyhledávačům generovat co nejkvalitnější a nejadekvátnější výsledky vyhledávání, ale zároveň to komplikuje život webmasterům a specialistům zabývajícím se propagací webových stránek.

V komentářích pod článkem navrhuji mluvit o tom, který z hlavních vyhledávačů ruského internetu - Yandex nebo Google, podle vašeho názoru, funguje lépe a poskytuje uživateli lepší vyhledávání a proč.

Internetový vyhledávač je podle definice systém pro vyhledávání informací, který nám pomáhá najít informace na World Wide Web. To usnadňuje globální výměnu informací. Ale internet je nestrukturovaná databáze. Roste exponenciálně a stal se obrovským úložištěm informací. Hledání informací na internetu je obtížný úkol. Je potřeba mít nástroj pro správu, filtrování a extrahování těchto informací o oceánu. K tomuto účelu slouží vyhledávač.

Jak funguje vyhledávač?

Vyhledávače Internet jsou motory pro vyhledávání a získávání informací na internetu. Většina z nich používá architekturu sledovaného indexeru. Jsou závislé na sledovaných modulech. Crawlery, nazývané také pavouci, jsou malé programy, které skenují webové stránky.

Prohledávače navštíví počáteční sadu adres URL. Vytěžují adresy URL, které se objevují na procházených stránkách, a odesílají tyto informace do řídicího modulu prolézacího modulu. Modul prohledávače rozhodne, které stránky navštívit jako další, a tyto adresy URL předá prohledávačům.

Témata pokrytá různými vyhledávači se liší v závislosti na algoritmech, které používají. Některé vyhledávače jsou naprogramovány tak, aby vyhledávaly na stránkách konkrétní téma, zatímco prohledávače jiných mohou navštívit co nejvíce stránek.

Indexovací modul extrahuje informace z každé stránky, kterou navštíví, a zadá URL do databáze. Výsledkem je obrovská vyhledávací tabulka se seznamem adres URL směřujících na informační stránky. V tabulce jsou uvedeny stránky, které byly pokryty procesem procházení.

Modul analýzy je další důležitou součástí architektury vyhledávače. Vytváří index obslužnosti. Indexovací nástroj může poskytnout přístup ke stránkám dané délky nebo stránkám obsahujícím určitý počet obrázků.

Během procesu procházení a indexování vyhledávač ukládá stránky, které načte. Jsou dočasně uloženy v úložišti stránek. Vyhledávače udržují mezipaměť navštívených stránek, aby urychlily načítání již navštívených stránek.

Dotazový modul vyhledávače přijímá vyhledávací dotazy od uživatelů ve formuláři klíčová slova... Modul hodnocení řadí výsledky.

Architektura indexovacího prolézacího modulu má mnoho možností. Mění se v distribuované architektuře vyhledávače. Tyto architektury se skládají ze sběračů a zprostředkovatelů. Kolektory shromažďují informace o indexování z webových serverů, zatímco brokeři poskytují indexovací stroj a rozhraní dotazů. Brokeři indexují aktualizaci na základě informací získaných od sběratelů a jiných makléřů. Mohou filtrovat informace. Mnoho vyhledávačů dnes používá tento typ architektury.

Vyhledávače a hodnocení stránek

Když vytvoříme dotaz ve vyhledávači, zobrazí se výsledky v určitém pořadí. Většina z nás má tendenci navštěvovat stránky nejvyššího řádu a ty druhé ignorovat. Je to proto, že si myslíme, že několik horních stránek je pro náš dotaz relevantnějších. Každého tedy zajímá umístění jeho stránek do první desítky výsledků ve vyhledávači.

Slova zadaná v rozhraní dotazu vyhledávače jsou klíčová slova, která si vyžádaly vyhledávače. Jedná se o seznam stránek souvisejících s požadovanými klíčovými slovy. Během tohoto procesu vyhledávače získávají stránky, které mají častý výskyt těchto klíčových slov. Hledají vztahy mezi klíčovými slovy. Počítá se také umístění vašich klíčových slov a také hodnocení stránky, která je obsahuje. Klíčová slova, která se objevují v názvech stránek nebo v adresách URL, mají větší váhu. Stránky, na které odkazují odkazy, je činí ještě populárnějšími. Pokud na stránku odkazuje mnoho jiných webů, je to považováno za hodnotné a relevantnější.

Existuje algoritmus hodnocení, který používá každý vyhledávač. Algoritmus je počítačový vzorec navržený tak, aby na žádost uživatele poskytoval relevantní stránky. Každý vyhledávač může mít jiný hodnotící algoritmus, který analyzuje stránky v databázi vyhledávače, aby určil vhodné odpovědi na vyhledávací dotazy. Vyhledávače indexují různé informace různými způsoby. To vede k tomu, že konkrétní dotaz, doručený dvěma různým vyhledávačům, může vrátit stránky v různém pořadí nebo načíst různé stránky. Popularita webu jsou faktory, které určují relevanci. Popularita webu po prokliku je dalším faktorem, který určuje jeho hodnocení. Je to měřítko toho, jak často je stránka navštěvována.

Webmasteři se snaží oklamat algoritmy vyhledávačů, aby zvýšili pozici svých stránek ve výsledcích vyhledávání. Naplňte stránky webu klíčovými slovy nebo použijte metaznačky k oklamání strategií hodnocení vyhledávačů. Ale vyhledávače jsou dost chytré! Zlepšují své algoritmy tak, aby manipulace webmasterů neovlivňovaly výsledky vyhledávání.

Musíte pochopit, že i stránky po prvních několika v seznamu mohou obsahovat přesně ty informace, které jste hledali. Ale buďte si jisti, že dobré vyhledávače vám vždy přinesou vysoce relevantní stránky v nejvyšším pořadí!

Nejpopulárnější webovou službou naší doby je vyhledávač. Zde je vše pochopitelné, protože doby, kdy zástupci prvních uživatelů internetu mohli pozorovat nové položky na síti, jsou dávno pryč.

Objevuje se a hromadí se tolik informací, že je pro člověka velmi obtížné najít přesně tu, kterou by potřeboval. Představte si, jaké by to bylo hledání na internetu, kdyby měl běžný uživatel hledat informace, nechápající kde. Nechápu kde, protože ručním vyhledáváním mnoho informací nenajdete.

Vyhledávač co to je?

Je dobré, když uživatel již zná stránky, které mohou mít potřebné informace, ale co dělat jinak? Aby člověk usnadnil život při hledání potřebných informací na internetu, byly vynalezeny vyhledávače nebo jednoduše vyhledávače. Vyhledávač plní jednu velmi důležitou funkci, bez které by internet nebyl takový, jak jsme na něj zvyklí – je to vyhledávání informací na webu.

Vyhledávací systém je speciální webová stránka nebo jiným způsobem stránka, která poskytuje uživatelům na jejich žádost hypertextové odkazy na stránky, stránky, které odpovídají na daný vyhledávací dotaz.

Tedy trochu přesněji, vyhledávání informací na internetu, prováděné díky softwarové a hardwarové funkční sadě a webovému rozhraní pro interakci s uživateli.

Pro interakci člověka s vyhledávačem bylo vytvořeno webové rozhraní, tedy viditelná a srozumitelná skořápka. Tento přístup vývojářů vyhledávačů usnadňuje mnoha lidem hledání. Vyhledávání se zpravidla provádí na internetu pomocí vyhledávačů, ale existují i ​​vyhledávací systémy pro FTP servery, určité druhy zboží na World Wide Web nebo informace o novinkách či jiné směry vyhledávání.

Vyhledávání lze provádět nejen podle textového obsahu stránek, ale také podle jiných typů informací, které může člověk vyhledávat: obrázky, videa, zvukové soubory atd.

Jak vyhledávač vyhledává?

Samotné vyhledávání na internetu, stejně jako prohlížení webových stránek, je možné pomocí internetového prohlížeče - prohlížeče. Teprve poté, co uživatel nastaví svůj požadavek do vyhledávací lišty, probíhá přímo samotné vyhledávání.

Každý vyhledávač obsahuje softwarová část na kterém je celý vyhledávač založen, říká se mu vyhledávač – je softwarový balík a poskytuje možnost vyhledávat informace. Po kontaktování vyhledávače, vytvoření vyhledávacího dotazu osobou a jeho zadání do vyhledávacího pole vyhledávač vygeneruje stránku se seznamem výsledků vyhledávání, které jsou podle názoru vyhledávače nejrelevantnější zde vyšší.

Relevantnost vyhledávání spočívá ve vyhledávání materiálů, které nejlépe splňují požadavek uživatele, a umístění hypertextových odkazů na ně v SERP s přesnějšími výsledky vyššími než ostatní. Samotné rozdělení výsledků se nazývá hodnocení stránek.

Jak tedy vyhledávač připravuje podklady k vydání a jak hledá informace sám vyhledávač? Sběr informací na síti usnadňuje robot jedinečný pro každý vyhledávač nebo jinak bot, který má i řadu dalších synonym jako crawler nebo pavouk a práci samotného vyhledávacího systému dokáže rozdělit do tří fází:

První fázi práce vyhledávače lze připsat procházení stránek v globální síť a shromažďování kopií webových stránek na vlastních serverech. Tvoří se tak obrovské množství dosud nezpracovaných a nevhodných informací pro výsledky vyhledávání.

Druhá fáze práce vyhledávače se redukuje na uspořádání informací získaných dříve, v první fázi, ze stránek. Řazení se provádí tak, aby v co nejkratším čase podpořilo velmi kvalitní vyhledávání, které uživatelé od vyhledávače skutečně očekávají. Fáze se nazývá indexování, což znamená, že stránky jsou již připraveny k doručení a aktuální základna bude považována za index.

Je to právě třetí fáze, která určuje výsledky vyhledávání po obdržení požadavku od vašeho klienta, přičemž se spoléhá na klíčová nebo blízká klíčová slova uvedená v požadavku. To přispívá k výběru nejvhodnějších informací pro žádost a její následné vystavení. Protože existuje mnoho informací, vyhledávač provádí hodnocení v souladu se svými algoritmy.
Nejlepší vyhledávač je ten, který dokáže poskytnout materiál, který nejsprávněji odpovídá na požadavek uživatele. Ale i zde mohou být výsledky, které byly ovlivněny lidmi se zájmem o propagaci svých stránek, takové stránky sice ne vždy, ale často se ve výsledcích vyhledávání objevují, ale ne dlouho.

Přestože v mnoha regionech již byli identifikováni světoví lídři, vyhledávače nadále rozvíjejí své kvalitní vyhledávání. Čím lepší vyhledávání dokážou poskytnout, tím více lidí jej bude používat.

Jak používat vyhledávač?

Co je vyhledávač a jak funguje je již jasné, ale jak jej správně používat? Většina webů má vždy vyhledávací panel a vedle něj je tlačítko Najít nebo Hledat. PROTI vyhledávací řetězec zadá se dotaz, po kterém je třeba stisknout tlačítko hledat nebo, jak je tomu častěji, stisknout klávesu Enter na klávesnici a během několika sekund získáte výsledek dotazu ve formě seznamu.

Ale získat správnou odpověď na vyhledávací dotaz není vždy možné napoprvé. Aby hledání toho, co chcete, nebylo bolestivé, musíte správně sestavit vyhledávací dotaz a řídit se níže popsanými doporučeními.

Vyhledávací dotaz sestavíme správně

Zde je několik tipů pro používání vyhledávače. Dodržování některých triků a pravidel při hledání informací ve vyhledávači umožní získat kýžený výsledek mnohem rychlejší. Postupujte podle těchto pokynů:

  1. Správný pravopis slov zajišťuje maximální částka shoduje se s požadovaným informačním objektem (Přestože se moderní vyhledávače již naučily opravovat pravopisné chyby, tato rada by neměla být opomíjena).
  2. Použitím synonym v dotazu můžete pokrýt širší rozsah vyhledávání.
  3. Někdy může změna slova v textu dotazu přinést větší výsledek, proveďte přeformátování dotazu.
  4. Vneste do svého dotazu specifičnost, používejte přesné výskyty frází, které by měly definovat hlavní podstatu vyhledávání.
  5. Experimentujte s klíčovými slovy. Použití klíčových slov a frází může pomoci definovat hlavní bod a vyhledávač vrátí relevantnější výsledky.

Vyhledávač tedy není nic jiného než příležitost najít si informace, které vás zajímají, a obvykle je zcela zdarma použít, něco se naučit, něčemu porozumět nebo si udělat správný závěr. Mnozí si svůj život už nedokážou představit hlasové vyhledávání, do kterého se text nemusí psát, stačí vyslovit svůj požadavek a vstupním zařízením je zde mikrofon. To vše svědčí o neustálém rozvoji vyhledávacích technologií na internetu a jejich potřebě.