Projektowanie wyszukiwarki internetowej

Witam. Mam pytanie ile waży spis stron www z internetu, ogromny zbiór linków? Na innym forum wyczytałem że 1gb to 150tyś linków, prawda? Bo watpie. http://www.forum.optymalizacja.com/topic/21202-tworzenie-bota-wyszukiwarki/

zależy jaki spis, jakie informacje ma zawierać…  150 tyś linków przy 1GB, to całkiem spora dawka informacji, chociaż jeżeli chcesz indeksować całą zawartość strony, to dość mało przy dużych stronach i kiepskiej optymalizacji

Ile ma mniej więcej zajmować strona w bazie aby byla optymalna? Czyli aby 1gb miescil ich okolo 130tys.

Jakieś ~ 76kB * 13tysięcy = 1GB (niecały). Nijak się to ma do linków, stron www czy baz danych, bo to zupełnie różne od siebie rzeczy.

W tabeli w wierszu mającym 11 kolumn bede mieścił 58 słów po max 18znakach?

W wierszu ma być max 58 słów czy w kolumnie?

W wierszu tabeli SQL

Czyli 58 * 11 = 591 bajtów / wiersz…

Więc w tabeli 1GB upchniesz jakieś 1,8 miliona takich rekordów, ale żeby to miało ręce i nogi, to jakieś ID i pola dodatkowe musisz doliczyć :wink:

Ok. Dzięki za pomoc. Wiesz czy warto robic wyszukiwarke opensource?

Just for fun - warto, chociażby żeby nauczyć się jak. Jeżeli to ma być jakoś ubranżowione, to przy odpowiednim marketingu, może nawet uda się coś zarobić na reklamach. Ale nie nastawiałbym się na zasadzie “pisze kod, żeby zgarnąć kasę”.

Pisząc opensource myślałem o projektcie podobnym do linuxa.

Jedno nie wyklucza drugiego… Taki RedHat jest open source, co nie wyklucza dojenia na nim kasy przez RedHat Inc. a pan Torvalds jest pracownikiem sponsorowany przez Linux Foundation, żeby nie zawracał sobie głowy głupotami :wink:

 

Wyszukiwarka musi być jakoś hostowana - jakby każdy user miał trzymać bazę lokalnie, to nie miałoby przecież większego sensu :wink: miałem na myśli coś jak google ads. Skoro już napiszesz coś takiego, to szkoda byłoby  nie spróbować na tym zarabiać. Poza tym, kod kodem, a dojenie kasy na wdrożeniach, supporcie i usługach to przecież normalna rzecz - jest mnóstwo ludzi w szeroko pojętym IT zarabiających w ten sposób. 

Jak byś ty to widział?

Ja nie programuję, więc wcale tego nie widzę :wink:

Jak pisałem - nie warto zakładać z góry że wogóle przyniesie to jakąś kasę (o zysku nie wspominając). Po prostu kombinuj - jak zacznie Ci się projekt rozrastać, a będzie oferował już jakieś funkcjonalności, dokoptuj sobie kogoś kto zajmie się www, kogoś do testów itd,a jednocześnie np. uderzaj do dostawców hostingu / łączy żeby udostępnili np. serwer z bazą w zamian za info na stronie czy coś w ten deseń… i tak włożysz w to sporo czasu, więc jak się uda nie dokładać do interesu to już coś… 

 

W końcu google zaczynało w garażu (i to nawet nie był garaż założycieli, tylko koleżanki) :wink:

Mam działający prototyp bota, mam swój page rank oraz 18 kryteriów do oceny strony. Mógłbyś mi powiedzieć jak moge oceniać strone wg ciebie, może coś dodam do bota?

hmm… ciężko powiedzieć, bliżej mi do baz danych niż SEO… ale to co mi przychodzi do głowy: czas istnienia strony, częstotliwość update, TLD (i zgodnośc TLD z lokalizacją użytkownika), licznik słów, ilość podlinkowań na innych stronach (chociaż to ostrożnie, bo wiadomo, że przeróżnej maści boty potrafią linkować np. w komentarzach).

Niekoniecznie w tej kolejności.

A coś wiecej?, ja sobie potem po wybieram to co się mi przyda. Jeszcze mam drobne problemy z parsowaniem pliku robots.txt

Hmmm… nie do końca to może etyczne, ale skoro open source i każdy to będzie mógł sobie konfigurować, to może jakiś parametr, którym można ręcznie podbić / obniżyć rating strony i/lub wykluczyć wogóle z wyników wyszukiwania?

A co do etyki to jeszcze szukam sztuczek webmasterów aby je wykrywać i banować, np. farmy linków, itp możecie mi powiedzieć o innych jak znacie?