Crawl-Bot, aber wie?

  • VB.NET

Es gibt 6 Antworten in diesem Thema. Der letzte Beitrag () ist von Apfel.

    Crawl-Bot, aber wie?

    Hi,

    ich möchte gerne einen Suchbot programmieren. Wie ich den Quelltext einer Seite aufrufe und nach Links durchsuche weiß ich bereits. Nun möchte ich aber auch normalen Content, also alles was nicht zur navi gehört, als solchen erkennen können. Wie könnte das gehen?
    so weit war ich auch schon. ich habe nur das problem, dass die seiten ganz unterschiedlich aufgebaut sind, und ich nicht für jeden der paar Millionen Seitentypen ein Muster einprogrammieren kann. Ich bräuchte irgendwas, was erkennt wo die navi aufhört und wo der content anfängt.
    Hi,
    mh frage doch mal bei Google nach xD *so spaß beiseite

    Ich hab mal gehört (auch bei Google Videos) das die Analyse nicht vorgefertigt ist, sondern die Seiten
    komplett Mathematisch mit betrachtet werden. Damit können die dann einschätzen was was im Code der Seite ist etc.
    Sprich die haben da sau komplizierte Alghorythmen drinne die das verarbeiten können.
    Da eben das Problem besteht wie du es oben gesagt hast. Das es Millionen versch. Aufbauten von Seiten gibt.


    mfg Phill
    leider.... mir is grad aber ne idee gekommen:

    1. Navi, header und content sind:

    a) durch tr und td getrennt

    b) durch divs getrennt

    c) durch hr getrennt

    d) durch frames getrennt

    das sind die VIER fälle die man haben kann oder hab ich da noch einen vergessen? ?(
    Mh,
    naja tr und td bzw. divs sind aber auch der rest der Seiten.
    Sprich man müsste irgendwie anhand der versch. Container schauen was die Navi sein könnte und was der Rest etc.

    Ich schätze mal ist viel Analyse und Mathe :)

    Das von dir grade geht ja :)
    Nur musst du noch rausfinden dann ob es wirklich die Navi ist oder ne ShoutBox o.Ä.

    mfg Phill