Depends on how nice the crawler is...<br><br>If it uses a specific user agent, respects robots.txt, and keeps a certain IP address, then you can block it using those methods.<br><br>If it sends a user agent of &quot;Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322)&quot;, ignores robots.txt, crawls a page every 15 seconds or so, and switches an IP address after a short while using anonymous proxies (also read: virus infected computers worldwide) then no program, or human, can know it&#39;s not a human surfing.<br>
<br>--<br><br>&nbsp;&nbsp; Tzafrir Rehan.<br><br><div class="gmail_quote">On Feb 10, 2008 8:47 AM, Shahar Dag &lt;<a href="mailto:dag@cs.technion.ac.il">dag@cs.technion.ac.il</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi<br><br>OK, this sounds interesting, but what about the other side.<br>How do a web muster can block all those crawlers?<br>(I prefer a mail answer since I can&#39;t come to the lecture)<br><br>Thanks<br>Shahar Dag<br>_____________________________________________________________________________________________<br>
I am looking for old Vinyl record.<br>If you have any that you don&#39;t need please mail me<br><br>Thanks<br>Shahar<br><div><div></div><div class="Wj3C7c"><br>----- Original Message -----<br>From: &quot;Eli Billauer&quot; &lt;<a href="mailto:eli@billauer.co.il">eli@billauer.co.il</a>&gt;<br>
To: &quot;Haifa linux club&quot; &lt;<a href="mailto:haifux@haifux.org">haifux@haifux.org</a>&gt;<br>Cc: &quot;linux-il&quot; &lt;<a href="mailto:linux-il@cs.huji.ac.il">linux-il@cs.huji.ac.il</a>&gt;<br>Sent: Saturday, February 09, 2008 3:15 PM<br>
Subject: [Haifux Meeting] Crawling in Lightning<br><br><br>&gt; Next Monday, 11th of February, at 18:30 the Haifa Linux Club, will gather<br>&gt; for a lightning talk session<br>&gt;<br>&gt; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Crawling in Lightning<br>
&gt;<br>&gt; Abstract<br>&gt;<br>&gt; This is a show-me-the-source meeting, during which several one-liners and<br>&gt; scripts will be presented. The core subject is methods for interacting<br>&gt; with HTTP web servers (&quot;faking Firefox&quot;) in order to fetch information,<br>
&gt; vote automatically in polls etc.<br>&gt;<br>&gt; This meeting consists of several short talks, by several speakers (*). The<br>&gt; agenda is as follows, 5-10 minutes per item (subject to change):<br>&gt;<br>&gt; * A very short introduction to HTTP (mainly showing a typical session<br>
&gt; transcript)<br>&gt; * GET<br>&gt; * wget<br>&gt; * curl<br>&gt; * A script in Python with exception handling<br>&gt; * A short script in Python for fetching mp3&#39;s<br>&gt; * Perl script to rip image galleries (LWP) with cookie handling for login<br>
&gt; * A Ruby script<br>&gt; * Perl: Using the POST method to vote automatically<br>&gt; * A Perl/Tk GUI script helping in developing crawlers<br>&gt;<br>&gt; (*) It turned out that there is more interest than experience in the field<br>
&gt; among Haifuxers. As a result, more than one of the items above will be<br>&gt; delivered by yours truly.<br>&gt;<br>&gt; ======================================================<br>&gt;<br>&gt; We meet in Taub building, room 6. For location information see:<br>
&gt; <a href="http://www.haifux.org/where.html" target="_blank">http://www.haifux.org/where.html</a><br>&gt;<br>&gt; Attendance is free, and you are all invited!<br>&gt;<br>&gt; ======================================================<br>
&gt;<br>&gt; Future Lectures:<br>&gt;<br>&gt; Tapping into the Fountain of CPUs---On Operating System Support for<br>&gt; Programmable Devices, by Muli Ben-Yehuda, 25/2/2008<br>&gt;<br>&gt; ======================================================<br>
&gt;<br>&gt; We are always interested in hearing your talks and ideas. If you wish to<br>&gt; give a talk, hold a discussion, or just plan some event Haifux might be<br>&gt; interested in, please contact us at <a href="mailto:webmaster@haifux.org">webmaster@haifux.org</a><br>
&gt;<br>&gt;<br>&gt;<br></div></div>&gt; =================================================================<br>&gt; To unsubscribe, send mail to <a href="mailto:linux-il-request@cs.huji.ac.il">linux-il-request@cs.huji.ac.il</a> with<br>
&gt; the word &quot;unsubscribe&quot; in the message body, e.g., run the command<br>&gt; echo unsubscribe | mail <a href="mailto:linux-il-request@cs.huji.ac.il">linux-il-request@cs.huji.ac.il</a><br><div><div></div><div class="Wj3C7c">
&gt;<br><br>_______________________________________________<br>Haifux mailing list<br><a href="mailto:Haifux@haifux.org">Haifux@haifux.org</a><br><a href="http://hamakor.org.il/cgi-bin/mailman/listinfo/haifux" target="_blank">http://hamakor.org.il/cgi-bin/mailman/listinfo/haifux</a><br>
</div></div></blockquote></div><br>