Crawler.java example

Explorer

sample-skeleton-projects-master
- AppletHelloWorld
  - MyFirstApplet.java
- AxisWebserviceHelloWorld
  - src
    - main
      - java
        com
        pack
        one
        Calculator.java
    - test
      - java
        com
        pack
        one
        CalculatorTest.java
- DropwizardHelloWorld
  - src
    - main
      - java
        com
        skeleton
        app
        MyApplication.java
        beans
        MyBean.java
        config
        MyConfiguration.java
        resources
        MyResource.java
- EJBHelloWorld
  - src
    - main
      - java
        com
        sample
        beans
        SampleBean.java
        SampleStatefulBean.java
        SampleStatelessBean.java
        client
        StandAloneClient.java
        entity
        BeanOneImpl.java
        IBeanOne.java
- JPA
  - src
    - main
      - java
        com
        jpa
        dao
        GenericDAO.java
        GenericHibernateDAO.java
        HumanDAO.java
        db
        MemoryHSQLDB.java
        model
        Human.java
        util
        HibernateUtil.java
        main
        MainRunner.java
    - test
      - java
        com
        test
        conn
        ConnectionTest.java
        deletion
        DeletionTest.java
        insertion
        InsertionTest.java
- JSFHelloWorld
  - src
    - main
      - java
        com
        skeleton
        beans
        MyHelloBean.java
- JavaLiteHelloWorld
  - src
    - main
      - java
        com
        sample
        http
        SimpleRequests.java
        orm
        ConnectionUtils.java
        MainRunner.java
        PersonModel.java
    - test
      - java
        com
        sample
        http
        SimpleRequestsGetTest.java
        SimpleRequestsPostTest.java
- JsoupHelloWorld
  - src
    - main
      - java
        com
        sample
        crawler
        ContentList.java
        Crawler.java
        MapImageUtils.java
        one
        MainRunner.java
    - test
      - java
        com
        sample
        db
        tests
        DBTests.java
        tests
        JsoupTest.java
- Log4j
  - src
    - main
      - java
        com
        skeleton
        user
        Main.java
    - test
      - java
        com
        skeleton
        test
        LogTest.java
- MapReduceHelloWorld
  - src
    - main
      - java
        com
        sample
        client
        ClientRunner.java
        one
        mappers
        WordCountMapper.java
        reducers
        WordCountReducer.java
- MongoDbHelloWorld
  - src
    - main
      - java
        com
        sample
        utils
        MongoDbUtils.java
    - test
      - java
        com
        sample
        utils
        MongoDbUtilsTest.java
- PlayHelloWorld
  - app
    - com
      - sample
        one
        MyHelloWorld.java
    - controllers
      - Application.java
  - test
    - ApplicationTest.java
    - IntegrationTest.java
- PortletsHelloWorld
  - src
    - main
      - java
        com
        sample
        portlet
        MyPortlet.java
- RESTEasy
  - src
    - main
      - java
        com
        sample
        one
        GreetRestService.java
        RestServicesActivator.java
        utilities
        MyBean.java
        TransformationUtils.java
    - test
      - java
        com
        sample
        integrations
        ITRestService.java
        tests
        TestUtils.java
- Servlet30HelloWorld
  - src
    - main
      - java
        com
        sample
        dynamic
        CalculatorServlet.java
        filters
        MyFilter.java
        listeners
        SessionListener.java
        servlets
        HelloWorldServlet.java
        PostServlet.java
        StartupServlet.java
        tags
        GreetingsTag.java
        utils
        ServletConstants.java
- SparkHelloWorld
  - src
    - main
      - java
        com
        sample
        get
        GetRequests.java
        interfaces
        SumFunctionalI.java
        main
        MainRunner.java
        post
        PostRequests.java
- SpringBootHelloWorld
  - src
    - main
      - java
        com
        sample
        runners
        StandAloneClient.java
        services
        MyRestServicesController.java
- Struts2HelloWorld
  - src
    - main
      - java
        com
        skeleton
        actions
        DefaultErrorAction.java
        HelloWorldAction.java
        ProcessFormAction.java
        interceptors
        MyTimerInterceptor.java
        rest
        EmployeeBean.java
        EmployeeBeanController.java
        EmployeeBeanDAO.java
- StrutsHelloWorld
  - src
    - main
      - java
        com
        sample
        one
        HelloWorldAction.java
- TapestryHelloWolrd
  - src
    - main
      - java
        com
        sample
        one
        MyHelloWorld.java
- UnitTestsCodeCoverage
  - src
    - main
      - java
        com
        sample
        one
        SampleOne.java
        two
        SampleClass.java
    - test
      - java
        com
        sample
        one
        SampleOneTest.java
        two
        SampleClassTest.java
- WicketHelloWorld
  - src
    - main
      - java
        com
        sample
        one
        apps
        Application.java
        pages
        GreetingsPage.java

package com.sample.crawler;

import java.io.IOException;
import java.sql.SQLException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * A basic implementaion of a web crawler that uses in memory based map to
 * maintain list of crawled pages
 *
 * @author saifasif
 */
public class Crawler {

    public static void main(String[] args) throws SQLException, IOException {
        processPage("http://www.mit.edu");
    }

    public static void processPage(String URL) throws SQLException, IOException {
        /*
         * check if the given URL is already in database. get useful information
         */
        if (ContentList.isContentInMap(URL)) {
            return;
        }
        Document doc = null;
        try {
            doc = Jsoup.connect(URL).timeout(5000).get();
            if (doc.text().contains("research")) {
                System.out.println(URL);
                ContentList.insertKey(URL, URL);
            }

            // get all links and recursively call the processPage method
            Elements questions = doc.select("a[href]");
            for (Element link : questions) {
                if (link.attr("href").contains("mit.edu"))
                    processPage(link.attr("abs:href"));
            }
        } catch (Exception e) {
            System.out.println("skipping .... " + URL);
        }

    }
}