PageTypeExtractor.java example

Explorer

abmash-master
- src
  - main
    - java
      - com
        abmash
        REMOVE
        api
        HtmlQuery.java
        data
        Date.java
        core
        element
        distance
        ElementDistance.java
        ElementDistanceComparator.java
        ElementWeightedAverageDistance.java
        htmlquery
        condition
        ClosenessCondition.java
        ColorCondition.java
        Condition.java
        Conditions.java
        ElementCondition.java
        SelectorCondition.java
        TagnameCondition.java
        selector
        CssSelector.java
        DirectMatchSelector.java
        JQuerySelector.java
        Selector.java
        SelectorGroup.java
        SelectorGroups.java
        TagnameSelector.java
        XpathSelector.java
        TODO
        api
        manager
        CookieManager.java
        browser
        InteractionChain.java
        SignInPage.java
        server
        BrowserServer.java
        SeleniumRemoteBrowserServer.java
        api
        Browser.java
        HtmlElement.java
        HtmlElements.java
        browser
        Debug.java
        Frame.java
        History.java
        JavaScript.java
        WaitFor.java
        Window.java
        package-info.java
        data
        List.java
        Table.java
        TableRow.java
        TableRows.java
        package-info.java
        package-info.java
        query
        Query.java
        QueryFactory.java
        package-info.java
        core
        browser
        BrowserConfig.java
        BrowserRunnable.java
        JavaScriptResult.java
        Popup.java
        Popups.java
        interaction
        ActionOnBrowser.java
        ActionOnHtmlElement.java
        Clear.java
        Click.java
        DragTo.java
        Hover.java
        JavaScriptExecution.java
        KeyHold.java
        KeyPress.java
        KeyRelease.java
        MouseMove.java
        OpenURL.java
        Select.java
        Submit.java
        Type.java
        package-info.java
        package-info.java
        waitcondition
        ElementHasTextWaitCondition.java
        ElementWaitCondition.java
        JavaScriptEvaluatedWaitCondition.java
        package-info.java
        color
        ColorName.java
        Dominance.java
        Tolerance.java
        package-info.java
        document
        Document.java
        package-info.java
        element
        Element.java
        Location.java
        Size.java
        package-info.java
        jquery
        JQuery.java
        JQueryFactory.java
        JQueryList.java
        command
        AddCommand.java
        AncestorsCommand.java
        ChildrenCommand.java
        CloseToCommand.java
        ColorCommand.java
        Command.java
        CommandWithPredicates.java
        ContainsAttributeCommand.java
        ContainsTextCommand.java
        ContentsCommand.java
        DistinctDescendantsCommand.java
        FilterCSSCommand.java
        FilterCommand.java
        FindCommand.java
        HasCommand.java
        JQueryCommand.java
        NextCommand.java
        NotCommand.java
        ParentCommand.java
        PrevCommand.java
        RegExCommand.java
        SiblingsCommand.java
        XPathCommand.java
        package-info.java
        package-info.java
        query
        BooleanType.java
        ColorOptions.java
        DirectionOptions.java
        DirectionType.java
        DistanceType.java
        package-info.java
        predicate
        BooleanPredicate.java
        CheckablePredicate.java
        ChoosablePredicate.java
        ClickablePredicate.java
        ColorPredicate.java
        ContainsPredicate.java
        DatepickerPredicate.java
        DirectionPredicate.java
        ElementPredicate.java
        FramePredicate.java
        HeadlinePredicate.java
        ImagePredicate.java
        JQueryPredicate.java
        LinkPredicate.java
        Predicate.java
        Predicates.java
        RecursivePredicate.java
        SelectPredicate.java
        SubmittablePredicate.java
        TextPredicate.java
        TypablePredicate.java
        XPathPredicate.java
        package-info.java
        tools
        DataTypeConversion.java
        IOTools.java
        JavaScriptParameterConverter.java
        ParamHolder.java
        WrongDataTypeException.java
        package-info.java
        extraction
        Extractor.java
        ExtractorWithDB.java
        FindExtractor.java
        PageTypeExtractor.java
        SearchContainer.java
        TableExtractor.java
        WordExtractor.java
        container
        ExtractionContainer.java
        PageTypeExtractionContainer.java
        TextExtractionContainer.java
        package-info.java
        package-info.java
        parser
        DocumentParser.java
        HtmlParser.java
        PDFParser.java
        content
        ContentElement.java
        Header.java
        Image.java
        Input.java
        Link.java
        package-info.java
        package-info.java
      - net
        jsourcerer
        webdriver
        jserrorcollector
        JavaScriptError.java
        package-info.java
  - test
    - java
      - com
        abmash
        test
        TestAbmashCore.java

package com.abmash.extraction;


import com.abmash.api.Browser;
import com.abmash.extraction.container.ExtractionContainer;
import com.abmash.extraction.container.PageTypeExtractionContainer;
import com.abmash.parser.content.Link;

import java.sql.Connection;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;



public class PageTypeExtractor extends ExtractorWithDB {

	private enum Status {
		OK,					// page type could be extracted 
		ERROR,				// page not loadable
		OFFLINE,			// page loadable but content not available due to domain change or domain parking
	}
	
	private enum PageType {
		PRE_PAGE,					// start pages like intros or language selectors
		
		// links contain "common_links"
		HOTEL,						// regular hotel page
		HOTEL_SUBPAGE,				// subpage of regular hotel page
		HOTEL_GROUP_PORTAL,			// 3 or more links contain long paths with at least 3 "/" in it
		HOTEL_GROUP_PORTAL_SUBPAGE, // subpage of hotel group portals

		// links contain "top_links"
		HOTEL_CHAIN,				// hotel chain
		SMALL_HOTEL_CHAIN,			// hotel chain page with less than 10 links

		// links do not contain "common_links"
		NO_HOTEL,					// visible text does not contain "top_links" or "common_links"
		HOTEL_SUBPAGE_UNSURE,		// visible text does contain "top_links" or "common_links"
		HOTEL_SINGLEPAGE,			// no links at all
	}
	
	private Status status = null;
	private PageType pageType = null;

	public PageTypeExtractor(Browser browser, Connection conn) {
		super(browser, conn);
	}

	@Override
	/**
	 * extraction instances need to be added to the class variable extractions 
	 */
	protected void extract() {
		String url = parser.getUrl();
		// do something with url
		
		String title = parser.getTitle();
		// do something with title

		HashMap<String, String> metaTags = parser.getMetaTags();
		for (String metaTag: metaTags.keySet()) {
			// do something with metatags
		}
		
		String visibleText = parser.getVisibleText();
		// do something with visible text

		ArrayList<Link> links = parser.getLinks();
		for (Link link: links) {
			// do something with links
		}
		
		// if you need more fine-grained control of finding the information
		// you need, you can use the browser instance
//		HtmlElementList elements = browser.find().textElements("hotel");

		// you can even interact with the browser
//		browser.click("english");
//		browser.type("search", "Hotel Foobar");
		
		// set status and found most probable page type
		status = Status.OK;
		pageType = PageType.HOTEL;
		
		// add result to extraction container
		PageTypeExtractionContainer extraction = new PageTypeExtractionContainer();
	   	extraction.setStatus(status.name());
	   	extraction.setPageType(pageType.name());
	    extractions.add(extraction);
	}
	
	
	@Override
	protected String getExtractionOutput(ExtractionContainer extractionContainer) {
		return ((PageTypeExtractionContainer) extractionContainer).getPageType();
	}

}