HtmlParser.java example

Explorer

sitebricks-master
- sitebricks
  - src
    - main
      - java
        com
        google
        sitebricks
        ActionDescriptor.java
        Aware.java
        AwareModule.java
        Bootstrapper.java
        Bricks.java
        Classes.java
        DebugModePageBook.java
        DebugModeRoutingDispatcher.java
        DefaultTemplateSystem.java
        Evaluator.java
        Export.java
        FileTemplateSource.java
        GaeModule.java
        HiddenMethodFilter.java
        Localizer.java
        MemoryTemplateSource.java
        MissingTemplateException.java
        MvelEvaluator.java
        NoSuchResourceException.java
        PackageScanFailedException.java
        PageBinder.java
        Renderable.java
        Respond.java
        ScanAndCompileBootstrapper.java
        ServletRequestProvider.java
        Show.java
        Shutdowner.java
        SitebricksFilter.java
        SitebricksInternalModule.java
        SitebricksModule.java
        SitebricksServletModule.java
        SitebricksServletSupportModule.java
        StringBuilderRespond.java
        Template.java
        TemplateLoader.java
        TemplateLoadingException.java
        TemplateSource.java
        TemplateSystem.java
        Visible.java
        binding
        ConcurrentPropertyCache.java
        CookieBasedFlashCache.java
        FlashCache.java
        GaeFlashCache.java
        HttpSessionFlashCache.java
        InvalidBindingException.java
        MvelRequestBinder.java
        NoFlashCache.java
        PropertyCache.java
        RequestBinder.java
        compiler
        AnalysisError.java
        AnalysisErrors.java
        AnnotationNode.java
        AnnotationParser.java
        CompileError.java
        CompileErrors.java
        CompiledToken.java
        Compilers.java
        Dom.java
        EvaluatorCompiler.java
        ExpressionCompileException.java
        FlatTemplateCompiler.java
        HtmlParser.java
        HtmlTemplateCompiler.java
        MvelEvaluatorCompiler.java
        Parsing.java
        Precompile.java
        RepeatToken.java
        RequireWidgetInternPool.java
        StandardCompilers.java
        TemplateCompileException.java
        TemplateCompiler.java
        TemplateParseException.java
        Token.java
        template
        AbstractMagicTemplateCompiler.java
        DelegatingMagicTemplateCompiler.java
        MagicTemplateCompiler.java
        MvelTemplateCompiler.java
        freemarker
        FreemarkerTemplateCompiler.java
        jsp
        JspTemplateCompiler.java
        core
        CaseWidget.java
        Repeat.java
        ShowIf.java
        package-info.java
        debug
        DebugPage.java
        headless
        HeadlessRenderer.java
        Reply.java
        ReplyBasedHeadlessRenderer.java
        ReplyMaker.java
        Request.java
        Service.java
        http
        As.java
        Parameters.java
        negotiate
        Accept.java
        ConnegModule.java
        ContentNegotiator.java
        ExactMatchNegotiator.java
        Negotiation.java
        RegexNegotiator.java
        WildcardNegotiator.java
        rendering
        Attributes.java
        Decorated.java
        EmbedAs.java
        SelfRendering.java
        Strings.java
        Templates.java
        With.java
        control
        ArgumentWidget.java
        Chains.java
        ChooseWidget.java
        DecorateWidget.java
        DefaultWidgetRegistry.java
        EmbedWidget.java
        EmbeddedRespond.java
        EmbeddedRespondFactory.java
        ErrorsWidget.java
        HeaderWidget.java
        IncludeWidget.java
        NoSuchWidgetException.java
        ProceedingWidgetChain.java
        RawTextWidget.java
        RepeatWidget.java
        RequireWidget.java
        ShowIfWidget.java
        SingletonWidgetChain.java
        TerminalWidgetChain.java
        TextFieldWidget.java
        TextWidget.java
        WidgetChain.java
        WidgetRegistry.java
        WidgetWrapper.java
        XmlDirectiveWidget.java
        XmlWidget.java
        resource
        Assets.java
        ClasspathResourcesService.java
        ResourceLoadingException.java
        ResourcesService.java
        routing
        Action.java
        DefaultPageBook.java
        EventDispatchException.java
        InMemorySystemMetrics.java
        InvalidEventHandlerException.java
        PageBasedRedirect.java
        PageBook.java
        PathMatcher.java
        PathMatcherChain.java
        Production.java
        Redirect.java
        RoutingDispatcher.java
        ServiceAction.java
        SpiAction.java
        SystemMetrics.java
        WidgetRoutingDispatcher.java
        transport
        Form.java
        UrlEncodedFormTransport.java
        util
        BoundedDiscardingList.java
        validation
        AlwaysValidationValidator.java
        SitebricksValidator.java
    - test
      - java
        com
        google
        sitebricks
        EdslTest.java
        LocalizationTest.java
        RespondTest.java
        RespondersForTesting.java
        TemplateLoaderTest.java
        TestRequestCreator.java
        binding
        MvelRequestBinderTest.java
        PropertyCacheTest.java
        compiler
        FreemarkerTemplateCompilerTest.java
        HtmlTemplateCompilerTest.java
        headless
        HeadlessReplyTest.java
        ReplyEdslTest.java
        ReplyEqualsTest.java
        http
        negotiate
        ExactMatchNegotiatorTest.java
        RegexNegotiatorTest.java
        WildcardNegotiatorTest.java
        rendering
        DynTypedMvelEvaluatorCompiler.java
        EvaluatorCompilerTest.java
        MvelGenericsConfidenceTest.java
        ParsingTest.java
        control
        ChooseWidgetTest.java
        EmbedWidgetTest.java
        EmbeddedRespondExtractorTest.java
        HeaderWidgetTest.java
        RepeatWidgetTest.java
        RequireWidgetTest.java
        ShowIfWidgetTest.java
        TextFieldWidgetTest.java
        TextWidgetTest.java
        WidgetRegistryTest.java
        resource
        MimeTypesRegexIntegrationTest.java
        ResourcesServiceTest.java
        routing
        PageBasedRedirectTest.java
        PageBookImplTest.java
        PathMatcherTest.java
        test
        ContentNegotiationExample.java
        Search.java
        Wiki.java
        util
        TextToolsTest.java
- sitebricks-acceptance-tests
  - src
    - main
      - java
        com
        google
        sitebricks
        example
        Case.java
        Chatter.java
        CompileErrors.java
        ContentNegotiation.java
        Conversion.java
        DecoratedPage.java
        DecoratedRepeat.java
        DecoratorPage.java
        DynamicJs.java
        Embed.java
        Forms.java
        HelloWorld.java
        HelloWorldService.java
        HiddenFieldMethod.java
        HtmlValidating.java
        HtmlValidatingAsForm.java
        I18n.java
        Jsp.java
        JspValidating.java
        JspValidatingAsForm.java
        MvelTemplateExample.java
        NextPage.java
        PageChain.java
        PostableRestfulWebService.java
        Repeat.java
        RestfulWebService.java
        RestfulWebServiceNoAnnotations.java
        RestfulWebServiceValidating.java
        RestfulWebServiceValidatingDao.java
        RestfulWebServiceWithCRUD.java
        RestfulWebServiceWithCRUDConversions.java
        RestfulWebServiceWithGenerics.java
        RestfulWebServiceWithMatrixParams.java
        RestfulWebServiceWithMimes.java
        RestfulWebServiceWithSubpaths.java
        RestfulWebServiceWithSubpaths2.java
        SelectRouting.java
        ShowIf.java
        SitebricksConfig.java
        Start.java
        StartAware.java
        TestPage.java
        dao
        SimpleDao.java
        ValidatingDao.java
        model
        Person.java
    - test
      - java
        com
        google
        sitebricks
        acceptance
        CaseAcceptanceTest.java
        ConnegAcceptanceTest.java
        ConversionAcceptanceTest.java
        DecoratedRepeatTest.java
        DecoratorAcceptanceTest.java
        DynamicJsAcceptanceTest.java
        EmbedAcceptanceTest.java
        FormsAcceptanceTest.java
        HelloWorldAcceptanceTest.java
        HiddenFieldMethodAcceptanceTest.java
        HtmlValidatingAcceptanceTest.java
        HtmlValidatingAsFormAcceptanceTest.java
        I18nAcceptanceTest.java
        JspAcceptanceTest.java
        JspValidatingAcceptanceTest.java
        PageChainingAcceptanceTest.java
        PostableRestfuWebServiceAcceptanceTest.java
        RepeatAcceptanceTest.java
        RestfuWebServiceAcceptanceTest.java
        RestfuWebServiceWithCRUDAcceptanceTest.java
        RestfuWebServiceWithCRUDConversionsAcceptanceTest.java
        RestfuWebServiceWithMatrixParamsAcceptanceTest.java
        RestfuWebServiceWithMimesAcceptanceTest.java
        RestfuWebServiceWithSubpaths2AcceptanceTest.java
        RestfuWebServiceWithSubpathsAcceptanceTest.java
        RestfulWebServiceValidatingAcceptanceTest.java
        RestfulWebServiceValidatingDaoAcceptanceTest.java
        RestfulWebServiceWithGenericsAcceptanceTest.java
        SelectRoutingAcceptanceTest.java
        Server.java
        SitebricksJettyAcceptanceTest.java
        SpiRestfuWebServiceWithCRUDAcceptanceTest.java
        SpiRestfuWebServiceWithSubpaths2AcceptanceTest.java
        StatsAcceptanceTest.java
        page
        CasePage.java
        ConnegPage.java
        ConversionPage.java
        DecoratedRepeatPage.java
        DecoratorPage.java
        DynamicJsPage.java
        EmbedPage.java
        FormsPage.java
        HelloWorldPage.java
        HiddenFieldMethodPage.java
        HtmlValidatingAsFormPage.java
        HtmlValidatingPage.java
        I18nPage.java
        JspPage.java
        JspValidatingPage.java
        PageChainPage.java
        RepeatPage.java
        SelectRoutingPage.java
        StatsPage.java
- sitebricks-annotations
  - src
    - main
      - java
        com
        google
        sitebricks
        At.java
        http
        Delete.java
        Get.java
        Head.java
        Patch.java
        Post.java
        Put.java
        Select.java
        Trace.java
        i18n
        Message.java
        ResourceBundle.java
- sitebricks-channel
  - src
    - main
      - java
        com
        google
        sitebricks
        channel
        AppengineRoutingServlet.java
        ChannelListener.java
        ChannelModule.java
        ChannelSwitchboard.java
        CometJSServlet.java
        ContinuationRoutingServlet.java
        Handlers.java
        Observe.java
        ObserverWrapper.java
        SinkingChannelListener.java
        Switchboard.java
        WebsocketRoutingServlet.java
- sitebricks-client
  - src
    - main
      - java
        com
        google
        sitebricks
        client
        AHCWebClient.java
        CommonsWeb.java
        Transport.java
        TransportException.java
        Web.java
        WebClient.java
        WebClientBuilder.java
        WebResponse.java
        WebResponseImpl.java
        transport
        ByteArrayTransport.java
        JacksonJsonTransport.java
        Json.java
        Raw.java
        SimpleTextTransport.java
        Text.java
        XStreamXmlTransport.java
        Xml.java
    - test
      - java
        com
        google
        sitebricks
        client
        WebClientEdslIntegrationTest.java
        WebClientIntegrationTest.java
        transport
        RawTransportTest.java
        SimpleTextTransportTest.java
        XmlTransportTest.java
- sitebricks-converter
  - src
    - main
      - java
        com
        google
        sitebricks
        conversion
        Converter.java
        ConverterAdaptor.java
        ConverterRegistry.java
        ConverterUtils.java
        DateConverters.java
        DummyTypeConverter.java
        MvelConversionHandlers.java
        MvelTypeConverter.java
        NumberConverters.java
        ObjectToStringConverter.java
        SingletonListConverter.java
        StandardTypeConverter.java
        StringToPrimitiveConverters.java
        TypeConverter.java
        ValidationConverter.java
        generics
        CaptureType.java
        CaptureTypeImpl.java
        GenericArrayTypeImpl.java
        Generics.java
        ParameterizedTypeImpl.java
        TypeToken.java
        VarMap.java
        WildcardTypeImpl.java
    - test
      - java
        com
        google
        sitebricks
        conversion
        MvelTypeConverterTest.java
        StandardTypeConverterTest.java
        TestTypeConverter.java
- sitebricks-extensions
  - src
    - main
      - java
        com
        google
        sitebricks
        ext
        SitebricksValidationExtModule.java
        transport
        MultiPartForm.java
        MultiPartRequest.java
        MutiPartFormTransport.java
        validation
        SitebricksBValValidator.java
- sitebricks-mail
  - src
    - main
      - java
        com
        google
        sitebricks
        mail
        CommandCompletion.java
        FolderObserver.java
        Idler.java
        Mail.java
        MailClient.java
        MailClientConfig.java
        MailClientHandler.java
        MailClientPipelineFactory.java
        MailHandlingException.java
        NettyImapClient.java
        SitebricksMail.java
        imap
        Command.java
        CopyResponseExtractor.java
        ExpungeConfirmationExtractor.java
        ExtractionException.java
        Extractor.java
        Flag.java
        Folder.java
        FolderStatus.java
        FolderStatusExtractor.java
        HasBodyParts.java
        ListFoldersExtractor.java
        Message.java
        MessageBodyExtractor.java
        MessageExtractor.java
        MessageStatus.java
        MessageStatusExtractor.java
        OpenFolderExtractor.java
        Parsing.java
        SearchResultExtractor.java
        SingleMessageBodyExtractor.java
        StoreFlagsResponseExtractor.java
        StoreLabelsResponseExtractor.java
        oauth
        OAuth2Config.java
        OAuthConfig.java
        Protocol.java
        Xoauth2Sasl.java
        XoauthSasl.java
    - test
      - java
        com
        google
        sitebricks
        mail
        MailClientFailedAuthIntegrationTest.java
        MailClientHandlerTest.java
        MailClientIntegrationTest.java
        ServerMessageMatchingTest.java
        Xoauth2MailClientIntegrationTest.java
        XoauthMailClientIntegrationTest.java
        imap
        MessageBodyExtractorTest.java
        MessageFlagsExtractorTest.java
        MessageStatusExtractorTest.java
        ParsingTest.java
        SearchResultExtractorTest.java
        StoreResponseExtractorTest.java
        webapp
        Home.java
        WebConfig.java
- sitebricks-options
  - src
    - main
      - java
        com
        google
        sitebricks
        options
        OptionTypeConverter.java
        Options.java
        OptionsModule.java
    - test
      - java
        com
        google
        sitebricks
        options
        OptionsTest.java
- sitebricks-persist
  - src
    - main
      - java
        com
        google
        sitebricks
        persist
        AbstractPersistenceModule.java
        Classes.java
        EntityMetadata.java
        EntityQuery.java
        EntityStore.java
        Indexed.java
        PersistAopModule.java
        Persister.java
        TopicProxy.java
        TransactionInterceptor.java
        Transactional.java
        TypesafeEntityQuery.java
        Work.java
        WorkInterceptor.java
- sitebricks-persist-disk
  - src
    - main
      - java
        com
        google
        sitebricks
        persist
        disk
        DiskEntityStore.java
        DiskModule.java
        DiskPersister.java
        IndexSet.java
    - test
      - java
        com
        google
        sitebricks
        persist
        disk
        DiskStoreIntegrationTest.java
        MyCompositeKeyEntity.java
        MyEntity.java
- sitebricks-persist-redis
  - src
    - main
      - java
        com
        google
        sitebricks
        persist
        redis
        JedisEntityStore.java
        JedisPersister.java
        Parameter.java
        RedisModule.java
    - test
      - java
        com
        google
        sitebricks
        persist
        redis
        RedisMultipleStoreIntegrationTest.java
        RedisStoreIntegrationTest.java
        StoreOne.java
        StoreTwo.java
- sitebricks-persist-sql
  - src
    - main
      - java
        com
        google
        sitebricks
        persist
        sql
        Sql.java
        SqlEntityStore.java
        SqlModule.java
        SqlPersister.java
    - test
      - java
        com
        google
        sitebricks
        persist
        sql
        Db1.java
        Db2.java
        SqlMultipleStoreIntegrationTest.java
        SqlNamedParameterBindingTest.java
        SqlStoreIntegrationTest.java
- sitebricks-test-support
  - src
    - main
      - java
        com
        google
        sitebricks
        acceptance
        util
        AcceptanceTest.java
        Jetty.java
        JettyAcceptanceTest.java
        SitebricksServiceTest.java
- slf4j
  - src
    - main
      - java
        com
        google
        sitebricks
        slf4j
        Slf4jInjectionTypeListener.java
        Slf4jModule.java
    - test
      - java
        com
        google
        sitebricks
        slf4j
        Slf4jIntegrationTest.java
- stat
  - src
    - main
      - java
        com
        google
        sitebricks
        stat
        MemberAnnotatedWithAtStat.java
        Stat.java
        StatAnnotatedTypeListener.java
        StatCollector.java
        StatDescriptor.java
        StatExposer.java
        StatExposers.java
        StatModule.java
        StatReader.java
        StatReaders.java
        StatRegistrar.java
        Stats.java
        StatsPublisher.java
        StatsPublishers.java
        StatsServlet.java
        StatsSnapshotter.java
    - test
      - java
        com
        google
        sitebricks
        stat
        StatExposersTest.java
        StatReadersTest.java
        StatsIntegrationTest.java
        StatsPublishersTest.java
        testservices
        ChildDummyService.java
        DummyService.java
        StatExposerTestingService.java
        StaticDummyService.java

package com.google.sitebricks.compiler;

import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.helper.Validate;
import org.jsoup.nodes.Attribute;
import org.jsoup.nodes.Attributes;
import org.jsoup.nodes.Comment;
import org.jsoup.nodes.DataNode;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.nodes.TextNode;
import org.jsoup.nodes.XmlDeclaration;
import org.jsoup.parser.Tag;
import org.jsoup.parser.TokenQueue;

import com.google.common.collect.ImmutableSet;
import com.google.sitebricks.rendering.Strings;

/**
 * Parses HTML into a List<{@link org.jsoup.nodes.Node}>
 * this is a relaxed version of Jonathan Hedley's {@link org.jsoup.parser.Parser}
 */
public class HtmlParser {
  private static final ImmutableSet<String> closingOptional;
  private static final ImmutableSet<String> headTags;
  static final ImmutableSet<String> SKIP_ATTR;

  // TODO - LineCountingTokenQueue
  static final Pattern LINE_SEPARATOR = Pattern.compile("(\\r\\n|\\n|\\r|\\u0085|\\u2028|\\u2029)");
  static final String LINE_NUMBER_ATTRIBUTE = "_linecount";

  static {
    ImmutableSet.Builder<String> closingOptionalBuilder = ImmutableSet.builder();
    ImmutableSet.Builder<String> skipAttrBuilder = ImmutableSet.builder();
    closingOptionalBuilder.add(
        "a", "form", "label", "dt", "dd", "li",
        "thead", "tfoot", "tbody", "colgroup", "tr", "th", "td");
    ImmutableSet.Builder<String> headTagsBuilder = ImmutableSet.builder();
    headTagsBuilder.add("base", "script", "noscript", "link", "meta", "title", "style", "object");

    closingOptional = closingOptionalBuilder.build();
    headTags = headTagsBuilder.build();
    skipAttrBuilder.add(LINE_NUMBER_ATTRIBUTE,
      AnnotationNode.ANNOTATION, AnnotationNode.ANNOTATION_KEY, AnnotationNode.ANNOTATION_CONTENT);
    SKIP_ATTR = skipAttrBuilder.build();
  }

  private static final String SQ = "'";
  private static final String DQ = "\"";

  private static final Tag htmlTag = Tag.valueOf("html");
  private static final Tag headTag = Tag.valueOf("head");
  private static final Tag bodyTag = Tag.valueOf("body");
  private static final Tag titleTag = Tag.valueOf("title");
  private static final Tag textareaTag = Tag.valueOf("textarea");

  // private final ArrayList<Node> soup = new ArrayList<Node>();
  // private final LinkedList<Node> soup = new LinkedList<Node>();
  private final LinkedList<Node> stack = new LinkedList<Node>();

  private final TokenQueue tq;

  private String baseUri = "";

  private Element _html = null;
  private Element _head = null;
  private Element _body = null;

  private AnnotationNode pendingAnnotation = null;

  private int linecount = 0;

  private HtmlParser(String html) {
    Validate.notNull(html);
    tq = new TokenQueue(html);
  }

  /**
   * Parse HTML into List<Node>
   *
   * @param html HTML to parse
   */
  public static List<Node> parse(String html) {
    HtmlParser parser = new HtmlParser(html);
    return parser.parse();
  }

  /*     Parse a fragment of HTML into the {@code body} of a Document.
  @param bodyHtml fragment of HTML
  @param baseUri base URI of document (i.e. original fetch location), for resolving relative URLs.
  @return Document, with empty head, and HTML parsed into body
  */
  // public static Document parseBodyFragment(String bodyHtml, String baseUri) {
  // HtmlParser parser = new HtmlParser(bodyHtml, true);
  // return parser.parse();
  // }

  private List<Node> parse() {
    while (!tq.isEmpty()) {
      if (tq.matches("<!--")) {
        parseComment();
      } else if (tq.matches("<![CDATA[")) {
        parseCdata();
      } else if (tq.matches("<?") || tq.matches("<!")) {
        parseXmlDecl();
      } else if (tq.matches("</")) {
        parseEndTag();
      } else if (tq.matches("<") && !isRawDataTag(stack.peek())) {
        parseStartTag();
      } else {
        parseTextNode();
      }
    }

    // Pop off body as it is already inside html.
    Iterator<Node> iterator = stack.iterator();
    while (iterator.hasNext()) {
      if (iterator.next().nodeName().equals(bodyTag.getName())) {
        iterator.remove();
      }
    }

    return stack;
  }

  private void parseComment() {
    tq.consume("<!--");
    String data = tq.chompTo("->");

    if (data.endsWith("-")) // i.e. was -->
      data = data.substring(0, data.length() - 1);

    Comment comment = new Comment(data, baseUri);
    annotate(comment); // TODO - should annotations even apply to comments?
    lines(comment, data);
    add(comment);
  }

  private void parseXmlDecl() {
    tq.consume("<");
    Character firstChar = tq.consume(); // <? or <!, from initial match.
    boolean procInstr = firstChar.toString().equals("!");
    String data = tq.chompTo(">");

    XmlDeclaration decl = new XmlDeclaration(data, baseUri, procInstr);
    annotate(decl); // TODO - should annotations even apply to declarations?
    lines(decl, data);
    add(decl);

  }

  private void parseEndTag() {
    tq.consume("</");
    String tagName = tq.consumeTagName();
    tq.chompTo(">");

    if (!Strings.empty(tagName)) {
      Tag tag = Tag.valueOf(tagName);
      popStackToClose(tag);
    }
  }

  private void parseStartTag() {
    tq.consume("<");
    String tagName = tq.consumeTagName();

    if (Strings.empty(tagName)) { // doesn't look like a start tag after all; put < back on stack and handle as text
      tq.addFirst("<");
      parseTextNode();
      return;
    }

    Attributes attributes = new Attributes();
    while (!tq.matchesAny("<", "/>", ">") && !tq.isEmpty()) {
      Attribute attribute = parseAttribute();
      if (attribute != null)
        attributes.put(attribute);
    }

    Tag tag = Tag.valueOf(tagName);
    // TODO - option to create elements without indent
    Element child = new Element(tag, baseUri, attributes);
    annotate(child);

    lines(child, "");

    boolean isEmptyElement = tag.isEmpty(); // empty element if empty tag (e.g. img) or self-closed el (<div/>
    if (tq.matchChomp("/>")) { // close empty element or tag
      isEmptyElement = true;
    } else {
      tq.matchChomp(">");
    }

    // pc data only tags (textarea, script): chomp to end tag, add content as text node
    if (tag.isData()) {
      String data = tq.chompTo("</" + tagName);
      tq.chompTo(">");
      
      // enable annotations on data areas
      parseAnnotatableText(data, child);
    }

    // <base href>: update the base uri
    if (child.tagName().equals("base")) {
      String href = child.absUrl("href");
      if (!Strings.empty(href)) { // ignore <base target> etc
        baseUri = href;
        // TODO - consider updating baseUri for relevant elements in the stack, eg rebase(stack, uri)
        // doc.get().setBaseUri(href); // set on the doc so doc.createElement(Tag) will get updated base
      }
    }

    addChildToParent(child, isEmptyElement);
  }

  private static boolean isRawDataTag(Node node) {
    if (node == null)
      return false;
    return "script".equals(node.nodeName()) || "textarea".equals(node.nodeName());
  }

  private Attribute parseAttribute() {
    whitespace();
    String key = tq.consumeAttributeKey();
    String value = "";
    whitespace();
    if (tq.matchChomp("=")) {
      whitespace();

      if (tq.matchChomp(SQ)) {
        value = tq.chompTo(SQ);
      } else if (tq.matchChomp(DQ)) {
        value = tq.chompTo(DQ);
      } else {
        StringBuilder valueAccum = new StringBuilder();
        // no ' or " to look for, so scan to end tag or space (or end of stream)
        while (!tq.matchesAny("<", "/>", ">") && !tq.matchesWhitespace() && !tq.isEmpty()) {
          valueAccum.append(tq.consume());
        }
        value = valueAccum.toString();
      }
      whitespace();
    }
    if (!Strings.empty(key))
      return Attribute.createFromEncoded(key, value);
    else {
      tq.consume(); // unknown char, keep popping so not get stuck
      return null;
    }
  }
  

  /**
   * Pulls a text segment apart by annotations within it and creates multiple Text Nodes
   * applying the annotation to each text segment as approriate.
   * 
   * @param text the text to be processed for annotations
   * @param parent
   */
  private void parseAnnotatableText(String text, Element parent) {
	  AnnotationNode annotation = null;
	  Matcher matcher = AnnotationParser.WIDGET_ANNOTATION_REGEX.matcher(text);

	  int previousEnd = 0;
	  while (matcher.find()){
		  int start = matcher.start();

		  // build a new text node for what is between last index and current annotation
		  if (start > previousEnd)	{
			  String segment = text.substring(previousEnd, start);
			  // ignore empty white space
			  if (segment.trim().length() > 0){
				  addTextNodeToParent (segment, parent, annotation);
				  annotation = null;
			  }
		  }

		  // parse the annotation
		  String annotationText = matcher.group().trim();
		  if (null != annotationText) {
		      annotation = new AnnotationNode(annotationText);
		      lines(annotation, annotationText);
		  }
		  previousEnd = matcher.end();
	  }
	  
	  // handle leftover text if we parsed some segment
	  if (previousEnd > 0 && previousEnd < text.length()){
		  String segment = text.substring(previousEnd);
		  if (segment.trim().length() > 0){
			  addTextNodeToParent (segment, parent, annotation);
			  annotation = null;
		  }
	  }
	  
	  // store the remaining annotation for use by whatever is parsed next
	  if (annotation != null)
		  add(annotation);
	  
	  // handle no annotations being found
	  if (previousEnd == 0){
		  Node dataNode;
		  if (parent.tagName().equals(titleTag) || parent.tagName().equals(textareaTag))
	        dataNode = TextNode.createFromEncoded(text, baseUri);
	      else // data not encoded but raw (for " in script)
	        dataNode = new DataNode(text, baseUri);
	      lines(dataNode, text);
	      
	      if (pendingAnnotation != null)
	          pendingAnnotation.apply(dataNode);
	      
		  // put the text node on the parent
		  parent.appendChild(dataNode);
	  }
  }

  /** 
   * Break the text up by the first line delimiter.  We only want annotations applied to the first line of a block of text
   * and not to a whole segment.
   * 
   * @param text the text to turn into nodes
   * @param parent the parent node
   * @param annotation the current annotation to be applied to the first line of text
   */
  private void addTextNodeToParent (String text, Element parent, AnnotationNode annotation)	{
	  String [] lines = new String[] {text};
	  
	  if (annotation != null)
		  lines = splitInTwo(text);
	  
	  for (int i = 0; i < lines.length; i++){
		  TextNode textNode = TextNode.createFromEncoded(lines[i], baseUri);
		  lines(textNode, lines[i]);
		  
		  // apply the annotation and reset it to null
		  if (annotation != null && i == 0)
			  annotation.apply(textNode);
		  
		  // put the text node on the parent
		  parent.appendChild(textNode);
	  }
  }
  
  /**
   * Break a text segment apart into two at the first line delimiter which has non-whitespace characters before it.
   * 
   * @param text text to split in two
   * @return
   */
  private String[] splitInTwo(String text)	{
	  Matcher matcher = LINE_SEPARATOR.matcher(text);
	  while (matcher.find()){
		  int start = matcher.start();
		  if (start > 0 && start < text.length())	{
			  String segment = text.substring(0, start);
			  if (segment.trim().length() > 0)
				  return new String[] {text.substring(0, start), text.substring(start)};
		  }
	  }
	  return new String[] {text};
  }
  
  private void parseTextNode() {
    String rawText = tq.consumeTo("<");
    String annotationText = AnnotationParser.readAnnotation(rawText);
    String text = AnnotationParser.stripAnnotation(rawText);

    if (text.length() > 0) {
      TextNode textNode = TextNode.createFromEncoded(text, baseUri);
      // if (pendingAnnotation != null) { pendingAnnotation.apply(textNode); }
      lines(textNode, rawText);
      add(textNode);
    }

    if (null != annotationText) {
      AnnotationNode annotation = new AnnotationNode(annotationText);
      lines(annotation, annotationText);
      add(annotation);
    }
  }

  private void parseCdata() {
    tq.consume("<![CDATA[");
    String rawText = tq.chompTo("]]>");
    TextNode textNode = new TextNode(rawText, baseUri); // constructor does not escape

    if (pendingAnnotation != null)
      pendingAnnotation.apply(textNode);

    lines(textNode, rawText);
    add(textNode);
  }


  private Element addChildToParent(Element child, boolean isEmptyElement) {
    Element parent = popStackToSuitableContainer(child.tag());
    if (parent != null)
      parent.appendChild(child);

    if (!isEmptyElement && !child.tag().isData()) {
      stack.addLast(child);
    }

    return parent;
  }


  private boolean stackHasValidParent(Tag childTag) {
    if (stack.size() == 1 && childTag.equals(htmlTag))
      return true; // root is valid for html node

    for (int i = stack.size() - 1; i >= 0; i--) {
      Node n = stack.get(i);
      if (n instanceof Element)
        return true;
    }
    return false;
  }

  private Element popStackToSuitableContainer(Tag tag) {
    while (!stack.isEmpty() && !(stack.getLast() instanceof XmlDeclaration)) {
      Node lastNode = stack.getLast();
      if (lastNode instanceof Element) {
        Element last = (Element) lastNode;
        if (canContain(last.tag(), tag))
          return last;
        else
          stack.removeLast();
      }
    }
    return null;
  }

  private Element popStackToClose(Tag tag) {
    // first check to see if stack contains this tag; if so pop to there, otherwise ignore
    int counter = 0;
    Element elToClose = null;
    for (int i = stack.size() - 1; i > 0; i--) {
      counter++;
      Node n = stack.get(i);
      if (n instanceof Element) {
        Element el = (Element) n;
        Tag elTag = el.tag();
        if (elTag.equals(bodyTag) || elTag.equals(headTag) || elTag.equals(htmlTag)) { // once in body, don't close past body
          break;
        } else if (elTag.equals(tag)) {
          elToClose = el;
          break;
        }
      }
    }
    if (elToClose != null) {
      for (int i = 0; i < counter; i++) {
        stack.removeLast();
      }
    }
    return elToClose;
  }


  private <N extends Node> void add(N n) {
    Node last = null;

    if (stack.size() == 0) {
      if (n instanceof XmlDeclaration) {
        // only add the first/outermost doctype
        stack.add(n);
        return;
      }
    } else {
      last = stack.getLast();
    }


    // TODO - optionally put the AnnotationNode on the stack
    if (n instanceof AnnotationNode) {
      pendingAnnotation = (AnnotationNode) n;
      return;
    }
//        else if (null != pendingAnnotation) {
//            pendingAnnotation.apply(n);
//        }


    if (n instanceof Element) {
      Element en = (Element) n;
      if (en.tag().equals(htmlTag) && (null == _html))
        _html = en;

      else if (en.tag().equals(htmlTag) && (null != _html))
        for (Node cat : en.childNodes()) _html.appendChild(cat);

      else if (en.tag().equals(headTag) && (null == _head))
        _head = en;

      else if (en.tag().equals(headTag) && (null != _head))
        for (Node cat : en.childNodes()) _head.appendChild(cat);

      else if (en.tag().equals(bodyTag) && (null == _body))
        _body = en;

      else if (en.tag().equals(bodyTag) && (null != _body))
        for (Node cat : en.childNodes()) _body.appendChild(cat);
    }


    if (last == null)
      stack.add(n);

    else if (last instanceof Element) {
      ((Element) last).appendChild(n);
    }

  }


  // from jsoup.parser.Tag

  /**
   * Test if this tag, the prospective parent, can accept the proposed child.
   *
   * @param child potential child tag.
   * @return true if this can contain child.
   */
  boolean canContain(Tag parent, Tag child) {
    Validate.notNull(child);

    if (child.isBlock() && !parent.canContainBlock())
      return false;

    if (!child.isBlock() && parent.isData())
      return false;

    if (closingOptional.contains(parent.getName()) && parent.getName().equals(child.getName()))
      return false;

    if (parent.isEmpty() || parent.isData())
      return false;

    // head can only contain a few. if more than head in here, modify to have a list of valids
    // TODO: (could solve this with walk for ancestor)
    if (parent.getName().equals("head")) {
      if (headTags.contains(child.getName()))
        return true;
      else
        return false;
    }

    // dt and dd (in dl)
    if (parent.getName().equals("dt") && child.getName().equals("dd"))
      return false;
    if (parent.getName().equals("dd") && child.getName().equals("dt"))
      return false;

    return true;
  }


  private void lines(Node node, String data) {
    Matcher newLinematcher = LINE_SEPARATOR.matcher(data);
    while (newLinematcher.find()) {
        linecount++;
    }
    node.attr(LINE_NUMBER_ATTRIBUTE, String.valueOf(linecount));
  }



  private void whitespace() {
    if (tq.peek() == Character.LINE_SEPARATOR)
      linecount++;
    tq.consumeWhitespace();
  }


  private void annotate(Node n) {
    if (null != pendingAnnotation) {
      pendingAnnotation.apply(n);
      pendingAnnotation = null;
    }
  }

}