UnicodeInputStream.java example

Explorer

novelang-master
- modules
  - bolt
    - src
      - main
        java
        org
        novelang
        outfit
        ArrayTools.java
        CollectionTools.java
        CompositeException.java
        Husk.java
        TcpPortBooker.java
        TextTools.java
      - test
        java
        org
        novelang
        outfit
        HuskTest.java
        TextToolsTest.java
  - bootstrap
    - src
      - main
        java
        org
        novelang
        bootstrap
        Main.java
      - test
        java
        org
        novelang
        bootstrap
        BootstrapMainTest.java
  - code-generation
    - src
      - attic
        AntlrGenerator.java
        CodeGenerator.java
      - main
        java
        org
        novelang
        build
        CodeGenerationConstants.java
        CodeGenerator.java
        GrammarBasedJavaGenerator.java
        JavaGenerator.java
  - engine
    - src
      - main
        java
        org
        apache
        xalan
        transformer
        TransformerImpl.java
        novelang
        VersionFormatException.java
        batch
        AbstractDocumentGenerator.java
        CannotStartException.java
        DocumentGenerator.java
        GenerationFailedException.java
        LevelExploder.java
        common
        AbstractSourceReader.java
        FileTools.java
        IdentifierNotUniqueException.java
        Nodepath.java
        ProblemCollector.java
        Renderable.java
        StructureKind.java
        StylesheetMap.java
        UnknownIdentifierException.java
        metadata
        DocumentMetadata.java
        MetadataHelper.java
        NoSuchPageIdentifierException.java
        Page.java
        PageIdentifier.java
        tree
        Statistics.java
        configuration
        BatchConfiguration.java
        ConfigurationTools.java
        ContentConfiguration.java
        DaemonConfiguration.java
        DocumentGeneratorConfiguration.java
        FontQuadruplet.java
        FopFontStatus.java
        FopTools.java
        LevelExploderConfiguration.java
        ProducerConfiguration.java
        RenderingConfiguration.java
        RenditionKinematic.java
        fop
        FopCustomization.java
        FopCustomizationReader.java
        XmlAttribute.java
        XmlElement.java
        parse
        BatchParameters.java
        DaemonParameters.java
        DocumentGeneratorParameters.java
        LevelExploderParameters.java
        daemon
        DirectoryScanHandler.java
        DocumentHandler.java
        FontDiscoveryHandler.java
        GenericHandler.java
        HelloHandler.java
        HttpDaemon.java
        JettyThreadPool.java
        LocalhostOnlyHandler.java
        NotFoundHandler.java
        ResourceHandler.java
        ResourceMimeTypes.java
        ShutdownHandler.java
        UnhandledRequestHandler.java
        designator
        FragmentIdentifier.java
        Tag.java
        novella
        ImageFixer.java
        ImageFixerException.java
        Novella.java
        VectorImageTools.java
        opus
        CommandExecutionContext.java
        Opus.java
        function
        Command.java
        CommandFactory.java
        CommandParameterException.java
        builtin
        AbstractCommand.java
        FileOrdering.java
        InsertCommand.java
        MapstylesheetCommand.java
        insert
        LevelHead.java
        PartCreator.java
        outfit
        DefaultCharset.java
        EnvironmentTools.java
        parser
        BookParser.java
        NoEscapeCodeException.java
        UnsupportedSymbolException.java
        antlr
        AntlrParserHelper.java
        DelegatingBookParser.java
        unicode
        UnicodeInputStream.java
        produce
        AnyRequest.java
        DocumentProducer.java
        DocumentRequest.java
        GenericRequest.java
        MalformedRequestException.java
        ResourceRequest.java
        StreamDirector.java
        rendering
        FragmentWriter.java
        GenericRenderer.java
        HtmlProblemPrinter.java
        HtmlSink.java
        HtmlWriter.java
        NovellaWriter.java
        PdfWriter.java
        PlainTextWriter.java
        RawResource.java
        Renderer.java
        RenderingEscape.java
        RenderingTools.java
        RenditionMimeType.java
        Spaces.java
        TextSink.java
        XmlWriter.java
        XslWriter.java
        buffer
        CisternOutputStream.java
        font
        FontDiscoveryStreamer.java
        SyntheticFontMap.java
        multipage
        MultipageElement.java
        PagesExtractor.java
        XmlMultipageReader.java
        XslMultipageStylesheetCapture.java
        XslPageIdentifierExtractor.java
        xslt
        Length.java
        Numbering.java
        Versioning.java
        WebColor.java
        color
        ColorPair.java
        SvgColorsDefinition.java
        WebColors.java
        validate
        BadExpandedName.java
        BadExpandedNamesException.java
        ExpandedNameVerifier.java
        SaxConnectorForVerifier.java
        XpathAwareAttribute.java
        treemangling
        DesignatorInterpreter.java
        EmbeddedListMangler.java
        LevelMangler.java
        ListMangler.java
        TagFilter.java
        TagMangler.java
        UrlMangler.java
        designator
        BabyInterpreter.java
        DesignatorTools.java
        FragmentMapper.java
        IdentifierCollisions.java
        IdentifierDefinition.java
        SegmentExtractor.java
        version
        org
        novelang
        Version.java
      - test
        java
        org
        novelang
        ResourceTools.java
        ResourcesForTests.java
        VersionTest.java
        batch
        BatchTest.java
        common
        FileToolsTest.java
        ProblemTest.java
        filefixture
        AbstractResourceInstaller.java
        DeclarationException.java
        Directory.java
        Relativizer.java
        Resource.java
        ResourceInstaller.java
        ResourceSchema.java
        SchemaNode.java
        test
        ResourceSchemaTest.java
        ResourceTree.java
        metadata
        MetadataHelperTest.java
        configuration
        ConfigurationToolsTest.java
        StyleDirectoriesTest.java
        fop
        FopCustomizationReaderTest.java
        parse
        ParametersTest.java
        daemon
        HttpDaemonFixture.java
        HttpDaemonFontTest.java
        HttpDaemonSupport.java
        HttpDaemonTest.java
        LocalhostOnlyHandlerTest.java
        designator
        FragmentIdentifierTest.java
        TagTestTools.java
        novella
        ImageFixerTest.java
        NovellaFixture.java
        NovellaTest.java
        opus
        OpusTest.java
        OpusTestTools.java
        OpusWithImagesTest.java
        function
        CommandFactoryTest.java
        builtin
        FileOrderingTest.java
        InsertCommandTest.java
        MapstylesheetCommandTest.java
        outfit
        loader
        ClasspathResourceLoaderTest.java
        ResourceNameTest.java
        UrlResourceLoaderTest.java
        parser
        antlr
        ParsingProblemMessagesTest.java
        produce
        GenericRequestTest.java
        TestDocumentProducer.java
        rendering
        DtdToolsTest.java
        GenericRendererTest.java
        NumberingTest.java
        PageIdentifierTest.java
        RenderingEscapeTest.java
        RenderingToolsForIdentifierTest.java
        RenderingToolsForTagTest.java
        RenderingToolsTextualizeTest.java
        SpacesTest.java
        XmlWriterTest.java
        XslParametersTest.java
        XslWriterTest.java
        buffer
        CisternOutputStreamTest.java
        font
        FontDiscoveryStreamerTest.java
        SyntheticFontMapTest.java
        javascript
        TagInteractionTest.java
        multipage
        MultipageFixture.java
        XmlMultipageReaderTest.java
        XslPageIdentifierExtractorTest.java
        xslt
        XsltLengthTest.java
        XsltNumberingTest.java
        color
        WebColorsTest.java
        validate
        ExpandedNameVerifierTest.java
        SaxConnectorForVerifierTest.java
        treemangling
        AbstractEmbeddedListManglerTest.java
        AbstractListManglerTest.java
        DesignatorInterpreterEnrichmentTest.java
        EmbeddedListManglerWithHyphenTest.java
        EmbeddedListManglerWithNumberSignTest.java
        LevelManglerTest.java
        ListManglerTest.java
        ListManglerWithDoubleHyphenAndPlusSignTest.java
        ListManglerWithTripleHyphenTest.java
        MandatorySpaceInsertionTest.java
        TagFilterTest.java
        TagManglerTest.java
        UrlManglerTest.java
        designator
        BabyInterpreterTest.java
  - engine-driver
    - src
      - main
        java
        org
        novelang
        KnownVersions.java
        nhovestone
        driver
        DocumentGeneratorDriver.java
        EngineDriver.java
        HttpDaemonDriver.java
  - insider
    - src
      - main
        java
        org
        novelang
        outfit
        shell
        insider
        Insider.java
        InsiderAgent.java
        JmxTools.java
        LocalInsider.java
  - lexeme-table-plugin
    - src
      - main
        java
        org
        novelang
        build
        documentation
        LexemeTable.java
        LexemeTableMojo.java
  - logger
    - src
      - main
        java
        org
        novelang
        logger
        AbstractLogger.java
        ConsoleLogger.java
        DeferringLoggerFactory.java
        HookableLogger.java
        Level.java
        LogRecord.java
        Logger.java
        LoggerFactory.java
        NamedLogRecord.java
        NullLogger.java
        StandaloneRecordingLogger.java
  - logger-mojo
    - src
      - main
        java
        org
        novelang
        logger
        ConcreteLoggerFactory.java
        MojoLoggerWrapper.java
  - logger-slf4j
    - src
      - main
        java
        org
        novelang
        logger
        ConcreteLoggerFactory.java
        Slf4jLoggerWrapper.java
  - nhovestone
    - src
      - main
        java
        org
        novelang
        nhovestone
        MeasurementBundle.java
        Nhovestone.java
        NhovestoneTools.java
        Scenario.java
        Telemetrics.java
        Termination.java
        persistence
        MeasurementsReader.java
        MeasurementsWriter.java
        report
        EnhancedXYAreaRenderer.java
        Grapher.java
        GrapherDemo.java
        XYAreaChartDemo3.java
        scenario
        Measurer.java
        NovelistUpsizer.java
        ScenarioDemo.java
        ScenarioLibrary.java
        TimeMeasurement.java
        TimeMeasurer.java
        Upsizer.java
        novelist
        Body.java
        BodyGenerator.java
        Bounded.java
        Distribution.java
        GenerationDefaults.java
        Generator.java
        LetterDistribution.java
        Level.java
        LevelGenerator.java
        Markup.java
        Novelist.java
        Punctuation.java
        Sentence.java
        SentenceGenerator.java
        SupportedLocales.java
        TextElement.java
        Word.java
        WordGenerator.java
      - test
        java
        org
        novelang
        nhovestone
        NhovestoneToolsTest.java
        persistence
        MeasurementsWriterTest.java
        TelemetricsFixture.java
        scenario
        TestTimeMeasurement.java
        novelist
        GeneratorDemo.java
  - nhovestone-plugin
    - src
      - main
        java
        org
        novelang
        nhovestone
        NhovestoneMojo.java
  - parser-facade
    - src
      - main
        java
        org
        novelang
        parser
        GenericParser.java
        PartParser.java
        antlr
        AbstractDelegatingParser.java
        CustomTreeAdaptor.java
        DelegatingPartParser.java
        TreeConverter.java
        xpath
        SyntacticTreeNavigator.java
        SyntacticTreeXpath.java
      - test
        java
        org
        novelang
        parser
        NodeKindToolsTest.java
        SourceUnescapeTest.java
        antlr
        AbstractEmbeddedListParsingTest.java
        AntlrTestHelper.java
        BlockAfterTildeParsingTest.java
        BookParserTest.java
        CellParsingTest.java
        CustomDelegatingParser.java
        DelimiterProblemTest.java
        EmbeddableResourceParsingTest.java
        EmbeddedListWithHyphenParsingTest.java
        EmbeddedListWithNumberSignParsingTest.java
        IdentifierParsingTest.java
        LevelParsingTest.java
        LiteralParsingTest.java
        NamedUrlTest.java
        NovellaParsingTest.java
        ParagraphParsingTest.java
        ParserMethod.java
        ProblemDetectionTest.java
        TagParsingTest.java
        TreeFixtureTest.java
        TreeHelperTest.java
        UrlParsingTest.java
        WordParsingTest.java
        xpath
        TreeXpathTest.java
  - parser-ground
    - src
      - main
        java
        org
        novelang
        parser
        antlr
        ParserDelegate.java
        ProblemDelegate.java
        TokenNameProvider.java
        delimited
        BlockDelimiter.java
        BlockDelimiterSupervisor.java
        BlockDelimiterTools.java
        BlockDelimitersBoundary.java
        DefaultBlockDelimiterSupervisor.java
        DefaultBlockDelimitersBoundary.java
        DelimitedBlockStatus.java
  - parser-lexeme-plugin
    - src
      - main
        java
        org
        novelang
        build
        antlr
        LexemeDeclarationExtractor.java
        LexemeGenerator.java
        LexemeGeneratorMojo.java
  - parser-lexeme-plugin-test
    - src
      - test
        java
        org
        novelang
        build
        antlr
        LexemeDeclarationExtractorTest.java
  - parser-supplement
    - src
      - main
        java
        org
        novelang
        parser
        NoUnescapedCharacterException.java
        NodeKindTools.java
        SourceUnescape.java
        antlr
        AntlrErrorInterpreter.java
        GrammarDelegate.java
        ParsingProblems.java
        treemangling
        SeparatorsMangler.java
        SiblingTraverser.java
        TreeManglingConstants.java
  - parser-token-plugin
    - src
      - main
        java
        org
        novelang
        build
        antlr
        TokenGenerator.java
        TokenGeneratorMojo.java
      - test
        java
        org
        novelang
        build
        antlr
        TokenEnumerationGeneratorTest.java
  - primer
    - src
      - main
        java
        org
        novelang
        build
        CodeGenerationTools.java
        common
        Location.java
        LocationFactory.java
        Problem.java
        ReflectionTools.java
        TagBehavior.java
        configuration
        parse
        ArgumentException.java
        GenericParameters.java
        GenericParametersConstants.java
        outfit
        LogbackConfigurationTools.java
        TemporaryFileService.java
        TemporaryFileTools.java
        loader
        AbstractResourceLoader.java
        ClasspathResourceLoader.java
        CompositeResourceLoader.java
        ResourceLoader.java
        ResourceLoaderTools.java
        ResourceName.java
        ResourceNotFoundException.java
        UrlResourceLoader.java
        xml
        BuildupStack.java
        ContentHandlerAdapter.java
        DelegatingContentHandler.java
        DtdTools.java
        EntityEscapeSelector.java
        ForwardingXmlReader.java
        ImmutableAttributes.java
        ImmutableSourceLocator.java
        IncorrectXmlException.java
        LocalEntityResolver.java
        LocalUriResolver.java
        NamespaceAwareContentHandlerAdapter.java
        NamespaceAwareness.java
        SaxPipeline.java
        SaxRecorder.java
        StackBasedElementReader.java
        TransformerCompositeException.java
        TransformerErrorListener.java
        XmlNamespaces.java
        XslTransformerFactory.java
        parser
        shared
        Lexeme.java
      - test
        java
        org
        novelang
        logger
        HookableLoggerTest.java
        Slf4jLoggingTest.java
        outfit
        loader
        CompositeResourceLoaderTest.java
        DummyResourceLoader.java
        xml
        SaxPipelineTest.java
        SaxRecorderTest.java
  - producer-plugin
    - src
      - main
        java
        org
        novelang
        build
        batch
        AbstractProducerMojo.java
        BatchProducerMojo.java
        NoForkBatchProducerMojo.java
        ShaveReleaseNotesMojo.java
        VersionVerifierMojo.java
  - shell
    - src
      - main
        java
        org
        novelang
        outfit
        shell
        AgentFileInstaller.java
        BootstrappingJmxKit.java
        DefaultJmxKit.java
        HeartbeatSender.java
        InputStreamWatcher.java
        JavaClasses.java
        JavaShell.java
        JavaShellParameters.java
        JavaShellTools.java
        JmxBeanKey.java
        JmxBeanPool.java
        JmxBeanValue.java
        JmxConnectionBundle.java
        JmxKit.java
        JmxNotAvailableException.java
        ProcessCreationException.java
        ProcessInitializationException.java
        ProcessShell.java
        ShutdownStyle.java
        ShutdownTools.java
        TieredStartupSensor.java
      - test
        java
        org
        novelang
        outfit
        shell
        JavaShellTest.java
        ShellFixture.java
  - shell-fixture
    - src
      - main
        java
        org
        novelang
        outfit
        shell
        StupidListener.java
      - test
        java
        org
        novelang
        outfit
        shell
        StupidListenerTest.java
  - source-plugin
    - src
      - main
        java
        org
        novelang
        maven
        SourceAggregatorMojo.java
  - syntactic-tree
    - src
      - main
        java
        org
        novelang
        common
        SimpleTree.java
        SyntacticTree.java
        parser
        antlr
        CustomTree.java
  - syntactic-tree-fixture
    - src
      - main
        java
        org
        novelang
        parser
        antlr
        TreeFixture.java
  - tree
    - src
      - main
        java
        org
        novelang
        common
        tree
        EvolverTools.java
        FilterException.java
        ImmutableTree.java
        RobustPath.java
        StorageTypeProvider.java
        Traversal.java
        Tree.java
        TreeTools.java
        Treepath.java
        TreepathTools.java
      - test
        java
        org
        novelang
        common
        tree
        MyTree.java
        RobustPathTest.java
        TestEvolverTools.java
        TraversalTest.java
        TreeTest.java
        TreeToolsTest.java
        TreepathComparisonTest.java
        TreepathTest.java
        TreepathToolsTest.java
  - unicode-generator-plugin
    - src
      - main
        java
        org
        novelang
        build
        unicode
        UnicodeNamesGenerator.java
        UnicodeNamesGeneratorMojo.java
        UnicodeNamesTextReader.java
  - unicode-generator-plugin-test
    - src
      - test
        java
        org
        novelang
        build
        unicode
        UnicodeNamesGeneratorTest.java
        UnicodeNamesTextReaderTest.java
  - unicode-reader
    - src
      - main
        java
        org
        novelang
        parser
        unicode
        CharacterOutOfBoundsException.java
        UnicodeNames.java
        UnicodeNamesBinaryReader.java
      - test
        java
        org
        novelang
        parser
        unicode
        UnicodeNamesBinaryReaderTest.java
        UnicodeNamesTest.java
  - vanilla-fixture
    - src
      - main
        java
        org
        novelang
        testing
        DirectoryFixture.java
        NoSystemExit.java
        RepeatedAssert.java
        StandalonePredicate.java
        junit
        MethodSupport.java

/*
 * Copyright (C) 2011 Laurent Caillette
 *
 * This program is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation, either
 * version 3 of the License, or (at your option) any later version.
 *
 * This program is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
 * GNU General Public License for more details.
 *
 * You should have received a copy of the GNU General Public License
 * along with this program.  If not, see <http://www.gnu.org/licenses/>.
 */

package org.novelang.parser.unicode ;

import java.io.BufferedInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.PushbackInputStream;
import java.nio.charset.Charset;

import com.google.common.base.Preconditions;

/**
 * This {@code InputStream} recognizes unicode BOM and skips bytes if {@link #getEncoding()}
 * method is called before any of the {@code read(...)} methods.
 * <p>
 * Copied from
 * <a href="http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058" >Sun's bug database</a>
 * <p>
 * See <a href="http://www.unicode.org/unicode/faq/utf_bom.html" >Unicode BOM FAQ</a>
 * <p>
 * BOMs:
 * <ul>
 * <li> 00 00 FE FF    = UTF-32, big-endian
 * <li> FF FE 00 00    = UTF-32, little-endian
 * <li> FE FF          = UTF-16, big-endian
 * <li> FF FE          = UTF-16, little-endian
 * <li> EF BB BF       = UTF-8
 * <li> Win2k Notepad: Unicode format = UTF-16LE
 * </ul>
 * <p>
 * Usage pattern:
 * <pre>
 * String enc = "ISO-8859-1" ; // or NULL to use systemdefault
 * FileInputStream fis = new FileInputStream( file ) ;
 * UnicodeInputStream uin = new UnicodeInputStream( fis, enc ) ;
 * enc = uin.getEncoding() ; // check for BOM and skip bytes
 * InputStreamReader in ;
 * if (enc == null) in = new InputStreamReader(uin) ;
 * else in = new InputStreamReader(uin, enc) ;
 * </pre>
 *
 * @author Thomas Weidenfeller for original pseudocode.
 * @author Aki Nieminen for implementation.
 * @author Laurent Caillette for minor changes.
 */
public class UnicodeInputStream extends InputStream {
  
  final PushbackInputStream internalInputStream;
  final Charset defaultEncoding ;
  private boolean initialized = false ;
  private Charset encoding = null ;

  private static final int BOM_SIZE = 4 ;
  private static final int BUFFER_SIZE = 1024 * 32 ;

  @SuppressWarnings( { "IOResourceOpenedButNotSafelyClosed" } )
  public UnicodeInputStream( final InputStream in, final Charset defaultEncoding ) {
    final BufferedInputStream bufferedInputStream = new BufferedInputStream( in, BUFFER_SIZE ) ;
    internalInputStream = new PushbackInputStream( bufferedInputStream, BOM_SIZE ) ;
    this.defaultEncoding = Preconditions.checkNotNull( defaultEncoding ) ;
  }

  public Charset getEncoding() {
    if( ! initialized ) {
      try {
        initialize() ;
      } catch( IOException ex ) {
        throw new IllegalStateException( "Initialization failed", ex ) ;
      }
    }
    return encoding ;
  }

  /**
   * Read-ahead four bytes and check for BOM marks. Extra
   * bytes are
   * unread back to the stream, only BOM bytes are skipped.
   */
  protected void initialize() throws IOException {
    if( initialized ) return ;

    final byte[] bom = new byte[ BOM_SIZE ] ;
    final int n;
    final int unread ;
    n = internalInputStream.read( bom, 0, bom.length ) ;

    if( ( bom[ 0 ] == ( byte ) 0xEF ) && ( bom[ 1 ] == ( byte ) 0xBB ) &&
        ( bom[ 2 ] == ( byte ) 0xBF )
    ) {
      encoding = Charset.forName( "UTF-8" ) ;
      unread = n - 3 ;
    } else if( ( bom[ 0 ] == ( byte ) 0x00 ) && ( bom[ 1 ] == ( byte ) 0x00 ) &&
        ( bom[ 2 ] == ( byte ) 0xFE ) && ( bom[ 3 ] == ( byte ) 0xFF )
    ) {
      encoding = Charset.forName( "UTF-32BE" ) ;
      unread = n - 4 ;
    } else if( ( bom[ 0 ] == ( byte ) 0xFF ) && ( bom[ 1 ] == ( byte ) 0xFE ) &&
        ( bom[ 2 ] == ( byte ) 0x00 ) && ( bom[ 3 ] == ( byte ) 0x00 )
    ) {
      encoding = Charset.forName( "UTF-32LE" ) ;
      unread = n - 4 ;
    } else if( ( bom[ 0 ] == ( byte ) 0xFE ) && ( bom[ 1 ] == ( byte ) 0xFF ) ) {
      encoding = Charset.forName( "UTF-16BE" ) ;
      unread = n - 2 ;
    } else if( ( bom[ 0 ] == ( byte ) 0xFF ) && ( bom[ 1 ] == ( byte ) 0xFE ) ) {
      encoding = Charset.forName( "UTF-16LE" ) ;
      unread = n - 2 ;
    } else {
      // Unicode BOM mark not found, unread all bytes
      encoding = defaultEncoding ;
      unread = n ;
    }
//    System.out.println( "read=" + n + ", unread=" + unread ) ;

    if( unread > 0 ) {
      internalInputStream.unread( bom, ( n - unread ), unread ) ;
    }

    initialized = true ;
  }

  @Override
  public void close() throws IOException {
    initialized = true ;
    internalInputStream.close() ;
  }

  @Override
  public int read() throws IOException {
    initialized = true ;
    return internalInputStream.read() ;
   }
}