SentenceParser.java example

Explorer

sos-dendrogram-master
- somtoolbox
  - src
    - core
      - at
        tuwien
        ifs
        commons
        gui
        SOMToolboxAppChooser.java
        controls
        TitledCollapsiblePanel.java
        swing
        table
        ButtonCellEditor.java
        ButtonCellRenderer.java
        ClassColorTableModel.java
        ColorCellEditor.java
        ColorCellRenderer.java
        jsap
        BooleanEditor.java
        EnumerationEditor.java
        FileEditor.java
        FlaggedOptionControl.java
        GenericGUI.java
        IntegerEditor.java
        OptionEditor.java
        ParameterControl.java
        StringEditor.java
        SwitchControl.java
        UnflaggedOptionControl.java
        package-info.java
        util
        MaximisedJFrame.java
        models
        ClassComboBoxModel.java
        util
        MathUtils.java
        io
        ExtensionFileFilterSwing.java
        jsap
        EnumeratedStringParserLister.java
        feature
        evaluation
        SimilarityRetrieval.java
        SimilarityRetrievalGUI.java
        somtoolbox
        SOMToolboxException.java
        SOMToolboxMetaConstants.java
        apps
        DataSetViewer.java
        MapInterpolator.java
        MergedSOMDataMapper.java
        PaletteEditor.java
        QualityMeasureComputer.java
        SDHTrainingSequenceGenerator.java
        SOMToolboxApp.java
        SOMToolboxMain.java
        SecondLifeFileReaderMain.java
        UnitFileViewer.java
        VisualisationImageSaver.java
        analysis
        FeatureDistributionAnalysis.java
        PLAnalyser.java
        PLClusterSpaceAnalyser.java
        PLInputSpaceAnalyser.java
        PLOutputSpaceAnalyser.java
        PLStepSequenceAnalyser.java
        PlaylistAnalysis.java
        config
        AbstractOptionFactory.java
        OptionFactory.java
        package-info.java
        helper
        ClassInfoFileCleaner.java
        DataGenerator.java
        DataMapper.java
        DataSetGenerator.java
        DataWinnerMappingWriter.java
        DatasetRandomiser.java
        HTMLMapReader.java
        MapRotator.java
        RGBPaletteConverter.java
        SOMLibDataInfoGenerator.java
        SOMLibInputMerger.java
        SOMMerger.java
        SomFilePacker.java
        SomToInputConvertor.java
        StringReplacer.java
        TemplateVectorComparator.java
        UnitDescriptionMappingRewriter.java
        VectorFileChopper.java
        VectorFileMerger.java
        VectorFilePrefixAdder.java
        VectorFileRewriter.java
        VectorFileToRandomAccessFileConverter.java
        VectorSimilarityWriter.java
        initEval
        EvaluationMain.java
        Measure.java
        metricEval
        MetricEvaluation.java
        package-info.java
        server
        HTMLMapInformation.java
        LabelDescription.java
        LabelImageCreator.java
        MapPreviewServlet.java
        MapSectionServlet.java
        MapServlet.java
        SOMMap.java
        SOMPageParameters.java
        ServerPalettes.java
        ServerSOM.java
        ServerVisualizations.java
        package-info.java
        trainer
        GHSOMSettingsPanel.java
        GrowingSOMSettingsPanel.java
        MnemonicSOMSettingsPanel.java
        SOMModelSettingsPanel.java
        SOMTrainer.java
        viewer
        ArrowPNode.java
        CommonSOMViewerStateData.java
        ComponentPlaneClusteringFrame.java
        ControlCollector.java
        DocViewPanel.java
        ExportDialog.java
        GeneralUnitPNode.java
        GeneralUnitPNodeSerializer.java
        GenericPNodeScrollPane.java
        InputPNode.java
        ItemSelectionListener.java
        LabellingDialog.java
        MapPNode.java
        MyPCanvas.java
        PieChartPNode.java
        RhythmPattern.java
        RhythmPatternsVisWindow.java
        SOMFrame.java
        SOMPane.java
        SOMViewer.java
        SharedSOMVisualisationDataDialog.java
        StarPNode.java
        StatusBar.java
        ToolTipPNode.java
        TuxRacerExportDialog.java
        UnitSelectionListener.java
        VisualizationChangeListener.java
        controls
        AbstractSelectionPanel.java
        AbstractViewerControl.java
        AutoRoutePanel.java
        ClassLegendPane.java
        ClusterBoderColorChooser.java
        ClusteringControl.java
        ColorChooser.java
        ColourLegendTable.java
        ComparisonPanel.java
        DendogrammPane.java
        DocSOMPanel.java
        GHSOMNavigationPanel.java
        LabelEditColorChooser.java
        MapDetailPanel.java
        MapOverviewPane.java
        MultichannelPlaybackPanel.java
        PaletteDisplayer.java
        PalettePanel.java
        PlaySOMPanel.java
        PlaygroundPanel.java
        PlaylistEvaluationPane.java
        QuerySOMPanel.java
        ShiftsControlPanel.java
        VisualizationControl.java
        multichannelPlayback
        ActivityGrid.java
        ActivityGridModel.java
        Commons.java
        ControlFrame.java
        DecoderThread.java
        FindMeLoopThread.java
        LayoutTable.java
        LineListModel.java
        MyGridCellRenderer.java
        PlaybackThread.java
        TPlaybackThreadDataRecord.java
        TimeUpdateThread.java
        package-info.java
        player
        AudioPlayThread.java
        AudioPlayer.java
        FlatAudioPlayThread.java
        MP3PlayThread.java
        PlayList.java
        PlayListListener.java
        PlaySOMPlayer.java
        PlayerControl.java
        PlayerListener.java
        StandalonePlaySOMPlayer.java
        psomserver
        PathMerger.java
        PocketSOMConnector.java
        httphandler
        HttpErrorHandler.java
        MapInformationProvider.java
        PocketSOMConfigProvider.java
        SongProvider.java
        fileutils
        ExportUtils.java
        LabelXmlUtils.java
        MIMETypes.java
        MySOMVisualisationDataFileFilter.java
        PlayList.java
        PocketSOMFormatUtils.java
        handlers
        AbstractDragSequenceEventHandler.java
        ClusterSelectionEventHandler.java
        EditLabelEventListener.java
        LineSelectionEventHandler.java
        LoggingHandler.java
        MyInputDragSequenceEventHandler.java
        MyLabelDragSequenceEventHandler.java
        MyMapInputEventHandler.java
        MyRectangleSelectionEventHandler.java
        MyWheelZoomEventHandler.java
        OrderedPSelectionEventHandler.java
        package-info.java
        package-info.java
        audio
        Constants.java
        DecoderThread.java
        PlaybackListener.java
        PlaybackThread.java
        PlaybackThreadDataRecord.java
        clustering
        Cluster.java
        ClusteringAlgorithm.java
        ClusteringTools.java
        DistanceFunctionType.java
        HierarchicalCluster.java
        HierarchicalClusteringAlgorithm.java
        WardClustering.java
        functions
        ClusterElementFunctions.java
        ComponentLine2DDistance.java
        ComponentLine3DDistance.java
        DoubleVector2DDistance.java
        UnitClusteringFunction.java
        data
        ARFFFormatInputData.java
        AbstractSOMLibSparseInputData.java
        AbstractSOMLibTemplateVector.java
        ClassInfoHeaderNotFoundException.java
        DataBaseSOMLibSparseInputData.java
        DataBaseSOMLibTemplateVector.java
        DataDimensionException.java
        ESOMClassInformation.java
        ESOMInputData.java
        InputData.java
        InputDataFactory.java
        InputDataFileFormatConverter.java
        InputDataWriter.java
        InputDatum.java
        MarsyasARFFInputData.java
        RandomAccessFileSOMLibInputData.java
        SOMLibClassInformation.java
        SOMLibDataInformation.java
        SOMLibRegressInformation.java
        SOMLibSparseInputData.java
        SOMLibSparseInputDataNames.java
        SOMLibTemplateVector.java
        SOMLibVectorNormalization.java
        SOMLibZeroVectorRemover.java
        SOMPAKInputData.java
        SOMVisualisationData.java
        SharedSOMVisualisationData.java
        SimpleMatrixInputData.java
        TemplateVector.java
        TemplateVectorElement.java
        distance
        AbstractMemoryInputVectorDistanceMatrix.java
        DistanceMatrixWriter.java
        FullMemoryInputVectorDistanceMatrix.java
        InputVectorDistanceMatrix.java
        LeightWeightMemoryInputVectorDistanceMatrix.java
        RandomAccessFileInputVectorDistanceMatrix.java
        metadata
        AbstractVectorMetaData.java
        AudioVectorMetaData.java
        EmtpyVectorMetaData.java
        MP3VectorMetaData.java
        normalisation
        AbstractNormaliser.java
        MinMaxNormaliser.java
        StandardScoreNormaliser.java
        UnitLengthNormaliser.java
        package-info.java
        database
        DBConnector.java
        Index2DatabaseImporter.java
        MySQLConnector.java
        VectorFile2DatabaseImporter.java
        package-info.java
        doc
        RunnablesReferenceCreator.java
        input
        AbstractSOMInputReader.java
        DataItemLinkageMap.java
        ESOMFormatInputReader.java
        InputCorrections.java
        MapFileFormatConverter.java
        MnemonicSOMLibFormatInputReader.java
        SOMInputReader.java
        SOMLibDataWinnerMapping.java
        SOMLibFileFormatException.java
        SOMLibFormatInputReader.java
        SOMLibMapDescription.java
        SOMPAKFormatInputReader.java
        SecondLifeInputFileReader.java
        package-info.java
        layers
        AdaptiveCoordinatesVirtualLayer.java
        AdaptiveCoordinatesVirtualUnit.java
        GrowingCellLayer.java
        GrowingCellUnit.java
        GrowingLayer.java
        InputContainer.java
        Label.java
        Layer.java
        LayerAccessException.java
        MappedInputs.java
        MnemonicGrowingLayer.java
        ToroidLayer.java
        TrainingInterruptionListener.java
        Unit.java
        UnitPair.java
        initialisation
        LayerInitializer.java
        PCAInitializer.java
        RandomInitializer.java
        RandomSamplingInitializer.java
        SOMInitializer.java
        metrics
        AbstractMetric.java
        AbstractWeightedMetric.java
        CosineMetric.java
        DistanceMetric.java
        L1Metric.java
        L2Metric.java
        L2MetricFast.java
        L2MetricSparse.java
        L2MetricWeighted.java
        LInfinityMetric.java
        LnAlphaMetric.java
        LnMetric.java
        MahalanobisMetric.java
        MetricException.java
        Metrics.java
        MissingValueMetricWrapper.java
        MnemonicSOMMetric.java
        package-info.java
        package-info.java
        quality
        AbstractQualityMeasure.java
        EntropyAndPurityCalculator.java
        EntropyMeasure.java
        IntrinsicDistance.java
        InversionMeasure.java
        MetricMultiScaling.java
        PseudoSilhouetteValue.java
        QualityMeasure.java
        QualityMeasureNotFoundException.java
        QuantizationError.java
        SOMDistortion.java
        SOMSilhouetteValue.java
        SammonMeasure.java
        SilhouetteValue.java
        SpearmanCoefficient.java
        TopographicError.java
        TopographicFunction.java
        TopographicProduct.java
        Trustworthiness_NeighborhoodPreservation.java
        package-info.java
        models
        AbstractNetworkModel.java
        GHSOM.java
        GHSOMHierarchyRoot.java
        GHSOMLevelLayer.java
        GrowingCellStructures.java
        GrowingSOM.java
        MnemonicSOM.java
        NetworkModel.java
        package-info.java
        output
        AttendeeMapper.java
        ESOMMapOutputter.java
        GrowingCellStructuresMapOutputter.java
        HTMLOutputter.java
        SOMLibMapOutputter.java
        SOMPAKMapOutputter.java
        TrajectoryOutputter.java
        labeling
        AbstractLabeler.java
        LabelSOM.java
        Labeler.java
        LagusKeywordLabeler.java
        package-info.java
        package-info.java
        properties
        FileProperties.java
        GHSOMProperties.java
        PropertiesException.java
        SOMProperties.java
        SOMViewerProperties.java
        package-info.java
        reportgenerator
        DatasetInformation.java
        EditableReportProperties.java
        GGSOMTestRunResult.java
        GHSOMTestRunResult.java
        MySOMLibMapDescription.java
        QEContainers
        InputQEContainer.java
        MapQEContainer.java
        QEContainer.java
        QMConfigurationProfile.java
        QMContainer.java
        UnitQEContainer.java
        ReportGenerator.java
        SemanticClass.java
        SemanticInterpreterGrid.java
        SemanticNode.java
        TestRunResult.java
        TestRunResultCollection.java
        TextualDescriptionProvider.java
        gui
        InputVectorSelectorPane.java
        ReportGenWindow.java
        RunResultSpecifierPane.java
        output
        OutputReport.java
        OutputReportHtml.java
        OutputReportLATEX.java
        ReportFileWriter.java
        SOMDescriptionHTML.java
        SOMDescriptionLATEX.java
        SOMGGDescriptionHTML.java
        SOMGGDescriptionLATEX.java
        SOMGHSOMDescriptionHTML.java
        SOMGHSOMDescriptionLATEX.java
        structures
        ComponentLine2D.java
        ComponentLine3D.java
        DoubleVector2D.java
        ElementWithIndex.java
        summarisation
        Summariser.java
        SummariserGUI.java
        gui
        DocumentListPanel.java
        MultiDocumentSummarisationPanel.java
        NavigationPanel.java
        OptionPanel.java
        PalettePanel.java
        SearchPanel.java
        SingleDocumentSummarisationPanel.java
        methods
        CombinedMethod.java
        KeywordMethod.java
        LocationMethod.java
        PartOfSpeech.java
        TFxIDF.java
        TitleMethod.java
        output
        DocumentDisplayer.java
        MultiDocumentHandler.java
        ResultHandler.java
        parser
        Scorer.java
        SentenceParser.java
        util
        AdaptiveStdErrProgressWriter.java
        ArrayUtils.java
        CentredDialog.java
        CollectionUtils.java
        Cuboid.java
        DateUtils.java
        ElementCounter.java
        FileUtils.java
        GridBagConstraintsIFS.java
        HTMLUtils.java
        ImageUtils.java
        Indices2D.java
        InverseComparator.java
        JMultiLineRadioButtonMenuItem.java
        JMultiLineToolTip.java
        LabelPNodeGenerator.java
        LeastRecentelyUsedImageCache.java
        LeastRecentlyUsedCache.java
        MultiLineToolTipUI.java
        NumberUtils.java
        PCA.java
        Point3d.java
        ProgressListener.java
        ProgressListenerFactory.java
        RandomTools.java
        StdErrProgressWriter.java
        StringIntegerComparator.java
        StringUtils.java
        SubClassFinder.java
        SwingWorker.java
        TogglablePanel.java
        UiUtils.java
        VectorTools.java
        VisualisationUtils.java
        comparables
        ComponentRegionCount.java
        InputDistance.java
        InputNameDistance.java
        UnitDistance.java
        growingCellStructures
        GrowingCellDrawSurface.java
        GrowingCellTetraheder.java
        inputVerifier
        DoubleNumberInputVerifier.java
        mnemonic
        MapPanel.java
        MnemonicSOMGenerator.java
        package-info.java
        package-info.java
        visualization
        AbstractBackgroundImageVisualizer.java
        AbstractItemVisualizer.java
        AbstractMatrixVisualizer.java
        ActivityHistogram.java
        AdaptiveCoordinatesVisualizer.java
        BackgroundImageVisualizer.java
        BackgroundImageVisualizerInstance.java
        CategoryPieChartVisualizer.java
        ClusterConnectionsVisualizer.java
        ColorGradient.java
        ColorGradientFactory.java
        ComparisonVisualizer.java
        ComponentPlanesVisualizer.java
        EntropyVisualizer.java
        FlowBorderlineVisualizer.java
        FuzzyColourCodingVisualiser.java
        GapVisualiser.java
        HitHistogramVisualizer.java
        IntrinsicDistanceVisualizer.java
        MappingDistortionVisualizer.java
        MatrixVisualizer.java
        MetroMapVisualizer.java
        MinimumSpanningTreeVisualizer.java
        NeighbourhoodGraph.java
        PMatrix.java
        Palette.java
        Palettes.java
        QualityMeasureVisualizer.java
        QuantizationErrorVisualizer.java
        RegressionVisualiser.java
        RhythmPatternsAttributeVisualizer.java
        SearchResultHistogramVisualizer.java
        SilhouetteVisualizer.java
        SmoothedCountHistograms.java
        SmoothedDataHistograms.java
        Snapper.java
        Snapper2D.java
        Snapper3D.java
        ThematicClassMapVisualizer.java
        TopographicErrorVisualizer.java
        TopographicProductVisualizer.java
        TrustwothinessVisualizer.java
        UMatrix.java
        VisualizationUpdateListener.java
        Visualizations.java
        clustering
        AbstractWardsLinkageTreeBuilder.java
        BorderPNode.java
        Cluster.java
        ClusterElementsStorage.java
        ClusterEquivalence.java
        ClusterLabel.java
        ClusterNode.java
        ClusteringAbortedException.java
        ClusteringTree.java
        ColoredClusterPNode.java
        CompleteLinkageTreeBuilder.java
        Covariance.java
        KMeans.java
        KMeansTreeBuilder.java
        LabelCoordinates.java
        LabelPositioning.java
        MoreCentresThanKException.java
        NodeDistance.java
        NonHierarchicalTreeBuilder.java
        SingleLinkageTreeBuilder.java
        TreeBuilder.java
        UnitKMeans.java
        WardsLinkageTreeBuilder.java
        WardsLinkageTreeBuilderAll.java
        package-info.java
        comparison
        QuiverPNode.java
        SOMComparison.java
        Shift.java
        contourplot
        ContourPlot.java
        metromap
        JetColorMap.java
        MetroColorMap.java
        package-info.java
        minimumSpanningTree
        Edge.java
        Graph.java
        InputdataGraph.java
        Node.java
        SomGraph.java
        package-info.java
        thematicmap
        Grid.java
        RegionManager.java
        RndIndexGenerator.java
        SOMClass.java
        SOMRegion.java
        SegDistComperator.java
        Segment.java
        package-info.java

/*
 * Copyright 2004-2010 Information & Software Engineering Group (188/1)
 *                     Institute of Software Technology and Interactive Systems
 *                     Vienna University of Technology, Austria
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.ifs.tuwien.ac.at/dm/somtoolbox/license.html
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package at.tuwien.ifs.somtoolbox.summarisation.parser;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;

/**
 * @author Julius Penaranda
 * @version $Id: SentenceParser.java 3590 2010-05-21 10:43:45Z mayer $
 */
public class SentenceParser {
    private String prefix = null;

    public ArrayList<String>[] parsedDocuments = null;

    private int numDocs = 0;

    private ArrayList<String> filenames = new ArrayList<String>();

    private HeadlineTextParser headtextparser = null;

    private DocumentParser docparser = null;

    @SuppressWarnings("unchecked")
    public SentenceParser(Object[] itemNames) {
        this.parsedDocuments = new ArrayList[itemNames.length];
    }

    public void setFileNamePrefix(String fnprefix) {
        this.prefix = fnprefix;
    }

    public void find_parse_Document(String name) {
        try {
            File file = new File(prefix + "/" + java.net.URLDecoder.decode(name, "UTF-8"));
            filenames.add(name);

            // if (file.isDirectory()) {
            // File[] files = file.listFiles();
            // if (files != null) {
            // for (int i = 0; i < files.length; i++) {
            // if (files[i].getName().equals(name)) {
            if (file.exists()) {
                System.out.println("Document found: " + name);
                System.out.println("Parsing document: " + name);
                this.parsedDocuments[numDocs++] = parseDocument(file);
                System.out.println("sentences in document " + file + ": "
                        + (this.parsedDocuments[numDocs - 1].size() - 1));
                // System.out.println("parsedDocument: "+ parsedDocuments.length);
            } else {
                System.out.println("File not found: " + file.getAbsolutePath());
            }
            // }
            // }
            // else {
            // System.out.println("SentenceParser: Please specify data item path");
            // }
        } catch (IOException io) {
            System.err.println("an IO-Error occured");
        }
    }

    private ArrayList<String> parseDocument(File document) throws IOException {
        FileInputStream fstream = new FileInputStream(document);
        BufferedReader d = new BufferedReader(new InputStreamReader(fstream));
        ArrayList<String> result = new ArrayList<String>();

        String line = d.readLine();
        while (line.equals("")) { // ignore blank spaces
            line = d.readLine();
        }
        if (line.indexOf("<HEADLINE", 0) != -1) {
            if (this.headtextparser == null) {
                headtextparser = new HeadlineTextParser(this);
            }
            headtextparser.setReader(d);
            headtextparser.parse();
            result = headtextparser.getDocument();
        } else if (line.indexOf("Subject") != -1) {
            System.out.println("skipping header line: " + line);
        } else {
            if (this.docparser == null) {
                docparser = new DocumentParser(this);
            }
            docparser.setReader(d);
            docparser.newDoc();
            docparser.storeTitle(line);
            docparser.storeText();
            result = docparser.getDocument();
        }
        return result;
    }

    /** finds sentence within String and add it to parseddoc */
    public String findSentence(String line, ArrayList<String> parseddoc) {
        int offS = 0;
        int index = 0;
        boolean found = false;

        while (line.indexOf(".", offS) != -1 || line.indexOf("; ", offS) != -1 || line.indexOf("? ", offS) != -1
                || line.indexOf("! ", offS) != -1) {
            index = line.length();
            if (line.indexOf(".", offS) != -1) {
                if (index >= line.indexOf(".", offS)) {
                    // check what comes after '.'

                    // if ". " is at the end of line
                    if (line.indexOf(". ", offS) + 2 == line.length()) {
                        System.out.println("special case: eol");
                        index = line.indexOf(". ", offS);
                        found = true;
                    } else if (line.indexOf(".", offS) + 1 == line.length()) {
                        System.out.println("special case2: eol");
                        index = line.indexOf(".", offS);
                        found = true;
                    } else {
                        // check what comes after "."
                        char y = line.charAt(line.indexOf(".", offS) + 1);

                        // if y=='"'
                        if (y == 34) {
                            index = line.indexOf(".", offS) + 1;
                            System.out.println("case anfuehrungszeichen");
                            found = true;
                        }

                        // check what comes after ". "
                        if (!found && line.indexOf(". ", offS) != -1) {
                            char z = line.charAt(line.indexOf(". ", offS) + 2);

                            // if z is number, lower case, '-' or '('
                            if (z >= 49 && z <= 57 || z >= 97 && z <= 122 || z == 45 || z == 40) {
                                System.out.println("case lower, number");
                                offS = line.indexOf(". ", offS) + 2;
                            } else {
                                System.out.println("normal case");
                                index = line.indexOf(". ", offS);
                                found = true;

                            }
                        } else {
                            offS = line.indexOf(".", offS) + 1;
                        }
                    }
                }
            }
            if (line.indexOf("; ", offS) != -1) {
                System.out.println("; gefunden");
                if (index >= line.indexOf("; ", offS)) {
                    index = line.indexOf("; ", offS);
                }
                found = true;
            }
            if (line.indexOf("? ", offS) != -1) {
                if (index >= line.indexOf("? ", offS)) {
                    index = line.indexOf("? ", offS);
                }
                found = true;
            }
            if (line.indexOf("! ", offS) != -1) {
                if (index >= line.indexOf("! ", offS)) {
                    index = line.indexOf("! ", offS);
                }
                found = true;
            }
            if (found) {
                // System.out.println("index: "+index+" ll: "+line.length());
                if (line.substring(0, index + 1).indexOf("&UR") != -1) {
                    System.out.println("&UR wird ignoriert");
                } else {
                    parseddoc.add(line.substring(0, index + 1));
                }
                // System.out.println("Sentence geaddet: "+line.substring(0, index+1)+" index: "+index+1);
                line = line.substring(index + 1);
                System.out.println("line �brig: " + line);
                System.out.println("offs: " + offS);
                found = false;
                offS = 0;
            }

        }
        return line;
    }

    /**
     * deletes tags within a Web document
     * 
     * @param line String
     * @return String
     */
    String delete_tags(String line) {
        Character sign;
        char[] chars;
        boolean not_add = false;
        String parsedline = "";

        chars = line.toCharArray();
        for (char c : chars) {
            sign = new Character(c);
            if (sign.equals(new Character('<'))) {
                not_add = true;
            } else if (sign.equals(new Character('>')) && not_add) {
                not_add = false;
            } else if (!not_add) {
                parsedline = parsedline + sign.toString();
            }
        }
        return parsedline;
    }

    public ArrayList<String>[] getParsedDocuments() {
        return this.parsedDocuments;
    }

    public ArrayList<String> getFileNames() {
        return filenames;
    }
}

class HeadlineTextParser {
    private SentenceParser sParser = null;

    private BufferedReader reader = null;

    private ArrayList<String> document = null;

    public HeadlineTextParser(SentenceParser parser) {
        this.sParser = parser;
    }

    public void setReader(BufferedReader rd) {
        this.reader = rd;
    }

    public void parse() {
        boolean start = false;
        document = new ArrayList<String>();

        try {
            // store title
            // String title= sParser.delete_tags(line);
            String sentence = new String("");
            String title = "";

            String line = reader.readLine();
            while (line.indexOf("</HEADLINE", 0) == -1) {
                title = title + sParser.delete_tags(line);
                line = reader.readLine();
            }
            document.add(title);

            // store text
            while (line != null) {
                if (!line.equals("")) {

                    if (line.indexOf("<TEXT", 0) > -1) {
                        start = true;
                    }

                    if (line.indexOf("</TEXT", 0) > -1) {
                        if (sentence.length() > 2) {
                            document.add(sentence);
                        }
                        System.out.println("stop parsing..");
                        start = false;
                    }

                    if (start) {
                        if (line.indexOf(".", 0) != -1 || line.indexOf(";", 0) != -1 || line.indexOf("?", 0) != -1
                                || line.indexOf("!", 0) != -1) {
                            sentence = sParser.findSentence(sParser.delete_tags(sentence + " " + line), this.document);
                        } else {
                            sentence = sentence + " " + line;
                        }
                    }
                }
                line = reader.readLine();
            }
        } catch (Exception e) {
            System.err.println(e.getMessage());
        }
    }

    public ArrayList<String> getDocument() {
        return this.document;
    }
}

class DocumentParser {
    private SentenceParser sParser = null;

    private BufferedReader reader = null;

    private ArrayList<String> document = null;

    public DocumentParser(SentenceParser parser) {
        this.sParser = parser;
    }

    public void setReader(BufferedReader rd) {
        this.reader = rd;
    }

    public void newDoc() {
        this.document = new ArrayList<String>();
    }

    public void storeTitle(String line) {
        document.add(line);
    }

    public void storeText() {
        try {
            String sentence = new String("");
            String line = reader.readLine();

            // store text
            while (line != null) {
                if (!line.equals("")) {
                    if (line.indexOf(".", 0) != -1 || line.indexOf(";", 0) != -1 || line.indexOf("?", 0) != -1
                            || line.indexOf("!", 0) != -1) {
                        sentence = sParser.findSentence(sParser.delete_tags(sentence + " " + line), this.document);
                    } else {
                        sentence = sentence + " " + line;
                    }
                }
                line = reader.readLine();
            }
            /*
             * System.out.println("changing code for lyrics corpora"); System.out.println("parsing lyrics document.."); while(line!=null) {
             * this.document.add(line); line = reader.readLine(); }
             */

        } catch (Exception e) {
            System.err.println(e.getMessage());
        }
    }

    public ArrayList<String> getDocument() {
        return this.document;
    }
}