OCRXMLExporter.java example

Explorer

PoCoTo-master
- Actions
  - src
    - jav
      - gui
        actions
        CheckQuotaAction.java
        ContextAction.java
        ExportAsDocXML.java
        ExportAsPageSeparatedPlainText.java
        ExportAsPlainText.java
        FilterAction.java
        FirstPage.java
        FivePageBackward.java
        FivePageForward.java
        FontZoomIn.java
        FontZoomOut.java
        GetTransactionsAction.java
        ImageZoomIn.java
        ImageZoomOut.java
        IntTextDocument.java
        LastPage.java
        MRUFilesAction.java
        MySaveAs.java
        NextLine.java
        NextSuspiciousToken.java
        NextToken.java
        OCRErrorKonkordance.java
        OpenExistingProject.java
        PageBackward.java
        PageForward.java
        PreviousLine.java
        PreviousSuspiciousToken.java
        PreviousToken.java
        SeitenFenster.java
        TenPageBackward.java
        TenPageForward.java
        TestOpen.java
        TimestampSave.java
        ToggleImages.java
- CompleteImageView
  - src
    - jav
      - gui
        image
        CompleteImageTopComponent.java
        TokenBoxPainter.java
- Concordance
  - src
    - jav
      - concordance
        control
        ConcordanceController.java
        ConcordanceEntry.java
        ConcordanceGraphicsRegistry.java
        Installer.java
        TokenLexOrderComparator.java
        view
        CloneConcordanceTopComponent.java
        ConcordanceGlobalActions.java
        ConcordancePage.java
        ConcordancePage_.java
        ConcordanceTopComponent.java
        ConcordanceTopComponent_bak.java
        FastCorrectionButton.java
- Cookies
  - src
    - jav
      - gui
        cookies
        CorrectionSystemReadyCookie.java
        DocumentLoadedCookie.java
        FontZoomCookie.java
        ImageZoomCookie.java
        PageCookie.java
        ProfilerIDCookie.java
        ShowImagesCookie.java
        TokenNavigationCookie.java
- CorrectionBackend
  - src
    - jav
      - correctionBackend
        AbbyyXMLParser.java
        Candidate.java
        CorrectedUndoRedoInformation.java
        CorrectionSystem.java
        DefaultDocument.java
        DeleteUndoRedoInformation.java
        Document.java
        FileType.java
        HOCRParser.java
        MergeUndoRedoInformation.java
        MultiCorrectedUndoRedoInformation.java
        MultiSetCorrectedUndoRedoInformation.java
        MyEditType.java
        MyIterator.java
        OCRCException.java
        OCRErrorInfo.java
        OCRXMLExporter.java
        OCRXMLImporter.java
        Page.java
        Parser.java
        Pattern.java
        PatternOccurrence.java
        SetCorrectedUndoRedoInformation.java
        SimpleXmlExporter.java
        SpecialSequenceType.java
        SplitUndoRedoInformation.java
        SpreadIndexDocument.java
        Token.java
        TokenImageInfoBox.java
        UndoRedoInformation.java
- Dialogs
  - src
    - jav
      - gui
        dialogs
        CustomErrorDialog.java
        CustomInformationDialog.java
        CustomWarningDialog.java
        EndOfPageDialog.java
        ExistsDialog.java
        LibraryErrorDialog.java
        StartOfPageDialog.java
        UnsavedChangesDialog.java
- Events
  - src
    - jav
      - gui
        events
        Event.java
        EventGenerator.java
        EventSlot.java
        MessageCenter.java
        cancel
        CancelEvent.java
        CancelEventGenerator.java
        CancelEventSlot.java
        concordance
        ConcordanceEvent.java
        ConcordanceEventGenerator.java
        ConcordanceEventSlot.java
        ConcordanceType.java
        documentChanged
        DocumentChangedEvent.java
        DocumentChangedEventGenerator.java
        DocumentChangedEventSlot.java
        pageChanged
        PageChangedEvent.java
        PageChangedEventGenerator.java
        PageChangedEventSlot.java
        saved
        SavedEvent.java
        SavedEventGenerator.java
        SavedEventSlot.java
        special
        multiselection
        MultiSelectionEvent.java
        MultiSelectionEventType.java
        tokenDeselection
        TokenDeselectionEvent.java
        TokenDeselectionEventGenerator.java
        TokenDeselectionEventSlot.java
        tokenMultiDeselection
        TokenMultiDeselectionEvent.java
        TokenMultiDeselectionEventGenerator.java
        TokenMultiDeselectionEventSlot.java
        tokenMultiSelection
        TokenMultiSelectionEvent.java
        TokenMultiSelectionEventGenerator.java
        TokenMultiSelectionEventSlot.java
        tokenNavigation
        TokenNavigationEvent.java
        TokenNavigationEventGenerator.java
        TokenNavigationEventSlot.java
        TokenNavigationType.java
        tokenSelection
        TokenSelectionEvent.java
        TokenSelectionEventGenerator.java
        TokenSelectionEventSlot.java
        TokenSelectionType.java
        tokenStatus
        CorrectedEvent.java
        DeleteEvent.java
        InsertEvent.java
        MergeEvent.java
        SetCorrectedEvent.java
        SplitEvent.java
        TokenStatusEvent.java
        TokenStatusEventGenerator.java
        TokenStatusEventSlot.java
        TokenStatusType.java
- Filter
  - src
    - jav
      - gui
        filter
        AbstractFilter.java
        AbstractTokenFilter.java
        AbstractTypeFilter.java
        ChainType.java
        DoppelgangerFilter.java
        FilterChain.java
        LenFilter.java
        LevDistance_1_Filter.java
        LevFilter.java
        OCRFehlerFilter.java
        PatternFilter.java
        PrefixFilter.java
        TokenStringFilter.java
- MainControl
  - src
    - jav
      - gui
        main
        AbstractEditorViewTopComponent.java
        AbstractMyTopComponent.java
        AbstractTokenVisualization.java
        AutoUpdater.java
        DateUtils.java
        ExternalUrlDisplayer.java
        GlobalActions.java
        Installer.java
        JTextFieldLimit.java
        MRUFilesMenu.java
        MRUFilesOptions.java
        MainController.java
        MyGlobalActionContextImpl.java
        MyGlobalLookup.java
        MyLifecycleManager.java
        MyStateEdit.java
        MyTypePrefixSearchProvider.java
        ProfileController.java
        SaveAsWrap.java
        Saver.java
        SortableValueMap.java
        SwingUtils.java
        Timestamper.java
        TokenVisualizationMultiRegistry.java
        TokenVisualizationRegistry.java
        undoredo
        MyUndoableEdit.java
- MainWindow
  - src
    - jav
      - gui
        mainWindow
        Installer.java
        MainTopComponent.java
        MainWindowGlobalActions.java
        PageView.java
- MultiSelectionLayer
  - src
    - jav
      - gui
        layer
        GeneralLayerUI.java
        MagnifierUI.java
        MouseDrawingUI.java
- OCRFehler
  - src
    - jav
      - gui
        error
        NumberLabel.java
        OCRFehlerDefaultMode.java
        OCRFehlerLabel.java
        OCRFehlerMode.java
        OCRFehlerPanel.java
        OCRFehlerTopComponent.java
- OptionManagement
  - src
    - jav
      - gui
        options
        EnterUserID.java
        MainControllerOptsOptionsPanelController.java
        MainControllerOptsPanel.java
        UserIDOptionsPanelController.java
        UserIDPanel.java
        package-info.java
        testsOptionsPanelController.java
        testsPanel.java
- ProfilerOCRFehler
  - src
    - jav
      - gui
        error
        profiler
        NumberLabel.java
        PatternDefaultMode.java
        PatternLabel.java
        PatternMode.java
        PatternPanel.java
        PatternTopComponent.java
- ProfilerWebServiceConnector
  - src
    - cis
      - profiler
        client
        ProfilerWebServiceCallbackHandler.java
        ProfilerWebServiceStub.java
- RiverLayout
  - src
    - se
      - datadosen
        component
        ControlPanel.java
        RiverLayout.java
        util
        JComponentHolder.java
- TokenActions
  - src
    - jav
      - gui
        token
        actions
        TokenActionsTopComponent.java
- TokenVisualization
  - src
    - jav
      - gui
        token
        behaviour
        TokenVisualizationConcordanceMode.java
        TokenVisualizationDefaultMode.java
        TokenVisualizationMode.java
        display
        DummyTokenVisualization.java
        ImageTokenVisualization.java
        OnlyTextTokenVisualization.java
        PseudoImageTokenVisualization.java
        TokenTextLabel.java
        TokenVisualization.java
        edit
        BoundsPopupMenuListener.java
        ComboBoxEntry.java
        ComboBoxEntryType.java
        ComboSeparatorsRenderer.java
        LargerComboBoxUI.java
        MyComboBoxUI.java
        MyEditCustomComboBox.java
        MyEditCustomComboBoxEditor.java
        tools
        ImageProcessor.java
- Wizards
  - src
    - jav
      - gui
        wizard
        importDocument
        ImportDocumentVisualPanel0.java
        ImportDocumentVisualPanel1.java
        ImportDocumentVisualPanel2.java
        ImportDocumentVisualPanel3.java
        ImportDocumentWizardAction.java
        ImportDocumentWizardDescriptor.java
        ImportDocumentWizardPanel0.java
        ImportDocumentWizardPanel1.java
        ImportDocumentWizardPanel2.java
        ImportDocumentWizardPanel3.java
        newProject
        NewProjectVisualPanel0.java
        NewProjectVisualPanel1.java
        NewProjectVisualPanel2.java
        NewProjectVisualPanel3.java
        NewProjectWizardAction.java
        NewProjectWizardDescriptor.java
        NewProjectWizardPanel0.java
        NewProjectWizardPanel1.java
        NewProjectWizardPanel2.java
        NewProjectWizardPanel3.java
        profiler
        createAccount
        CreateAccountVisualPanel1.java
        CreateAccountWizardAction.java
        CreateAccountWizardPanel1.java
        profileDocument
        ProfileDocumentVisualPanel1.java
        ProfileDocumentWizardAction.java
        ProfileDocumentWizardPanel1.java
        resendID
        ResendIDVisualPanel1.java
        ResendIDWizardAction.java
        ResendIDWizardPanel1.java

package jav.correctionBackend;

import java.io.*;
import java.util.Iterator;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.apache.commons.lang3.StringEscapeUtils;

/**
 *Copyright (c) 2012, IMPACT working group at the Centrum für Informations- und Sprachverarbeitung, University of Munich.
 *All rights reserved.

 *Redistribution and use in source and binary forms, with or without
 *modification, are permitted provided that the following conditions are met:

 *Redistributions of source code must retain the above copyright
 *notice, this list of conditions and the following disclaimer.
 *Redistributions in binary form must reproduce the above copyright
 *notice, this list of conditions and the following disclaimer in the
 *documentation and/or other materials provided with the distribution.

 *THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS
 *IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
 *TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A
 *PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
 *HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
 *SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
 *LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
 *DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
 *THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
 *(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 *OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 * 
 * This file is part of the ocr-postcorrection tool developed
 * by the IMPACT working group at the Centrum für Informations- und Sprachverarbeitung, University of Munich.
 * For further information and contacts visit http://ocr.cis.uni-muenchen.de/
 * 
 * @author thorsten (thorsten.vobl@googlemail.com)
 */
public class OCRXMLExporter {

    public OCRXMLExporter() {
    }

    public void export(Document doc, String filename, boolean exportCandidates) {
        try {
            int index = -1;
            Writer w = new OutputStreamWriter(new FileOutputStream(filename), "UTF8");
            BufferedWriter out = new BufferedWriter(w);

            out.write("<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n");
            out.write("<document>\n");

            Iterator<Page> pages = doc.pageIterator();

            while (pages.hasNext()) {
                Page p = pages.next();
                out.write("<page imageFile=\"" + p.getImageCanonical() + "\" sourceFile=\"\">\n");
                Iterator<Token> tokens = doc.tokenIterator(p);
                while (tokens.hasNext()) {
                    Token t = tokens.next();
                    index++;

                    SpecialSequenceType sst = t.getSpecialSeq();
                    if (sst.equals(SpecialSequenceType.SPACE)) {
                        out.write("<token token_id=\"" + index + "\" special_seq=\"space\" isNormal=\"false\">\n");
                    } else if (sst.equals(SpecialSequenceType.NEWLINE)) {
                        out.write("<token token_id=\"" + index + "\" special_seq=\"newline\" isNormal=\"false\">\n");
                    } else if (sst.equals(SpecialSequenceType.NORMAL)) {
                        out.write("<token token_id=\"" + index + "\" isNormal=\"" + t.isNormal() + "\">\n");
                    } else {
                        out.write("<token token_id=\"" + index + "\" isNormal=\"" + t.isNormal() + "\">\n");                        
                    }
                    
//                    if( t.getID() != t.getIndexInDocument() ) {
                        out.write("<ext_id>"+t.getID()+"</ext_id>\n");
//                    }

                    out.write("<wOCR>" + StringEscapeUtils.escapeXml(t.getWOCR()) + "</wOCR>\n");
                    out.write("<wOCR_lc>" + StringEscapeUtils.escapeXml(t.getWOCR_lc()) + "</wOCR_lc>\n");
                    out.write("<wCorr>" + StringEscapeUtils.escapeXml(t.getWCOR()) + "</wCorr>\n");

                    TokenImageInfoBox b = t.getTokenImageInfoBox();
                    if( b != null) {
                        out.write("<coord l=\"" + b.getCoordinateLeft() + "\" t=\"" + b.getCoordinateTop() + "\" r=\"" + b.getCoordinateRight() + "\" b=\"" + b.getCoordinateBottom() + "\"/>\n");
                    }

                    if( sst.equals(SpecialSequenceType.NORMAL) || sst.equals(SpecialSequenceType.HYPHENATED)) {
                        out.write("<abbyy_suspicious value=\"" + t.isSuspicious() + "\"/>\n");
                    }

                    if ( exportCandidates && t.getNumberOfCandidates() > 0 ) {
                        Iterator<Candidate> cands = doc.candidateIterator(t.getID());
                        while (cands.hasNext()) {
                            Candidate cand = cands.next();
                            out.write("<cand>" + StringEscapeUtils.escapeXml(cand.getSuggestion()) + StringEscapeUtils.escapeXml(cand.getInterpretation()) + ",voteWeight=" + cand.getVoteweight() + ",levDistance=" + cand.getDlev() + "</cand>\n");
                        }
                    }
                    
                    out.write("</token>\n");
                }
                out.write("</page>\n");
            }
            out.write("</document>\n");
            out.flush();
            out.close();

        } catch (IOException ex) {
            Logger.getLogger(OCRXMLExporter.class.getName()).log(Level.SEVERE, null, ex);
        }
    }
}