TagExtractor.java example

Explorer

PDFAInspector-master
- PdfInspector
  - src
    - org
      - json
        CDL.java
        Cookie.java
        CookieList.java
        HTTP.java
        HTTPTokener.java
        JSONArray.java
        JSONException.java
        JSONML.java
        JSONObject.java
        JSONString.java
        JSONStringer.java
        JSONTokener.java
        JSONWriter.java
        Test.java
        XML.java
        XMLTokener.java
    - pdfainspector
- itext-5.2.1
  - com
    - itextpdf
      - awt
        AsianFontMapper.java
        DefaultFontMapper.java
        FontMapper.java
        PdfGraphics2D.java
        PdfPrinterGraphics2D.java
        geom
        AffineTransform.java
        CubicCurve2D.java
        Dimension.java
        Dimension2D.java
        FlatteningPathIterator.java
        GeneralPath.java
        IllegalPathStateException.java
        Line2D.java
        NoninvertibleTransformException.java
        PathIterator.java
        Point.java
        Point2D.java
        PolylineShape.java
        PolylineShapeIterator.java
        QuadCurve2D.java
        Rectangle.java
        Rectangle2D.java
        RectangularShape.java
        Shape.java
        gl
        Crossing.java
        misc
        HashCode.java
        Messages.java
        RenderingHints.java
      - text
        Anchor.java
        Annotation.java
        BadElementException.java
        BaseColor.java
        Chapter.java
        ChapterAutoNumber.java
        Chunk.java
        DocListener.java
        DocWriter.java
        Document.java
        DocumentException.java
        Element.java
        ElementListener.java
        ExceptionConverter.java
        Font.java
        FontFactory.java
        FontFactoryImp.java
        FontProvider.java
        GreekList.java
        Header.java
        Image.java
        ImgCCITT.java
        ImgJBIG2.java
        ImgRaw.java
        ImgTemplate.java
        ImgWMF.java
        Jpeg.java
        Jpeg2000.java
        LargeElement.java
        List.java
        ListItem.java
        MarkedObject.java
        MarkedSection.java
        Meta.java
        PageSize.java
        Paragraph.java
        Phrase.java
        Rectangle.java
        RectangleReadOnly.java
        RomanList.java
        Section.java
        SpecialSymbol.java
        SplitCharacter.java
        TextElementArray.java
        Utilities.java
        WritableDirectElement.java
        ZapfDingbatsList.java
        ZapfDingbatsNumberList.java
        api
        Indentable.java
        Spaceable.java
        WriterOperation.java
        package-info.java
        error_messages
        MessageLocalization.java
        exceptions
        BadPasswordException.java
        IllegalPdfSyntaxException.java
        InvalidPdfException.java
        UnsupportedPdfException.java
        factories
        GreekAlphabetFactory.java
        RomanAlphabetFactory.java
        RomanNumberFactory.java
        html
        HtmlEncoder.java
        HtmlTags.java
        HtmlUtilities.java
        WebColors.java
        simpleparser
        CellWrapper.java
        ChainedProperties.java
        ElementFactory.java
        HTMLTagProcessor.java
        HTMLTagProcessors.java
        HTMLWorker.java
        ImageProcessor.java
        ImageProvider.java
        ImageStore.java
        LinkProcessor.java
        StyleSheet.java
        TableWrapper.java
        log
        Level.java
        Logger.java
        LoggerFactory.java
        NoOpLogger.java
        SysoLogger.java
        pdf
        AcroFields.java
        ArabicLigaturizer.java
        BadPdfFormatException.java
        Barcode.java
        Barcode128.java
        Barcode39.java
        BarcodeCodabar.java
        BarcodeDatamatrix.java
        BarcodeEAN.java
        BarcodeEANSUPP.java
        BarcodeInter25.java
        BarcodePDF417.java
        BarcodePostnet.java
        BarcodeQRCode.java
        BaseField.java
        BaseFont.java
        BidiLine.java
        BidiOrder.java
        ByteBuffer.java
        CFFFont.java
        CFFFontSubset.java
        CJKFont.java
        CMYKColor.java
        CMapAwareDocumentFont.java
        ColorDetails.java
        ColumnText.java
        CrlClient.java
        CrlClientImp.java
        DefaultSplitCharacter.java
        DocumentFont.java
        EnumerateTTC.java
        ExtendedColor.java
        ExtraEncoding.java
        FdfReader.java
        FdfWriter.java
        FilterHandlers.java
        FontDetails.java
        FontSelector.java
        GlyphList.java
        GrayColor.java
        HyphenationAuto.java
        HyphenationEvent.java
        ICC_Profile.java
        IntHashtable.java
        LZWDecoder.java
        LongHashtable.java
        LtvTimestamp.java
        LtvVerification.java
        MappedRandomAccessFile.java
        MultiColumnText.java
        NumberArray.java
        OcspClient.java
        OcspClientBouncyCastle.java
        OutputStreamCounter.java
        OutputStreamEncryption.java
        PRAcroForm.java
        PRIndirectReference.java
        PRStream.java
        PRTokeniser.java
        PageResources.java
        PatternColor.java
        PdfAcroForm.java
        PdfAction.java
        PdfAnnotation.java
        PdfAppearance.java
        PdfArray.java
        PdfBoolean.java
        PdfBorderArray.java
        PdfBorderDictionary.java
        PdfChunk.java
        PdfColor.java
        PdfConcatenate.java
        PdfContentByte.java
        PdfContentParser.java
        PdfContents.java
        PdfCopy.java
        PdfCopyFields.java
        PdfCopyFieldsImp.java
        PdfCopyForms.java
        PdfCopyFormsImp.java
        PdfDashPattern.java
        PdfDate.java
        PdfDestination.java
        PdfDeveloperExtension.java
        PdfDictionary.java
        PdfDocument.java
        PdfEFStream.java
        PdfEncodings.java
        PdfEncryption.java
        PdfEncryptor.java
        PdfException.java
        PdfFileSpecification.java
        PdfFont.java
        PdfFormField.java
        PdfFormXObject.java
        PdfFunction.java
        PdfGState.java
        PdfICCBased.java
        PdfImage.java
        PdfImportedPage.java
        PdfIndirectObject.java
        PdfIndirectReference.java
        PdfLayer.java
        PdfLayerMembership.java
        PdfLine.java
        PdfLister.java
        PdfLiteral.java
        PdfMediaClipData.java
        PdfName.java
        PdfNameTree.java
        PdfNull.java
        PdfNumber.java
        PdfNumberTree.java
        PdfOCG.java
        PdfOCProperties.java
        PdfObject.java
        PdfOutline.java
        PdfPCell.java
        PdfPCellEvent.java
        PdfPKCS7.java
        PdfPRow.java
        PdfPSXObject.java
        PdfPTable.java
        PdfPTableEvent.java
        PdfPTableEventSplit.java
        PdfPage.java
        PdfPageElement.java
        PdfPageEvent.java
        PdfPageEventHelper.java
        PdfPageLabels.java
        PdfPages.java
        PdfPattern.java
        PdfPatternPainter.java
        PdfPublicKeyRecipient.java
        PdfPublicKeySecurityHandler.java
        PdfReader.java
        PdfReaderInstance.java
        PdfRectangle.java
        PdfRendition.java
        PdfResources.java
        PdfShading.java
        PdfShadingPattern.java
        PdfSigGenericPKCS.java
        PdfSignature.java
        PdfSignatureAppearance.java
        PdfSmartCopy.java
        PdfSpotColor.java
        PdfStamper.java
        PdfStamperImp.java
        PdfStream.java
        PdfString.java
        PdfStructureElement.java
        PdfStructureTreeRoot.java
        PdfTemplate.java
        PdfTextArray.java
        PdfTransition.java
        PdfTransparencyGroup.java
        PdfVisibilityExpression.java
        PdfWriter.java
        PdfXConformanceException.java
        Pfm2afm.java
        PushbuttonField.java
        RadioCheckField.java
        RandomAccessFileOrArray.java
        SequenceList.java
        ShadingColor.java
        SimpleBookmark.java
        SimpleNamedDestination.java
        SpotColor.java
        StampContent.java
        StandardDecryption.java
        TSAClient.java
        TSAClientBouncyCastle.java
        TextField.java
        TrueTypeFont.java
        TrueTypeFontSubSet.java
        TrueTypeFontUnicode.java
        Type1Font.java
        Type3Font.java
        Type3Glyph.java
        VerticalText.java
        XfaForm.java
        XfdfReader.java
        codec
        Base64.java
        BitFile.java
        BmpImage.java
        CCITTG4Encoder.java
        GifImage.java
        JBIG2Image.java
        JBIG2SegmentReader.java
        LZWCompressor.java
        LZWStringTable.java
        PngImage.java
        PngWriter.java
        TIFFConstants.java
        TIFFDirectory.java
        TIFFFaxDecoder.java
        TIFFFaxDecompressor.java
        TIFFField.java
        TIFFLZWDecoder.java
        TiffImage.java
        TiffWriter.java
        wmf
        InputMeta.java
        MetaBrush.java
        MetaDo.java
        MetaFont.java
        MetaObject.java
        MetaPen.java
        MetaState.java
        Point.java
        collection
        PdfCollection.java
        PdfCollectionField.java
        PdfCollectionItem.java
        PdfCollectionSchema.java
        PdfCollectionSort.java
        PdfTargetDictionary.java
        crypto
        AESCipher.java
        AESCipherCBCnoPad.java
        ARCFOUREncryption.java
        IVGenerator.java
        draw
        DottedLineSeparator.java
        DrawInterface.java
        LineSeparator.java
        VerticalPositionMark.java
        events
        FieldPositioningEvents.java
        IndexEvents.java
        PdfPCellEventForwarder.java
        PdfPTableEventForwarder.java
        PdfPageEventForwarder.java
        fonts
        FontsResourceAnchor.java
        cmaps
        AbstractCMap.java
        CMapByteCid.java
        CMapCache.java
        CMapCidByte.java
        CMapCidUni.java
        CMapParserEx.java
        CMapSequence.java
        CMapToUnicode.java
        CMapUniCid.java
        CidLocation.java
        CidLocationFromByte.java
        CidResource.java
        hyphenation
        ByteVector.java
        CharVector.java
        Hyphen.java
        Hyphenation.java
        HyphenationException.java
        HyphenationTree.java
        Hyphenator.java
        PatternConsumer.java
        SimplePatternParser.java
        TernaryTree.java
        interfaces
        PdfAnnotations.java
        PdfDocumentActions.java
        PdfEncryptionSettings.java
        PdfPageActions.java
        PdfRunDirection.java
        PdfVersion.java
        PdfViewerPreferences.java
        PdfXConformance.java
        internal
        PdfAnnotationsImp.java
        PdfVersionImp.java
        PdfViewerPreferencesImp.java
        PdfXConformanceImp.java
        parser
        ContentByteUtils.java
        ContentOperator.java
        FilteredRenderListener.java
        FilteredTextRenderListener.java
        GraphicsState.java
        ImageRenderInfo.java
        InlineImageInfo.java
        InlineImageUtils.java
        LineSegment.java
        LocationTextExtractionStrategy.java
        MarkedContentInfo.java
        MarkedContentRenderFilter.java
        Matrix.java
        PdfContentReaderTool.java
        PdfContentStreamProcessor.java
        PdfImageObject.java
        PdfReaderContentParser.java
        PdfTextExtractor.java
        RegionTextRenderFilter.java
        RenderFilter.java
        RenderListener.java
        SimpleTextExtractionStrategy.java
        TaggedPdfReaderTool.java
        TextExtractionStrategy.java
        TextMarginFinder.java
        TextRenderInfo.java
        Vector.java
        XObjectDoHandler.java
        qrcode
        BitArray.java
        BitMatrix.java
        BitVector.java
        BlockPair.java
        ByteArray.java
        ByteMatrix.java
        CharacterSetECI.java
        EncodeHintType.java
        Encoder.java
        ErrorCorrectionLevel.java
        FormatInformation.java
        GF256.java
        GF256Poly.java
        MaskUtil.java
        MatrixUtil.java
        Mode.java
        QRCode.java
        QRCodeWriter.java
        ReedSolomonEncoder.java
        ReedSolomonException.java
        Version.java
        WriterException.java
        xml
        XMLUtil.java
        XmlDomWriter.java
        XmlToTxt.java
        simpleparser
        EntitiesToSymbol.java
        EntitiesToUnicode.java
        IanaEncodings.java
        NewLineHandler.java
        SimpleXMLDocHandler.java
        SimpleXMLDocHandlerComment.java
        SimpleXMLParser.java
        handler
        HTMLNewLineHandler.java
        NeverNewLineHandler.java
        xmp
        DublinCoreSchema.java
        LangAlt.java
        PdfA1Schema.java
        PdfSchema.java
        XmpArray.java
        XmpBasicSchema.java
        XmpMMSchema.java
        XmpReader.java
        XmpSchema.java
        XmpWriter.java

package pdfainspector;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import nu.xom.Attribute;
import nu.xom.Element;

import com.itextpdf.text.pdf.PdfArray;
import com.itextpdf.text.pdf.PdfDictionary;
import com.itextpdf.text.pdf.PdfName;
import com.itextpdf.text.pdf.PdfNumber;
import com.itextpdf.text.pdf.PdfObject;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.FilteredTextRenderListener;
import com.itextpdf.text.pdf.parser.MarkedContentRenderFilter;
import com.itextpdf.text.pdf.parser.PdfContentStreamProcessor;
import com.itextpdf.text.pdf.parser.RenderFilter;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.TextExtractionStrategy;

/**
 * Convert tag data in a PDF to a XOM XML element. This is based loosely on the
 * TaggedPdfReaderTool from iText 5.1.3, and very heavily modified to include
 * desired features, such as page numbers, attributes, and XOM elements.
 * @author schiele1
 */
public class TagExtractor {
	
	private static PdfReader reader;

	/**
	 * Given an iText PDF Reader, extract tag data from the PDF and store it in
	 * a XOM XML element.
	 * @param reader A reader for the given PDF.
	 * @return A XOM element containing tag data.
	 */
	public static Element extractToXML(PdfReader reader){
		TagExtractor.reader = reader;
		Element root = new Element("tags");
		
		// Find the root of the tag structure tree
		PdfDictionary catalog = reader.getCatalog();
		if(!catalog.contains(PdfName.STRUCTTREEROOT)){
			return root;
		}
		PdfDictionary structTree = catalog.getAsDict(PdfName.STRUCTTREEROOT);
		
		// Parse the tag tree into XOM elements then add them to the root.
		List<Element> tags = parseChild(structTree.getDirectObject(PdfName.K));
		if(tags != null){
			for(Element tag : tags){
				root.appendChild(tag);
			}
		}
		return root;
	}
	
	/**
	 * Wrapper function for parsing a PDF Object, passes it to either the array
	 * or the dictionary parser and returns the list those parsers output.
	 * @param child The PdfObject to be parsed.
	 * @return The list of XOM elements representing that object.
	 */
    private static List<Element> parseChild(PdfObject child){
    	List<Element> tags = new ArrayList<Element>();
		if(child != null){
			if (child instanceof PdfArray){
				tags = parseArray((PdfArray) child);
			}
			else if (child instanceof PdfDictionary){
				tags = parseDictionary((PdfDictionary) child);
			}
		}
		return tags;
    }
    
    /**
     * Parse each object in the given PdfArray into a list of XOM elements,
     * then append them all to a master list of elements representing the array.
     * @param array The PdfArray to be parsed.
     * @return A list of XOM elements representing the combination of every
     * PdfObject in the array.
     */
    private static List<Element> parseArray(PdfArray array){
    	List<Element> tags = new ArrayList<Element>();
    	
		if(array != null){
			for (int i = 0; i < array.size(); i++) {
				List<Element> childList = parseChild(array.getDirectObject(i));
				if(childList != null){
					tags.addAll(childList);
				}
			}
		}
		
		return tags;
    }
    
    /**
     * A dictionary will either directly contain tag data, or it will contain
     * references to other objects which may contain the data. This is where
     * the bulk of the parsing work is done.
     * @param dict The PdfDictionary to be parsed.
     * @return A list of elements corresponding to the tag data contained in
     * the dictionary and/or its children.
     */
    private static List<Element> parseDictionary(PdfDictionary dict){
    	List<Element> tags = new ArrayList<Element>();
		if(dict != null){
			// If the dict contains tag data, we need to extract it.
			PdfName tagString = dict.getAsName(PdfName.S);
			if (tagString != null) {
				// Decode the tag name and make a XOM element with that name.
	            String tagDecode = PdfName.decodeName(tagString.toString());
				String tagName = fixTagName(tagDecode);
				Element tag = new Element(tagName);
				
				// Fetch the tag attributes (including page numbers and alt
				// text), and add them to the tag element.
				List<Attribute> attributes = extractAttributes(dict);
				for(Attribute attribute : attributes){
					tag.addAttribute(attribute);
				}

				// Then, read in the actual contents of the tag.
				PdfDictionary page = dict.getAsDict(PdfName.PG);
				String contents = null;
				if (page != null){
					contents = parseTag(tagDecode, dict.getDirectObject(PdfName.K), page);
				}
				if(contents != null){
					tag.appendChild(sanitize(contents));
				}
				
				// If the tag has children, we need to parse them, too.
				List<Element> childList = parseChild(dict.getDirectObject(PdfName.K));
				if(childList != null){
					for(Element element : childList){
						tag.appendChild(element);
					}
				}
				
				// Once we've done all that, we return our finished element.
				tags.add(tag);
			}
			
			// If the dict is not a tag, we need to dig deeper into it to find
			// the tag data we need.
			else {
				tags = parseChild(dict.get(PdfName.K));
			}
		}
    	return tags;
    }
    
    /**
     * Taken from iText's TaggedPdfReaderTool, this renders tag names into an
     * XML-compatible format.
     * @param tag The tag to format.
     * @return A string representing the tag name.
     */
    private static String fixTagName(String tag) {
        StringBuilder sb = new StringBuilder();
        for (int k = 0; k < tag.length(); ++k) {
            char c = tag.charAt(k);
            boolean nameStart =
                c == ':'
                || (c >= 'A' && c <= 'Z')
                || c == '_'
                || (c >= 'a' && c <= 'z')
                || (c >= '\u00c0' && c <= '\u00d6')
                || (c >= '\u00d8' && c <= '\u00f6')
                || (c >= '\u00f8' && c <= '\u02ff')
                || (c >= '\u0370' && c <= '\u037d')
                || (c >= '\u037f' && c <= '\u1fff')
                || (c >= '\u200c' && c <= '\u200d')
                || (c >= '\u2070' && c <= '\u218f')
                || (c >= '\u2c00' && c <= '\u2fef')
                || (c >= '\u3001' && c <= '\ud7ff')
                || (c >= '\uf900' && c <= '\ufdcf')
                || (c >= '\ufdf0' && c <= '\ufffd');
            boolean nameMiddle =
                c == '-'
                || c == '.'
                || (c >= '0' && c <= '9')
                || c == '\u00b7'
                || (c >= '\u0300' && c <= '\u036f')
                || (c >= '\u203f' && c <= '\u2040')
                || nameStart;
            if (k == 0) {
                if (!nameStart)
                    c = '_';
            }
            else {
                if (!nameMiddle)
                    c = '-';
            }
            sb.append(c);
        }
        return sb.toString();
    }
    
    /**
     * Use iText's text parsing tools to read the text inside the given tag. It
     * scans the given page dictionary to find the start of the tag, and reads
     * all the text until it finds the end of the tag.
     * @param tag The tag type to search for on the page.
     * @param object The actual tag object we are parsing (the "K" element of
     * the parent PdfDictionary).
     * @param page The dictionary representing the page on which the tag starts.
     * @return A string containing the text within the given tag.
     */
	private static String parseTag(String tag, PdfObject object, PdfDictionary page){
		// If object is a number, then it is the Marked Content ID of the tag
		// we're looking for, and we can jump to that tag on the page.
		if (object instanceof PdfNumber) {
			PdfNumber mcid = (PdfNumber) object;
			// The filter will only search for text corresponding to the MCID.
			RenderFilter filter = new MarkedContentRenderFilter(mcid.intValue());
			TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
			FilteredTextRenderListener listener = new FilteredTextRenderListener(
					strategy, filter);
			PdfContentStreamProcessor processor = new PdfContentStreamProcessor(listener);
			try{
				processor.processContent(PdfReader.getPageContent(page), page.getAsDict(PdfName.RESOURCES));
			}catch(IOException e){
				return "";
			}
			return listener.getResultantText();
		}

		// If object is an array, we can search for tags within each element.
		else if (object instanceof PdfArray) {
			PdfArray arr = (PdfArray) object;
			int n = arr.size();
			String text = "";
			for (int i = 0; i < n; i++) {
				text = text + parseTag(tag, arr.getPdfObject(i), page);
				if (i < n - 1)
					text = text + "\n";
			}
			return text;
		}

		// If it's a dictionary, we can simply parse its MCID element.
		else if (object instanceof PdfDictionary) {
			PdfDictionary mcr = (PdfDictionary) object;
			return parseTag(tag, mcr.getDirectObject(PdfName.MCID), mcr.getAsDict(PdfName.PG));
		}
		
		// We should never reach here.
		else{
			return "";
		}
	}
	
	/**
	 * Recursively search for a page dictionary within the master Pages dict and return its
	 * page number. We search recursively because Pages dicts can be nested.
	 * @param page The page dictionary to search for.
	 * @param pages The page dictionary to search.
	 * @param num The number of pages already counted (since Pages dicts can be nested).
	 * @return The page number. This is 0 if the page is null, positive if the page was not
	 * found, and negative if the page was found.
	 */
	private static int getPageHelper(PdfDictionary page, PdfArray pages, int num){
		// Return zero if we aren't passed a page.
		if(page == null){
			return 0;
		}
		// Behave differently depending on whether we're reading a Page or Pages dict.
		for(int i = 0; i < pages.size(); i++){
			PdfDictionary child = pages.getAsDict(i);
			// If it's a Page dict, we need to check to see if it's our page.
			if(child.getAsName(PdfName.TYPE) == PdfName.PAGE){
				num++;
				if(child == page){
					return (-1) * num;
				}
			}
			// If it's a Pages dict, we need to recursively check all of its children.
			else if(child.getAsName(PdfName.TYPE) == PdfName.PAGES){
				int numChild = getPageHelper(page, child.getAsArray(PdfName.KIDS), num);
				if(numChild < 0){
					return numChild;
				}
				num = numChild;
			}
		}
		return num;
	}
	
	/**
	 * Wraps the getPageHelper function to find the page number of a given page dict.
	 * @param page The page dictionary whose number we want to know.
	 * @return The page number, or zero if it is not known.
	 */
	private static int getPage(PdfDictionary page){
		// Ensure we actually have a page dictionary, just in case, then call our helper.
		PdfDictionary catalog = TagExtractor.reader.getCatalog();
		if(catalog.contains(PdfName.PAGES)){
			PdfArray pages = catalog.getAsDict(PdfName.PAGES).getAsArray(PdfName.KIDS);
			int pageNumber = getPageHelper(page, pages, 0);
			// Our helper returns a negative number if it actually finds the page.
			if(pageNumber < 0){
				return (-1) * pageNumber;
			}
		}
		return 0;
	}
	
	/**
	 * Search a tag dictionary for attributes and return a list of them.
	 * @param dict The tag dictionary to search.
	 * @return A list of all the attributes found.
	 */
    private static List<Attribute> extractAttributes(PdfDictionary dict){
    	ArrayList<Attribute> attributes = new ArrayList<Attribute>();
    	
    	// To find the page number, first get the page dictionary.
    	PdfDictionary page = dict.getAsDict(PdfName.PG);
		// ...then search for it in the master list of pages.
    	int pageNumber = getPage(page);
		attributes.add(new Attribute("Page", Integer.toString(pageNumber)));
		
		// If there's an alt-text, get it.
		if (dict.get(PdfName.ALT) != null){
			String alt = dict.get(PdfName.ALT).toString();
			attributes.add(new Attribute("Alt", sanitize(alt)));
		}
    	
		// Some tags, such as table elements, may have IDs.
		if(dict.get(PdfName.ID) != null){
			String id = dict.get(PdfName.ID).toString();
			attributes.add(new Attribute("ID", id));
		}
		
		// The rest of the attributes are contained in a dictionary. We can
		// pull out the ones we want here.
		PdfDictionary a = dict.getAsDict(PdfName.A);
    	if (a != null){
    		
    		PdfObject summary = a.get(new PdfName("Summary"));
    		PdfObject scope = a.get(new PdfName("Scope"));
    		PdfObject header = a.get(new PdfName("Headers"));
    		PdfObject rowspan = a.get(new PdfName("RowSpan"));
    		PdfObject colspan = a.get(new PdfName("ColSpan"));

    		if (summary != null){
    			attributes.add(new Attribute("Summary", summary.toString()));
    		}
    		if (scope != null){
    			attributes.add(new Attribute("Scope", scope.toString()));
    		}
    		if (header != null){
    			attributes.add(new Attribute("Headers", header.toString()));
    		}
    		if (rowspan != null){
    			attributes.add(new Attribute("RowSpan", rowspan.toString()));
    		}
    		if (colspan != null){
    			attributes.add(new Attribute("ColSpan", colspan.toString()));
    		}    		
    	}
    	return attributes;
    }

	/**
	 * Remove all null characters from a string so we can put it into XML.
	 * @param dict The string to sanitize.
	 * @return The sanitized string (i.e. with all null chars removed).
	 */
    private static String sanitize(String input){
    	if(input.startsWith("\u00fe\u00ff")){
    		input = input.substring(2);
    	}
		String sanitized = "";
		for(int i = 0; i < input.length(); i++){
			char c = input.charAt(i);
			if(c != '\0'){
				sanitized = sanitized + c;
			}
		}
		return sanitized;
    }
}