ToUnicodeMap.java example

Explorer

PDFrenderer-master
- src
  - com
    - sun
      - pdfview
        BaseWatchable.java
        ByteBufferInputStream.java
        Cache.java
        Configuration.java
        HexDump.java
        Identity8BitCharsetEncoder.java
        ImageInfo.java
        NameTree.java
        OutlineNode.java
        PDFCmd.java
        PDFDebugger.java
        PDFDestination.java
        PDFDocCharsetEncoder.java
        PDFErrorHandler.java
        PDFFile.java
        PDFImage.java
        PDFImageParseException.java
        PDFObject.java
        PDFPage.java
        PDFPaint.java
        PDFParseException.java
        PDFParser.java
        PDFRenderer.java
        PDFShapeCmd.java
        PDFStringUtil.java
        PDFTextFormat.java
        PDFXref.java
        PdfSubByteSampleModel.java
        RefImage.java
        Watchable.java
        action
        GoToAction.java
        GoToEAction.java
        GoToRAction.java
        LaunchAction.java
        PDFAction.java
        PdfObjectParseUtil.java
        UriAction.java
        annotation
        FreetextAnnotation.java
        LinkAnnotation.java
        PDFAnnotation.java
        StampAnnotation.java
        WidgetAnnotation.java
        colorspace
        AltColorSpace.java
        AlternateColorSpace.java
        CMYKColorSpace.java
        CalGrayColor.java
        CalRGBColor.java
        IndexedColor.java
        LabColor.java
        MaskColorSpace.java
        PDFColorSpace.java
        PatternSpace.java
        YCCKColorSpace.java
        decode
        ASCII85Decode.java
        ASCIIHexDecode.java
        CCITTFaxDecode.java
        CCITTFaxDecoder.java
        DCTDecode.java
        FlateDecode.java
        ImageDataDecoder.java
        JBig2Decode.java
        JPXDecode.java
        LZWDecode.java
        PDFDecoder.java
        PNGPredictor.java
        Predictor.java
        RunLengthDecode.java
        TIFFPredictor.java
        decrypt
        CryptFilterDecrypter.java
        EncryptionUnsupportedByPlatformException.java
        EncryptionUnsupportedByProductException.java
        IdentityDecrypter.java
        PDFAuthenticationFailureException.java
        PDFDecrypter.java
        PDFDecrypterFactory.java
        PDFPassword.java
        StandardDecrypter.java
        UnsupportedEncryptionException.java
        font
        BuiltinFont.java
        CIDFontType0.java
        CIDFontType2.java
        FlPoint.java
        FontSupport.java
        NativeFont.java
        OutlineFont.java
        PDFFont.java
        PDFFontDescriptor.java
        PDFFontEncoding.java
        PDFGlyph.java
        TTFFont.java
        Type0Font.java
        Type1CFont.java
        Type1Font.java
        Type3Font.java
        cid
        PDFCMap.java
        ToUnicodeMap.java
        ttf
        AdobeGlyphList.java
        CMap.java
        CMapFormat0.java
        CMapFormat4.java
        CMapFormat6.java
        CmapTable.java
        Glyf.java
        GlyfCompound.java
        GlyfSimple.java
        GlyfTable.java
        HeadTable.java
        HheaTable.java
        HmtxTable.java
        LocaTable.java
        MaxpTable.java
        NameTable.java
        PostTable.java
        TrueTypeFont.java
        TrueTypeTable.java
        function
        FunctionType0.java
        FunctionType2.java
        FunctionType3.java
        FunctionType4.java
        PDFFunction.java
        postscript
        PostScriptParser.java
        operation
        Abs.java
        Add.java
        And.java
        Atan.java
        Bitshift.java
        Ceiling.java
        Copy.java
        Cvi.java
        Cvr.java
        Div.java
        Dup.java
        Eq.java
        Exch.java
        Exp.java
        Expression.java
        False.java
        Floor.java
        Ge.java
        Gt.java
        Idiv.java
        If.java
        IfElse.java
        Index.java
        Le.java
        Ln.java
        Log.java
        Lt.java
        Mod.java
        Mul.java
        Ne.java
        Neg.java
        Not.java
        OperationSet.java
        Or.java
        Pop.java
        PostScriptOperation.java
        PushAsNumber.java
        Roll.java
        Round.java
        Sin.java
        Sqrt.java
        Sub.java
        True.java
        Truncate.java
        Xor.java
        pattern
        DummyShader.java
        PDFPattern.java
        PDFShader.java
        PatternType1.java
        PatternType2.java
        ShaderType2.java
        ShaderType3.java
- test
  - src
    - com
      - sun
        pdfview
        function
        postscript
        PostScriptOPTest.java

package com.sun.pdfview.font.cid;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.StringReader;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import com.sun.pdfview.PDFObject;

/*****************************************************************************
 * Parses a CMAP and builds a lookup table to map CMAP based codes to unicode.
 * This is not a fully functional CMAP parser but a stripped down parser
 * that should be able to parse some limited variants of CMAPs that are
 * used for the ToUnicode mapping found for some Type0 fonts.
 *
 * @author  Bernd Rosstauscher
 * @since 03.08.2011
 ****************************************************************************/

public class ToUnicodeMap extends PDFCMap {
	
	/*****************************************************************************
	 * Small helper class to define a code range.
	 ****************************************************************************/

	private static class CodeRangeMapping {
		char srcStart;
		char srcEnd;
		
		CodeRangeMapping(char srcStart, char srcEnd) {
			this.srcStart = srcStart;
			this.srcEnd = srcEnd;
		}
		
		boolean contains(char c) {
			return this.srcStart <= c 
								&& c <= this.srcEnd;
		}
		
	}
	
	/*****************************************************************************
	 * Small helper class to define a char range.
	 ****************************************************************************/

	private static class CharRangeMapping {
		char srcStart;
		char srcEnd;
		char destStart;
		
		CharRangeMapping(char srcStart, char srcEnd, char destStart) {
			this.srcStart = srcStart;
			this.srcEnd = srcEnd;
			this.destStart = destStart;
		}
		
		boolean contains(char c) {
			return this.srcStart <= c 
								&& c <= this.srcEnd;
		}
		
		char map(char src) {
			return (char) (this.destStart + (src-this.srcStart));
		}
		
	}
	
	private final Map<Character, Character> singleCharMappings;
	private final List<CharRangeMapping> charRangeMappings;
	private final List<CodeRangeMapping> codeRangeMappings;

	/*************************************************************************
	 * Constructor
	 * @param map 
	 * @throws IOException 
	 ************************************************************************/
	
	public ToUnicodeMap(PDFObject map) throws IOException {
		super();
		this.singleCharMappings = new HashMap<Character, Character>();
		this.charRangeMappings = new ArrayList<CharRangeMapping>();
		this.codeRangeMappings = new ArrayList<CodeRangeMapping>();
		parseMappings(map);
	}
	
	/*************************************************************************
	 * @param map
	 * @throws IOException 
	 ************************************************************************/
	
	private void parseMappings(PDFObject map) throws IOException {
		try {
			StringReader reader = new StringReader(new String(map.getStream(), "ASCII"));
			BufferedReader bf = new BufferedReader(reader);
			String line = bf.readLine();
			while (line != null) {
				if (line.contains("beginbfchar")) {
					parseSingleCharMappingSection(bf);
				}
				if (line.contains("beginbfrange")) {
					parseCharRangeMappingSection(bf);
				}
				if (line.contains("begincodespacerange")) {
					parseCodeRangeMappingSection(bf);
				}
				line = bf.readLine();
			}
		} catch (UnsupportedEncodingException e) {
			throw new IOException(e);
		} 
	}

	/*************************************************************************
	 * @param bf
	 * @throws IOException 
	 ************************************************************************/
	
	private void parseCharRangeMappingSection(BufferedReader bf) throws IOException {
		String line = bf.readLine();
		while (line != null) {
			if (line.contains("endbfrange")) {
				break;
			}
			parseRangeLine(line);
			line = bf.readLine();
		}
	}

	private void parseCodeRangeMappingSection(BufferedReader bf) throws IOException {
		String line = bf.readLine();
		while (line != null) {
			if (line.contains("endcodespacerange")) {
				break;
			}
			parseCodeRangeLine(line);
			line = bf.readLine();
		}
	}

	/*************************************************************************
	 * @param line
	 * @return
	 ************************************************************************/
	
	private void parseRangeLine(String line) {
		String[] mapping = line.split(" ");
		if (mapping.length == 3) {
			Character srcStart = parseChar(mapping[0]);
			Character srcEnd = parseChar(mapping[1]);
			Character destStart = parseChar(mapping[2]);
			this.charRangeMappings.add(new CharRangeMapping(srcStart, srcEnd, destStart));
		}
	}

	private void parseCodeRangeLine(String line) {
		String[] mapping = line.split(" ");
		if (mapping.length == 2) {
			Character srcStart = parseChar(mapping[0]);
			Character srcEnd = parseChar(mapping[1]);
			this.codeRangeMappings.add(new CodeRangeMapping(srcStart, srcEnd));
		}
	}

	/*************************************************************************
	 * @param bf
	 * @throws IOException 
	 ************************************************************************/
	
	private void parseSingleCharMappingSection(BufferedReader bf) throws IOException {
		String line = bf.readLine();
		while (line != null) {
			if (line.contains("endbfchar")) {
				break;
			}
			parseSingleCharMappingLine(line);
			line = bf.readLine();
		}
	}

	/*************************************************************************
	 * @param line
	 * @return
	 ************************************************************************/
	
	private void parseSingleCharMappingLine(String line) {
		String[] mapping = line.split(" ");
		if (mapping.length == 2 
				&& mapping[0].startsWith("<")
				&& mapping[1].startsWith("<")) {
			this.singleCharMappings.put(parseChar(mapping[0]), parseChar(mapping[1]));
		}
	}

	/*************************************************************************
	 * Parse a string of the format <0F3A> to a char.
	 * @param charDef
	 * @return
	 ************************************************************************/
	
	private Character parseChar(String charDef) {
		if (charDef.startsWith("<")) {
			charDef = charDef.substring(1);
		}
		if (charDef.endsWith(">")) {
			charDef = charDef.substring(0, charDef.length()-1);
		}
		try {
			int result = Integer.decode("0x" + charDef);
			return (char) result;
		} catch (NumberFormatException e) {
			return (char) ' ';
		}
	}

	/*************************************************************************
	 * map
	 * @see com.sun.pdfview.font.cid.PDFCMap#map(char)
	 ************************************************************************/
	@Override
	public char map(char src) {
		Character mappedChar = null;
		for (CodeRangeMapping codeRange : this.codeRangeMappings) {
			if(codeRange.contains(src)) {
				mappedChar = this.singleCharMappings.get(src);
				if (mappedChar == null) {
					mappedChar = lookupInRanges(src);
				}
				break;
			}
		}
		if (mappedChar == null) {
			// TODO XOND 27.03.2012: PDF Spec. "9.7.6.3Handling Undefined Characters"
			mappedChar = 0;
		}
		return mappedChar;
	}

	/*************************************************************************
	 * @param src
	 * @return
	 ************************************************************************/
	
	private Character lookupInRanges(char src) {
		Character mappedChar = null;
		for (CharRangeMapping rangeMapping : this.charRangeMappings) {
			if (rangeMapping.contains(src)) {
				mappedChar = rangeMapping.map(src);
				break;
			}
		}
		return mappedChar;
	}

}