• 大小: 3.56MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-09-09
  • 语言: Java
  • 标签: Tesseract  OCR  Java  Tess4J  

资源简介

开源OCR引擎Tesseract的Java API封装Tess4J。 下载后需要自己编译生成jar文件,再按照说明导入到程序中使用。识别率比Asprise高不少。 但注意此引擎需要在32位JVM下运行,只支持Windows。

资源截图

代码片段和文件信息

/**
 * Copyright @ 2010 Quan Nguyen
 *
 * Licensed under the Apache License Version 2.0 (the “License“);
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *  http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing software
 * distributed under the License is distributed on an “AS IS“ BASIS
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package net.sourceforge.tess4j;

import com.sun.jna.Structure;

/**
 *  It should be noted that the format for char_code for version 2.0 and beyond is UTF-8
 *  which means that ASCII characters will come out as one structure but other characters
 *  will be returned in two or more instances of this structure with a single byte of the
 *  UTF-8 code in each but each will have the same bounding box.
 *  Programs which want to handle languages with different characters sets will need to
 *  handle extended characters appropriately but all code needs to be prepared to
 *  receive UTF-8 coded characters for characters such as bullet and fancy quotes.
 */
public class EANYCODE_CHAR extends Structure {

    /** character itself one single UTF-8 byte long.
     * A Unicode character may consist of one or more UTF-8 bytes.
     * Bytes of a character will have the same bounding box.
     */
    public byte char_code;
    /** left of char (-1) */
    public short left;
    /** right of char (-1) */
    public short right;
    /** top of char (-1) */
    public short top;
    /** bottom of char (-1) */
    public short bottom;
    /** what font (0) */
    public short font_index;
    /** classification confidence: 0=perfect 100=reject (0/100) */
    public byte confidence;
    /** point size of char 72 = 1 inch (10) */
    public byte point_size;
    /** number of spaces before this char (1) */
    public byte blanks;
    /** char formatting (0) */
    public byte formatting;
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        4283  2010-08-13 21:13  Tess4J\build.xml
     文件      102464  2010-08-16 19:25  Tess4J\eurotext.bmp
     文件       20359  2010-08-16 19:25  Tess4J\eurotext.gif
     文件       13065  2010-08-16 21:46  Tess4J\eurotext.pdf
     文件       14854  2010-08-16 19:24  Tess4J\eurotext.png
     文件      102598  2008-08-14 20:56  Tess4J\eurotext.tif
     目录           0  2010-11-01 23:18  Tess4J\lib\
     文件       31679  2010-08-14 20:47  Tess4J\lib\ghost4j-0.3.1.jar
     文件     1140632  2010-03-08 21:27  Tess4J\lib\jai_imageio.jar
     文件      948100  2010-08-01 18:29  Tess4J\lib\jna.jar
     文件      237344  2010-08-13 21:02  Tess4J\lib\junit-4.8.2.jar
     文件          95  2010-08-14 16:01  Tess4J\lib\nblibraries.properties
     文件         595  2010-03-08 21:27  Tess4J\lib\pdfpagecount.ps
     目录           0  2010-11-01 23:18  Tess4J\nbproject\
     文件       50923  2010-08-13 19:17  Tess4J\nbproject\build-impl.xml
     文件         475  2010-08-13 19:17  Tess4J\nbproject\genfiles.properties
     目录           0  2010-11-01 23:18  Tess4J\nbproject\private\
     文件           0  2010-08-13 18:52  Tess4J\nbproject\private\config.properties
     文件         165  2010-09-25 17:00  Tess4J\nbproject\private\private.properties
     文件         211  2010-11-01 21:25  Tess4J\nbproject\private\private.xml
     文件        2952  2010-08-22 08:08  Tess4J\nbproject\project.properties
     文件         733  2010-08-13 19:17  Tess4J\nbproject\project.xml
     文件        5096  2010-11-01 23:04  Tess4J\readme.html
     目录           0  2010-11-01 23:18  Tess4J\src\
     目录           0  2010-11-01 23:18  Tess4J\src\net\
     目录           0  2010-11-01 23:18  Tess4J\src\net\sourceforge\
     目录           0  2010-11-01 23:18  Tess4J\src\net\sourceforge\tess4j\
     文件        2178  2010-08-26 20:53  Tess4J\src\net\sourceforge\tess4j\EANYCODE_CHAR.java
     文件        2190  2010-08-21 12:01  Tess4J\src\net\sourceforge\tess4j\ETEXT_DESC.java
     文件        5294  2010-11-01 22:50  Tess4J\src\net\sourceforge\tess4j\TessDllAPI.java
     文件        5453  2010-11-01 21:25  Tess4J\src\net\sourceforge\tess4j\TessDllAPI1.java
............此处省略29个文件信息

评论

共有 条评论