IT-Doc 公文高速录
清华TH-OCR识别技术,公文电子化解决方案
科技的发展使信息处理手段日新月异,各行各业都在顺应"信息资料电子化"的潮流。公文作为行政机关和企事业单位行使管理职能不可缺少的重要工具,仍大量依存于纸介质。公文的存储与不易查询的缺点暴露无疑,亟待解决!为此我们推出了IT-Doc"公文高速录"解决方案。通过高速扫描录入、快速自动处理将公文的各种信息以图像和文字相结合的形式存放于数据库中,以供检索和使用;以此来推动和引导办公自动化在公文方面的变革,实现公文电子化。
IT-Doc公文高速录之IT-Doc1.0网络版

产品功能:
管理器端
- 公文的高速批量扫描,并对扫描后的公文图像可以进行删除合并等功能调整。
- 公文的自动识别、并可以对识别结果进行校对、编辑和二次识别。
- 公文快速准确的保存
- 对公文信息进行修改删除
- 管理器端的用户权限管理
服务器
- 负责公文要素及公文图像信息的保存和提供
- 用户帐号信息的存储
- 公文数据、公文信息、的存储
- 提供从浏览器上进行访问的服务
浏览端
- 为用户提供对公文信息的各种定制的检索,显示检索结果。
- 标准的IE浏览器进行检索浏览
- 检索端用户的权限管理
应用领域:
系统要求:
- 服务器:Windows2000\NT\XP
- 数据库:SQLServer7.0
- 客户端:IE5.0以上
- 内存:128MB以上
- 硬盘:2.0G以上
- CPU:奔腾Ⅱ233MHZ以上
IT-Doc公文高速录之IT-Doc2.0单机版

产品功能:
- 公文的高速批量扫描,并对扫描后的公文图像可以进行删除合并等功能调整。
- 公文的自动识别、并可以对识别结果进行校对和编辑和二次识别。
- 公文以PDF形式保存
- 快速准确的检索查询
应用领域:
系统要求:
- 操作系统:WIN98/2000/XP
- 内存:128MB以上
- 硬盘:2.0G以上
- CPU:奔腾Ⅱ233MHZ以上

功能:
- 公文的高速批量扫描,并对扫描后的公文图像可以进行删除合并等功能调整。
- 公文的自动识别、并可以对识别结果进行校对和编辑和二次识别。
- 公文以PDF形式保存
- 生成标准的XML格式文件
- 与OA开发商进行良好嵌入
应用领域:
系统要求:
- 操作系统:WIN98/2000/XP
- 内存:128MB以上
- 硬盘:2.0G以上
- CPU:奔腾Ⅱ233MHZ以上
IT-Scan 图档易扫通
IT-Scan是纸介质进行电子化加工的最佳工具,可以处理在扫描过程中遇到的所有问题,使您的工作得心应手、事半功倍。
IT-Scan针对高速扫描仪的设计
IT-Scan可以充分发挥高速扫描仪的速度优势。IT-Scan界面简洁明快,易用性强,提供丰富的快捷键操作,用户能在最短的时间内掌握IT-Scan的基本操作。
配合其独有的"批处理"、"图像自动修复"及"智能图像加工处理"等功能(如图像自动倾斜校正),从而大大提高了扫描及图像处理的效率。
IT-Scan针对文字识别的设计
IT-Scan独有的智能图像加工处理,可以提高文字识别的准确性和速度并可以及时将识别后的文字提供给不同的系统,用于企业内部网或互联网的检索。
产品特点:
- 简洁友善的操作界面
- 能配合多种文件扫描仪,支持TWAIN、ISIS接口
- 以最少的人工介入,实现最高效的录入速度
- 具备精简的文件管理功能,方便文件搜索与存储
- 独有的文件检索功能,用户可方便地从海量信息中找到所需文件
- 目前最有效的,可大幅度提高扫描仪效率,特别是提升高速扫描仪效率的专业化软件
产品功能:
1、全能扫描功能
- 双面扫描--支持单双面扫描
- 彩色扫描--支持各类模式的扫描,黑白、灰度或全彩色扫描
- 自动删除空白页--双面扫描时,自动删除不必要的空白页
- 同时扫描多份文件并自动分隔--能同时扫描多份文件,并可用一张空白页来自动分割每份文件
2、先进的图像显示
- 多功能版面显示--可以一版、二版、四版或八版同时显示
- 快速放大缩小显示--可放大缩小显示单版或多版图像
- 放大镜--以图像实物的三倍显示,让你一目了然
- 灰度显示--可使黑白图像显示达到最佳效果
3、图像增强
- 基本图像修改工具--插入、删除等功能
- 使图像更美观的智能功能
- 倾斜校正--在扫描过程中校正图像
- 断字修补--修补模糊或残缺的文字
- 清除杂点--清除页面阴影及杂点
- 反白--将黑底白字转化成白底黑字
- 智能剪裁--消除图像四周黑边
- 其余功能--删除线条及消声等
4、文件管理
- 图像格式--支持多种文档系统的图像格式,如单页及多页TIF、PDF及JPEG
- 自动保存功能--扫描大量文件,遇上关机或意外关机时,IT-Scan的自动保存功能,省去了用户再扫描文件的时间
- 灵活索引--通过OCR,将文章内容从文档图像提取出来作为索引
- 图像检索--通过图像中任意单词或词组,查阅已索引图像
- 文字识别--IT-Scan集成了清华紫光TH-OCR中文文字识别系统,可进行中英文识别,加上独特的图像加工及增强功能,大大提高文字的识别率。
运行环境:
- 操作系统:Windows 98\2000\NT\ME\XP
- 内存:128MB以上
- 硬盘:2.0G以上
- CPU:奔腾Ⅱ350MHZ以上
- 分辨率:1024×768以上

TH-OCR 2005 文通数据录入工厂
海量数据电子化首选 图书馆数据电子化必备
全方位实现与大型报社以及数据 加工企业的立体链结与无缝合作
【产品介绍】
TH-OCR2005文通数据录入工厂是在国家“863”计划、国家自然科学基金长期支持下,清华大学电子工程系智能图文信息处理研究室汉字识别研究工作的基础上开发完成的。它是清华技术在专业领域中应用的又一个典范。
TH-OCR2005文通数据录入工厂能够快速地将印刷的文档转化为可供阅读和可编辑的高质量电子文档,进而将电子文档应用到各类数据库、电子出版物、数字图书馆、网络资源等新型资源的建设或再版图书生产中。它是行业数字信息化不可或缺的重要组成部分。
海景科技有限公司作为一家拥有自主知识产权,以清华光学字符识别TH-OCR及手写识别两大核心技术为先导的独立软件开发商及行业解决方案提供商,一直致力于文字识别技术的发展依托清华大学强大的技术后盾,沉淀积累了卓越的识别技术,为我国信息化建设做出了巨大的贡献。
【主要功能模块】
识别模块
具有超强的识别核心.可以识别简、繁体汉字2万多,识别的语言包括中文简、繁体、英文、日文、韩文,自动版面分析能力大大增强.最大限度减少手工操作量。 |
 |
纵向校对模块
可以将成百上千张图像一起校对 将识别成同一个字的图像集中在一个窗口内,先标记错误,再自动与横校进行合并,后统一改正,校对工作量减少80%,错误率可控制在万分之三。 |
 |
版面恢复模块
通过版面恢复编辑器,可以将原始图像的所有信息恢复过来。比如:字体、颜色、花边等。 |
 |
PDF书签生成模块
可直接在程序中进行PDF书签设计,无需在Acrobat中生成,方便而快捷。 |
 |
导出RTF形式多样化
用户可以根据自己的需求对导出的RTF进行不同样式的设计。 |
 |
自动处理模块
可以实现图像文件到PDF文件的自动转换,生成的PDF文件能够实现全文检索,可以复制粘贴,也可以对某个指定目录进行长期监视,真正实现无人操作。 |
 |
生产流程网络管理模块
●专业的OCR流程管理 ●生产加工流程由软件控制
●用户管理 ●工作量统计
生产流程网络逻辑示意图

生产流程网络应用示意图

【典型应用】
图书馆
电力行业
出版社
报杜
政府机关
IT-Center 2005 数字文档管理系统

文通TH-OCR识别技术,资料电子信息化解决方案
(一)关于文通IT-CENTER数字文档管理系统
IT-CENTER数字文档管理系统是由海景科技有限公司提出的全新信息化管理概念,把数据录入和数据管理进行了完美的结合,形成了全新的电子信息化解决方案,把过去数据录入和数据管理脱节进行彻底的整合,不但融合文通TH-OCR的精髓,而且结合了全文检索的先进技术,是国内首家引入平台技术概念,基于微软.NET平台,给予客户一个真正属于客户自己的产品。
我们提出新的概念,客户无需精通计算机技术,只需懂得自己的业务,在我们已经提供的搭建好的系统结构平台中,使用IT-CENTER,如同打开盒子一样轻松!

(二)平台设计理念
IT-CENTER数字文档管理系统溶入了大量的智能化设计,所追求的目标就是要化繁为简、化难为易,把繁重数据录入工作和数据管理工作实现统一,将复杂的数据库开发变为简单的操作应用。
1、开放式的设计
IT-CENTER数字文档管理系统是国内唯一采用全开放式的设计思想,无须二次开发、无须第三方数据库支持、无须专业化的软件编程人员就可以直接应用的全文检索数据库系统。全开放式的体系结构使普通用户只需3、4天,就可以完成超大型网络数据库和Web数据库的建设、应用、设计和维护的全过程。数据库的开发应用将不再是软件编程人员的技术专用,而是使用者得心应手的工具。您将成为数据库应用的真正主人、最佳设计者。一切功能需求,只是在计算机的屏幕前点击鼠标就可以完成。数据库的应用变化与改进将不再受制于编程人员的修改,而是可以由使用者自己完成。IT-CENTER全文检索数据库将会成为各行各业可直接应用的最佳数据库平台。
2、智能化的设计
系统中字段内容智能提取功能可以避免数据规格化的二次加工,智能化分析功能使多种类型(txt、word、html、pdf、xml等)数据文件均可直接加载在同一库中、数据内容自动分类功能可随时改变分类导航、WEB数据库页面可自动生成。IT-CENTER数据库的智能化设计使数据库管理员摆脱了大量的系统维护工作,与同类数据库产品相比,系统维护和实施费用最少、建库速度最快、使用效率最高。
3、个性化的设计
IT-CENTER数字文档管理系统允许使用者作个性化的设计,系统启动封面可以被替换为其它类型的多媒体文件,数据库背景、内容显示格式、检索窗口和系统界面上的菜单均可由使用者根据需要进行个性化设计与修改。
4、实用化的设计
IT-CENTER数字文档管理系统中70%的功能均来自于广大用户提出的需求和建议。系统每年都在不断地吸收更多用户在实际应用中所提出的需求,来丰富、完善自身的功能设计。可以说IT-CENTER数字文档管理系统是实用性最强的数据库管理系统。它来自于用户,服务于用户,其简洁、明了的使用风格与丰富、强大的实用功能,充分体现了整个系统实用化的设计思想。
5、综合性的设计
IT-CENTER数字文档管理系统的技术核心为独特的全文检索技术,在此基础上还综合了图像转换技术、数据压缩技术、OCR汉字识别技术、高速扫描仪接口、宏调用技术,数据库接口等。整个系统完全采用组件化设计,并提供高效、稳定的开发接口,便于外部程序调用IT-CENTER的功能,做到外部程序与系统之间的无缝连接。系统内部也使用组件化的插件技术,以最灵活的方式支持对所有外部程序的功能调用,做到系统与其它数据库产品和应用软件融为一体,并允许随时扩充新的功能,在整合系统现有资源方面有最佳的表现。
(三)平台核心技术描述
IT-CENTER数字文档管理系统采用的以字为单位的无序散列表索引技术和文字信息相位描述数据结构的先进方法,使该技术对海量文字的自由字词检索速度达到亚秒级,比传统的分词索引技术的检索速度提高了十几倍。克服了分词索引技术不可避免的由于分词错误而造成的漏查现象,其查全率达到了100%。原始数据完成索引后的膨胀系数为1:1.1,比分词索引节省了更多的空间,其索引速度比分词索引速度提高数倍。同时,其在查准率及智能检索等方面也都比分词索引技术更胜一筹。经过多年的实践证明,该技术已在中文全文检索技术领域达到国内先进水平。
(四)平台技术特点
1、数据自动录入
为了减少客户数据录入时的繁冗流程,降低工作量,基于文通TH-OCR核心技术,我们实现TIFF到PDF的自动转换,客户摆脱了数据录入的繁重劳动量,双层PDF可以在PDF图像文件上进行文字复制应用,客户很轻松实现标引,数据自动录入,大大提高客户工作效率!
2、网络数据安全传输
为了保障库文件数据在网络传输过程中的安全,系统不仅对库文内容的传送数据包进行了数据的安全置换,而且对客户端所发出的检索词句和操作命令也都进行了数据安全传输处理,保证了网络传输中无任何字词信息的泄漏。
3、库文件数据安全存储
为了防止黑客透过网络协议和操作系统的漏洞入侵到数据库中直接获取库文数据,系统对存入磁盘中的库文件数据及其它索引文件都采取了严密的多级安全防范措施,确保数据内容的安全存储。
4、海量数据秒级检索
一般的安全系统都会因为增加了数据安全处理后,导致应用系统运行效率的成倍降低,尤其是当数据库的数据达到一定量时,系统的检索速度会变得很慢。为了克服这一问题,系统采用了独特的数据结构,大大提高了对数据置换操作的速度,使运行效率无明显下降,对海量加密库文件的全文检索仍保持在秒级,同时也大大提高了系统自身的安全可靠性。
5、实时在线全透明操作
IT-CENTER数字文档管理系统C/S全文检索数据库的安全系统是采用底层嵌入的方法实现其系统的安全保障。因此,对使用者来说全部操作完全透明,在网上可以对库文件数据进行实时在线操作,而无需再进行其它特殊的设置,操作使用与通用版完全相同,并且还可以随着通用系统的更新而升级换代。
库文件安全型网络全文检索系统,可以为您的重要文档数据在网络的安全应用保驾护航,让您的重要文档数据也同普通文件数据一样能在网上实现在线应用,全面提升电子网络办公自动化和文档管理的应用水平。该系统可以广泛适用于各级政府机构、党政机关、部队等现代化的电子网络应用平台。
6、平台级产品
IT-CENTER数字文档管理系统采用.NET平台技术,采用业务描述语言,基于XML标准通讯协议,实现远程数据录入,及时、安全上传数据;平台提供已经搭建好的架构,客户在获得IT-CENTER,即可以马上投入使用,自己在平台上搭建自己的数据库,自定义自己的字段,以及相关的使用界面。
(五)平台功能介绍
1、支持所见即所得,一体化的应用界面。
2、支持集中式、分布式双重网络应用方式。
3、支持综合性的多种数据库模式的应用。
4、支持宽窗口多行逻辑检索式。
5、支持txt、word、pdf、html、xml多格式文件混合直接建库。
6、支持结构化、半结构化、无结构化、多媒体数据的统一建库管理
7、支持数据库字段内容自动提取。
8、支持原始稿件的批量高速扫描、数据压缩,pdf等格式的批量转换。
9、支持图像文件的快速建库。
10、支持用户对导航、录入界面、内容显示模板、界面命令按钮的增减修改。
11、支持实时数据更新。
12、支持同一个数据库不同录入界面并发的数据更新录入。
13、支持MicrosoftOffice的数据格式发送和结果输出。
14、支持各种统计报表格式的打印输出。
15、支持库与库中的数据交换。
16、支持系统封面的挂接、检索窗口的设计、内容显示模板修改等。
17、支持web页面的自动生成。
18、支持逻辑打包库(将多个同结构的物理库合成一个逻辑大库)。
19、支持大型全文检索数据库内容的实时更新。
20、支持多服务器不同内容数据库并行检索。
21、支持分布式服务器群集,创建跨地域的大型数据库。
22、支持密级权限管理。
23、支持密码机接口,实现数据库内容的密态存储、实时在线密态检索。
(六)平台网络应用示意图

(七)IT-CENTER数字文档管理系统应用介绍
首创“原稿原样”全文检索新技术
(扫描图像文件、直接入库、全文检索、原版面显示、定位到页、检索词标红、文字裁剪)
在各单位各部门的信息化資源的建设中,普遍会需要将现有的纸介质印刷品资料报纸数字化,以便通过计算机实现电子文档的网络阅读、远程查询、快速检索、内容摘录等应用。
如何以最低的成本、最高的效率、高质量地快速建立电子信息库,是我公司IT-CENTER全文检索数据库系列产品所能够解决的问题,也是我公司长期以来所追求的目标。近期我公司推出的IT-CENTER数字文档管理系统中提供了一套全新的解决方案,采用该方案,可以使客户在三天内学会大型电子全文检索数据库的建立,并能快速简便地将纸介质印刷品资料转化为具有全文检索功能的电子图书库和文档资料库,实现网络上的全方位应用。
报纸电子化
公文电子化
全文检索技术实现>电子化全面解决方案:档案电子化
报刊电子化
杂志电子化
政府机关、各大企事业单位、各类资料档案馆、报社、军队、社会团体、各行业设计院等
方案特点:
※采用前后台双重处理技术,后台对文本实现全文检索,前台100%原件重现。
※亚秒级的全文检索速度,海量级的数据库容量。
※检索结果可命中到页,并在页面上用红色标出检索词。
※在显示的原版图像页面上,可以像文本一样复制裁剪出文本内容。
※从扫描到数据入库,全程实现批处理自动化。
※操作简便灵活,二天学会数据库的建设、文件扫描、数据加载入库等全程操作。
(八)平台配置要求
◆操作系统:客户端Windows2000/NT/XP/2003
◆服务器端Windows2000/XP/IIS服务器/消息队列
◆内存:128MB以上
◆硬盘:2.0G以上
◆CPU:奔腾Ⅱ233MHZ以上