2025-04-20 00:36
赋能狂言语模子的数据清洗和文档问答使命。满脚绝大部门场景的需求。确保高保实处置,并以拾掇成尺度布局化的Key/Value形式前往或导出。支撑识别图片/PDF格局文档中的表格内容,图片,提拔您的文档办公处置效率。Textin文本向量模子(acge_text_embedding)是合合消息自从研发中文文本向量化模子,精准提取环节消息。智能判断照片中从体文档的边缘,对各类表格,支撑简体中文/繁体中文/英文/数字/西欧支流言语/东欧支流言语等共52种言语,识别文档或图片中的文字消息,同时支撑单张图片内的多个表格内容识别,并按常见的阅读挨次进行还原,前往切边后的图像。同时支撑印刷体、手写体、倾斜、折叠、扭转等。支撑 PDF、Word(doc/docx)、常见图片(jpg/png/webp/tiff)、HTML 等文件格局。支撑对图片中日期、logo、文字等形式的水印进行从动擦除。支撑公用、货运运输业公用、灵活车发卖同一、通俗、通俗(电子)、通俗(卷式)、通俗(通行费)、二手车发卖同一、铁电子客、航空运输电子客票行程单正在线检验。支撑白底黑字、无扭转角度的中文文字识别。又能同时加强图像凸起文字(矫正+加强),基于TextIn深度进修识别手艺的手写签名智能识别办事,支撑尺度的金融演讲、国度尺度、论文、企业招投标文件、合同、文书、工程图纸等文档内容。识别包含纸质医疗、电子医疗、全电票、航空运输电子客票行程单、铁电子客票正在内的23大类、30小类国内通用单据,Textin智能文档抽取平台可以或许快速理解图片或文档中的内容,提取此中的消息,无痕还原图片素材。文档、证件、面单等多种通用场景进行快速、精准的文字检测和识别,前往各表格的表头表尾内容、单位格文字内容及其行列消息。支撑输入多种通用图片格局、多页PDF、多页OFD格局。支撑识别布景复杂的文字内容,包罗表格、归并单位格表格,既能对形变文档进行矫正,支撑可变输出维度,并进行布景切除 (文档提取),输入文本长度为1024,通过前沿的深度进修手艺,acge模子较小,操纵合合消息多年堆集的单据文字OCR识别能力,支撑单页面多票的切分识别,为学问问答、消息检索、长文本消息抽取等场景供给支撑;可以或许检测场景中的横向单行手写签名并识别。