首页 - 技术栈

中山市建设局网站窗口电话号码网络销售渠道有哪些

作者: 五速梦信息网
时间: 2026年06月19日 03:52

当前位置：首页 > news >正文

中山市建设局网站窗口电话号码,网络销售渠道有哪些,wordpress变成中文,大型网站技术架构全网最新免费开源的ocr文字识别开源项目盘点整理#xff0c;附项目开源地址#xff0c;支持离线部署使用#xff0c;支持多种语言识别和API调用以及第三方集成#xff0c;支持各种证件、发票、通用模型识别#xff0c;支持复杂文本、各种图片、文档、长文本等。 OCR#…全网最新免费开源的ocr文字识别开源项目盘点整理附项目开源地址支持离线部署使用支持多种语言识别和API调用以及第三方集成支持各种证件、发票、通用模型识别支持复杂文本、各种图片、文档、长文本等。 OCROptical Character Recognition光学字符识别技术能够将图像中的文字转换为可编辑的文本格式这一技术在多个领域有着广泛的应用。以下是OCR技术的一些主要应用场景以及几个流行的开源项目和它们的特点应用场景证件识别用于金融、银行、保险等行业自动识别身份证、护照、驾驶证等证件信息。银行卡识别在移动支付绑卡等场景中自动识别银行卡号提升用户体验。车牌识别在移动警务、停车场管理等场景中自动识别车牌号码和车辆特征信息。名片识别在CRM客户管理系统中自动识别名片内容便于信息管理。营业执照识别自动识别营业执照信息如统一社会信用代码、公司名称等。汽车VIN码识别在汽车管理、二手车交易等领域自动识别车架号。票据类OCR识别自动识别增值税发票等票据内容用于财务管理等。文档文字OCR识别在图书馆、报社等机构将纸质文档电子化。开源项目及特点 Paddle OCR 特点轻量级模型执行速度快支持中英文识别支持倾斜、竖排文字识别可通过PaddleHub直接使用或训练自己的模型。 CnOCR 特点轻量级模型执行速度快支持简体中文、繁体中文、英文和数字识别自带多个训练好的模型支持训练自己的模型。 chinese_lite OCR 特点超轻量级中文OCR支持竖排文字识别模型大小仅4.7M执行速度快。 EasyOCR 特点支持80多种语言的OCR能够读取自然场景文本和文档中的密集文本。 Tesseract OCR 特点老牌开源OCR引擎支持多种操作系统支持补充训练但安装使用较为困难。 chineseocr 特点基于YOLO3与CRNN实现中文自然场景文字检测及识别支持多方向文字检测适用于树莓派等设备。 ChineseOCR 特点专注于汉字识别适用于复杂背景和手写字体基于TensorFlow构建提供预训练模型和数据增强技术。腾讯云OCR 特点基于深度学习技术支持多种文字识别提供多种编程语言的SDK和API。百度AI开放平台OCR 特点支持多种通用场景和20种语言的高精度文字检测和识别提供离线SDK和私有化部署选项。阿里云OCR 特点支持通用文字识别、卡证识别、票据识别等提供公有云服务、离线识别SDK和私有化部署。
这些开源项目和商业服务展示了OCR技术在不断进步和扩展应用范围从简单的文本识别到复杂场景的多语言、多方向和多格式的识别OCR技术正变得越来越强大和易于使用。随着科技的发展OCR场景随处可见很多APP也集成如身份证识别银行卡识别的功能包括微信都支持截图文件中的文字提取。现在各大厂商均有提供各种场景的OCR识别的API。但是有时候我们也想自己来折腾一下。这时候就可以借助一些主流开源框架来快速达到我们的目的。 OCR引擎 tesseract Tesseract一款由HP实验室开发由Google维护的开源OCR引擎开源免费支持多语言多平台; https://github.com/tesseract-ocr/tesseract.git tesseract.js js版本的Tesseract OCR,支持一百多种语言,使用也是非常简单可以用npm安装也可以直接在页面引用js https://github.com/naptha/tesseract.js.git PaddleOCR PaddleOCR是百度开源一套OCR,旨在打造一套丰富、领先、且实用的OCR工具库助力开发者训练出更好的模型并应用落地。 https://github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR识别库用于图像识别输出文本目前支持80多种语言。 https://github.com/JaidedAI/EasyOCR.git mmocr MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱专注于文本检测文本识别以及相应的下游任务如关键信息提取。 https://github.com/open-mmlab/mmocr.git simple-ocr-opencv 基于opencv 和numpy开源的OCR识别引擎 https://github.com/goncalopp/simple-ocr-opencv.git OCR工具 OCRmyPDF OCRmyPDF是基于tesseract-ocr开发、训练的文字识别提取的开源项目 https://github.com/ocrmypdf/OCRmyPDF.git Umi-OCR 基于 PaddleOCR 实现的一款开源的文字识别工具一般开源项目识别率肯定没有商用的那么高只有通过训练自己的字库来提高识别率。文字识别场景有时候就会涉及到图片处理这里又会关联到其它强大的图像处理开源项目如OpenCV。这些项目中PaddleOCR相对来说会更符合我们常见的业务场景也支持我们自己去训练。 OCR光学字符识别是一种将图像中的文字自动转换为可编辑文本的技术。现在各大厂商均有提供各种场景的OCR识别的API。但是也有一些开源的OCR框架和工具可以支持自我定制和训练使得开发人员能够更加灵活地应对不同场景下的OCR需求。一、OCR开源工具的优点使用OCR开源工具可以使文本识别更加自动化、高效化和准确化从而为各种应用场景带来了便利性和实用性。相对于商业OCR软件开源OCR工具有以下优势免费使用没有商业软件的版权和授权限制开源OCR工具提供的功能都可以免费使用。开放源代码源代码公开可以根据需要对其进行修改和定制化。灵活可扩展可以根据实际需要选择不同的工具并且这些工具在不同式样和领域都有应用实践具有普遍性和可扩展性。二、八大常见的OCR开源工具 1.Tesseract Tesseract是一款由Google维护的开源OCR引擎开源、免费、支持多语言、多平台。它可以处理很多类型的图像并且还支持多种字体和文本布局。 2.Tesseract.js Tesseract.js是一个JavaScript版本的Tesseract OCR支持100多种语言使用也非常简单可以使用npm安装也可以直接在页面中引用js。因为是基于JavaScript运行因此无需进行任何额外的配置。 3.PaddleOCR PaddleOCR是百度开源的一套OCR库旨在打造一套丰富、领先、实用的OCR工具库助力开发者训练出更好的模型并应用落地。PaddleOCR包括文本检测模型和文本识别模型两个部分支持多种语言和复杂情况下的文字识别。 4.EasyOCR EasyOCR是基于Tesseract OCR引擎的OCR识别库用于图像识别输出文本目前支持80多种语言。此外EasyOCR还具有更好的文本排列和字检测准确度并且易于使用和快速部署。 5.MMOCR MMOCR是基于PyTorch和MMDetection的开源工具箱专注于文本检测、文本识别以及相应的下游任务如关键信息提取。它在各种场景下都具有出色的性能可以满足复杂场景下的OCR需求。 6.simple-ocr-opencv simple-ocr-opencv是基于OpenCV和Numpy的OCR识别引擎。它提供了一种简单但可靠的方法来处理常见的OCR任务可以轻松地集成到您的Python工程中。 7.OCRmyPDF OCRmyPDF是基于Tesseract-OCR开发、训练的文字识别提取的开源项目。它可以将扫描或图像文件中的文本转换为可编辑的PDF文档。 8.Umi-OCR Umi-OCR是基于PaddleOCR实现的一款开源的文字识别工具。它可以快速为您生成高质量的OCR模型并提供简单易用的API支持多种语言和文件格式。它特别适用于需要进行自定义训练的OCR应用程序。三、八大OCR开源工具基本使用命令 1.Tesseract 官方地址https://github.com/tesseract-ocr/tesseract git clone https://github.com/tesseract-ocr/tesseract.gitcd tesseract./autogen.sh./configuremakesudomake install 2.Tesseract.js 官方地址https://github.com/naptha/tesseract.js import Tesseract from tesseract.js;Tesseract.recognize(/path/to/image.png).then(function(result){console.log(result.text);}) 3.PaddleOCR 官方地址https://github.com/PaddlePaddle/PaddleOCR pip install paddleocr 使用示例 import paddleocr# 初始化识别器ocr paddleocr.OCR()# 读取图像文件img_path /path/to/image.pngimg paddleocr.read_image(img_path)# 进行OCR识别result ocr.ocr(img)# 输出识别结果for line in result:print(line) 4.EasyOCR 官方地址https://github.com/JaidedAI/EasyOCR pip install easyocr 使用示例 import easyocr#初始化OCR识别器reader easyocr.Reader([en, ch])#读取图像文件img_path /path/to/image.pngimg easyocr.imgproc.read(img_path)#进行OCR识别result reader.readtext(img)#输出识别结果for line in result:print(line) 5.MMOCR 官方地址https://github.com/open-mmlab/mmocr pip install mmocr 使用示例 import mmocr# 初始化OCR识别器pipeline mmocr.Pipeline(cnotallowconfigs/textrecog/detector/tp_det_mv3_db.yml)# 读取图像文件img_path /path/to/image.pngimg mmcv.imread(img_path)# 进行OCR识别result pipeline(img)# 输出识别结果for line in result:print(line[text]) 6.simple-ocr-opencv 官方地址https://github.com/goncalopp/simple-ocr-opencv pip install simple-ocr-opencv 使用示例 import cv2from simple_ocr import OCR# 初始化OCR识别器ocr OCR()# 读取图像文件img_path /path/to/image.pngimg cv2.imread(img_path)# 进行OCR识别result ocr.ocr(img)# 输出识别结果print(result) 7.OCRmyPDF 官方地址https://github.com/ocrmypdf/OCRmyPDF pip install ocrmypdf 使用示例 ocrmypdf /path/to/input.pdf /path/to/output.pdf 8.Umi-OCR 官方地址https://github.com/umi-lib/UMI-OCR pip install umi-ocr 使用示例 import umi_ocr# 初始化识别器ocr umi_ocr.OCR()# 读取图像文件img_path /path/to/image.pngimg umi_ocr.read_image(img_path)# 进行OCR识别result ocr.ocr(img)# 输出识别结果print(result) 四、OCR实际应用场景在本文中我们介绍了八种常见的开源OCR框架和工具包括Tesseract、Tesseract.js、PaddleOCR、EasyOCR、MMOCR、simple-ocr-opencv、OCRmyPDF和Umi-OCR。这些工具具有不同的特点和优势可以根据实际需要进行选择。下面列出了这些工具的一些实际应用场景 Tesseract广泛应用于图像识别和文本转换领域如扫描仪、数字化文档等。 Tesseract.js用于网页端OCR识别可实现将图像中的文字转为可编辑文本适用于在线编辑器、智能表单、在线阅读器等应用场景。 PaddleOCR适用于复杂文本场景下的OCR识别比如身份证、银行卡、车牌等。 EasyOCR适用于文本排列和字检测准确度要求较高的 OCR 应用场景如名片识别、发票识别、商品标签识别等。 MMOCR适用于中英文混合、竖排文字、非结构化场景下的OCR识别如手写字、表格、小说等。 simple-ocr-opencv适用于处理常见的OCR任务如身份证、营业执照、车牌等。 OCRmyPDF将扫描或图像文件中的文本转换为可编辑的PDF文档适用于需要编辑PDF文档的场景。 Umi-OCR可以帮助用户快速生成高质量的OCR模型并支持多种语言和文件格式。适用于需要自定义训练的OCR应用程序。五、OCR技术国内应用情况 OCR技术在信创领域中应用广泛主要包括文字识别、表格识别、印刷体识别以及各种证件的识别。随着各种开源OCR工具的出现和不断完善OCR技术得到了广泛应用国内OCR技术也已相对成熟并且得到广泛应用。常见的厂商有图鼎科技、中标信息、神州数码、讯飞OCR等互联网公司如阿里云、腾讯云也推出了自己的OCR技术产品。这些OCR技术可以应用于各个领域例如电子商务在订单处理、发票管理、商品识别等方面的应用提高效率和准确性。金融服务在银行卡、身份证、证券账户等领域的识别可以提高客户体验降低工作量和出错率。医疗健康在病历管理、药品监管、个人隐私信息保护等方面的应用也十分重要。除此之外OCR技术还可以用于政务管理、教育、交通运输、安防等各个领域。应用范围广泛具有广阔的市场前景。当然OCR技术也存在一些缺陷。例如一些手写文字识别的准确性尚待提高。在复杂环境下、格式多样化的文档处理中OCR技术也可能出现误识别等问题。此外OCR技术也需要不断地优化和改进以适应新场景的需求并提高产品质量。总体来说OCR技术在信创领域中将会越来越重要并且其应用也会不断扩展和深化。各家厂商可以通过技术创新、算法优化、运营推广等方面提高产品性能和竞争力为用户带来更好的体验和服务。综上所述OCR技术作为一项重要的人工智能技术已经得到了广泛的应用并且将会越来越重要。通过使用开源的OCR框架和工具开发者可以更灵活地构建高质量的OCR应用程序实现更多实际的场景应用。最后推荐一款开源应用开发神器关于目前低代码在技术领域很活跃低代码是什么一组数字技术工具平台能基于图形化拖拽、参数化配置等更为高效的方式实现快速构建、数据编排、连接生态、中台服务等。通过少量代码或不用代码实现数字化转型中的场景应用创新。它能缓解甚至解决庞大的市场需求与传统的开发生产力引发的供需关系矛盾问题是数字化转型过程中降本增效趋势下的产物。这边介绍一款好用的低代码平台——JNPF快速开发平台。近年在市场表现和产品竞争力方面表现较为突出采用的是最新主流前后分离框架SpringBootMybatis-plusAnt-DesignVue3。代码生成器依赖性低灵活的扩展能力可灵活实现二次开发。以JNPF为代表的企业级低代码平台为了支撑更高技术要求的应用开发从数据库建模、Web API构建到页面设计与传统软件开发几乎没有差异只是通过低代码可视化模式减少了构建“增删改查”功能的重复劳动还没有了解过低代码的伙伴可以尝试了解一下。应用体验入口https://www.jnpfsoft.com/?csdn 有了它开发人员在开发过程中就可以轻松上手充分利用传统开发模式下积累的经验。所以低代码平台对于程序员来说有着很大帮助。十二款开源OCR开箱测评文字识别哪家强 OCROptical Character Recognition光学字符识别作为信息爆炸时代的“炼金术士”以其高效且相对精确的性能在海量纸质文档、扫描件、图片的文字信息提取方面发挥着举足轻重的作用。其广泛应用于教育、医疗、交通等多个行业领域其重要性不言而喻。然而目前开源OCR工具种类繁多不同场景图像的识别效果却参差不齐这给开发人员的选型工作带来了不小的挑战。为了尽可能全面测试OCR工具的识别能力本次测评精心挑选了12款开源OCR工具在五类不同数据集上进行横向评比以期为用户提供更为准确、客观的选型参考。开源OCR介绍与评测系列共分为三篇本文为文字识别能力篇评测开源OCR基本的文字识别能力包括印刷中文、印刷英文、手写中文等三类基本类型以及复杂自然场景和变形字体两类附加测评第二篇为结构信息能力篇对表格、票证等结构化信息的OCR能力进行测评第三篇为OCR Free评测篇评测开源多模态大模型对图片信息的提取和分析能力。本次开源OCR文字识别能力测评选取了12款OCR工具其中独立工具有PaddleOCR、RapidOCR、读光开源版、ChineseOCR、EasyOCR、Tesseract、OcrLiteOnnx、Surya、docTR、JavaOCR文档分析OCR组件RagFlow、Unstructured。备注本次测评均使用OCR工具自身提供的预训练模型进行测试测试均采用工具的示例中提供的参数设置。除开源工具以外选取百度OCR云服务测试结果作为参照。各OCR工具的测试版本如下 PaddleOCR V2.7.5 读光OCR DocTR V0.7.1 Tesseract V5.3.4 ChineseOCR OcrLiteOnnx V1.6.1 RapidOCR V1.3.22 JavaOCR V1.0 EasyOCR V1.7.0 RAGflow V0.7.0 Unstructured V0.14.0 Surya V0.4.9 百度OCR V2.0 为了全面评测OCR工具各种场景下的识别和解析能力本次测评收集整理了多种类型文字识别的图片数据包括印刷中英文、自然场景、手写文字和验证码等方面数据集具体文字识别数据集分类如下文字识别能力主要评测OCR工具对文字的检测和识别能力包括支持识别的字符集规模生僻字字体形变字体、艺术字图像旋转、形变、干扰信息、明暗、模糊等外部因素影响。备注文字识别能力只考察是否正确识别出字符不考察文字结构信息即输出结果的文字顺序。其中中文统计粒度为字英文为单词区分大小写中英文标点符号相互区别。字符识别准确率Precision正确识别的字符数/识别输出总字符数字符识别召回率Recall正确识别的字符数/验证集总字符数字符识别综合评分F-Score2PrecisionRecall/(PrecisionRecal) 平均响应时间基准样本识别总时间/样本数量。测评结果 1印刷中文的综合测评结果为 2印刷英文的综合测评结果为 3变形字体的艺术字测评结果为 4自然场景的街景图片测评结果为 5手写中文的综合测评结果为印刷中文识别准确度测试中综合前三分别是RapidOCR、RagFlow和Surya。在印刷英文识别准确度测试环节综合前三分别是Surya、Unstructured和读光OCR还是国外开源软件领先。在各种变形字体艺术字、验证码等非标准字体场景下由于本次测评仅采用各OCR工具自身提供的预训练模型进行测试识别准确度均较低如需提高变形字体的准确率需要针对变形字体进行专项训练。在复杂多行文字的街景场景中前三名分别是RagFlow、RapidOCR和PaddleOCR它们的综合评分相当接近均略高于70%。在手写中文识别场景下综合前三分别是RapidOCR、ChineseOCR和RagFlow。在响应时间方面表现优异的有OcrLiteOnnx0.01秒级、RagFlow0.1秒级响应非常快。另外ChineseOCR、EasyOCR和RapidOCR表现也不错平均时间小于1秒。随着大语言模型的快速发展和应用我们对OCR识别的需求不再局限于字的识别对于结构化信息抽取的需求越来越大。我们将在下一篇将对开源OCR工具的结构分析能力进行评测。同时针对OCR Free类的大模型如TextMoneky、DocPedia、UReader、Pix2struct、Donut以及国内研究的InterVL等我们计划开展一次OCR Free类评测敬请期待。最近百度飞桨团队推出了一款基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR。它结合了OCR文字识别和文心一言大语言模型可以在多种场景下提取图像中的关键信息效果非常惊艳。而传统的OCR识别技术的准确率容易受到多种因素影响例如图像质量、字符布局、字体样式等。但当我们将OCR技术与大语言模型相结合时可以避免繁杂的规则后处理提升泛化能力从而能够更智能、准确地理解和利用文本信息。官方说明这里以手机app截图为例定制化提取其中的感兴趣信息。实现OCR模型提取文字信息输入LLM分析其识别结果直接给出所关注的关键信息——这就是ChatOCR的核心思想。技术方案文字识别模型PP-OCRv4 LLM百度“文心一言” 开发环境Python 3.10 PaddlePaddle深度学习框架存在的问题及解决思路 LLM无法100%准确地判别图像所属的场景使用官方给出的思路即给出场景列表让大模型识别OCR结果属于哪个场景然后将其作为key去提前写好的few-shot例子中找到对应场景下的信息抽取结果来指导LLM然后LLM再根据用户提供的关键信息项和OCR结果得到最终的结果。而这种方式依赖于LLM能准确无误的将OCR结果对应到给定列表中的某一个场景若OCR结果不属于给定场景列表中的任何一个或者将其错误的归于其他场景都会导致关键信息提取失败前者会使程序报错而后者可能导致不正确的信息提取结果。实测非卡证场景识别不稳定解决思路取消场景识别这一步骤直接输入相关例子让LLM学习大量场景例子无法一次性喂入LLM LLM学习的例子太多token数量的增加会导致成本的上升和推理时间的增加。 ———超过一次输入问题的2000字数限制解决思路构建多轮对话逐次学习例子 LLM的记忆遗忘多轮对话中bot的回应需要自己写这个上下文信息会影响到后续的推理结果。对话轮数例子越多LLM对前文的记忆越弱导致忘记任务要求。解决思路in-context learning prompt工程替换文心一言参考链接https://aistudio.baidu.com/projectdetail/6629280 LangChain 一个基于LLM来开发应用程序的框架提供Chain接口来继承各种LLM相关模块。可以读取结构化或非结构化数据然后用LLM来进行信息摘要或信息提取。高度集成化支持众多模型和工具。大型多模态模型Large Multimodal Model, LMM 直接使用目前的SOTA LMM来在业务场景下的OCR图片集上fine-tune然后进行OCR-VQA或者关键信息提取。论文On the Hidden Mystery of OCR in Large Multimodal Models, Arxiv 2023. 文章在多个Text及OCR benchmark上测试了目前的LMMs的Zero-Shot迁移性能给出了利用LMM提升OCR识别性能的思路。开源大模型汇总以下仅列出主要的、关键的、常用的大模型。 LLaMA —— Meta 大语言模型 LLaMA 语言模型全称为 “Large Language Model Meta AI”是 Meta 的全新大型语言模型LLM这是一个模型系列根据参数规模进行了划分分为 70 亿、130 亿、330 亿和 650 亿参数不等。其中 LaMA-13B130 亿参数的模型尽管模型参数相比 OpenAI 的 GPT-31750 亿参数要少了十几倍但在性能上反而可以超过 GPT-3 模型。更小的模型也意味着开发者可以在 PC 甚至是智能手机等设备上本地运行类 ChatGPT 这样的 AI 助手无需依赖数据中心这样的大规模设施。 Stanford Alpaca —— 指令调优的 LLaMA 模型 Stanford Alpaca是一个指令调优的 LLaMA 模型从 Meta 的大语言模型 LLaMA 7B 微调而来。 Stanford Alpaca 让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循instruction-following样本以此作为 Alpaca 的训练数据。在测试中Alpaca 的很多行为表现都与 text-davinci-003 类似且只有 7B 参数的轻量级模型 Alpaca 性能可与 GPT-3.5 这样的超大规模语言模型性能媲美。 Lit-LLaMA —— 基于 nanoGPT 的语言模型 Lit-LLaMA 是一个基于 nanoGPT 的 LLaMA 语言模型的实现支持量化、LoRA 微调、预训练、flash attention、LLaMA-Adapter 微调、Int8 和 GPTQ 4bit 量化。主要特点单一文件实现没有样板代码在消费者硬件上或大规模运行在数值上等同于原始模型。 Lit-LLaMA认为人工智能应该完全开源并成为集体知识的一部分。但原始的 LLaMA 代码采用 GPL 许可证这意味着使用它的任何项目也必须在 GPL 下发布。这 “污染” 了其他代码阻止了与生态系统的集成。Lit-LLaMA使用Apache 2.0协议永久性地解决了这个问题。 GPT4All —— 基于 LLaMA 的大语言模型 GPT4All是基于 LLaMa 的800k GPT-3.5-Turbo Generations 训练出来的助手式大型语言模型这个模型接受了大量干净的助手数据的训练包括代码、故事和对话提供的模型性能接近text-davinci-003。给出了多平台的桌面版应用可以在本地的CPU上运行。同时提供Python的API可以在本地自己调用下载好的模型完成问答。 Chinese-LLaMA 1、Chinese-LLaMA-Alpaca 在Apache-2.0协议下开源了中文LLaMA模型和指令精调的Alpaca大模型以进一步促进大模型在中文NLP社区的开放研究。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练进一步提升了中文基础语义理解能力。同时中文Alpaca模型进一步使用了中文指令数据进行精调显著提升了模型对指令的理解和执行能力。文档全面支持本地推理部署还在持续更新。 2、Chinese-Vicuna —— 一个中文低资源的LLaMAlora方案 A Chinese Instruction-following LLaMA-based Model。项目目的是希望基于LLaMAinstruction数据构建一个中文的羊驼模型并帮助大家能快速学会使用引入自己的数据并训练出属于自己的小羊驼Vicuna。方案的优势是参数高效显卡友好部署简易在一张2080Ti11G上可以对Llama-7B进行指令微调 (7b-instruct) 在一张309024G上可以对Llama-13B进行指令微调 (13b-instruct) 即使是长度为2048的对话在3090上也可以完成Llama-7B的微调使用5万条数据即可有不错效果 (chatv1) 领域微调的例子医学问答和法律问答。(medical and legal) 支持qlora-4bit使用4bit可以在2080Ti上完成13B的训练可在2080Ti/3090上轻松部署支持多卡同时推理可进一步降低显存占用项目包括 finetune模型的代码推理的代码仅使用CPU推理的代码 (使用C) 下载/转换/量化Facebook llama.ckpt的工具其他应用详细文档 3、伶荔 (Linly) —— 大规模中文语言模型深圳大学与腾讯AI Lab推出。相比已有的中文开源模型伶荔模型具有以下优势在 32*A100 GPU 上训练了不同量级和功能的中文模型对模型充分训练并提供强大的 baseline。据知33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。公开所有训练数据、代码、参数细节以及实验结果确保项目的可复现性用户可以选择合适的资源直接用于自己的流程中。项目具有高兼容性和易用性提供可用于 CUDA 和 CPU 的量化推理框架并支持 Huggingface 格式。目前公开可用的模型有 Linly-Chinese-LLaMA-2 (7B、13B) 模型使用 LLaMA2 扩充中文词表在混合语料上进行增量预训练模型仍在迭代中将定期更新模型权重。 Linly-Chinese-Falcon7B Chinese-Falcon 模型在 Falcon 基础上扩充中文词表在中英文数据上增量预训练。模型以 Apache License 2.0 协议开源支持商业用途。 Linly-Chinese-LLaMA中文基础模型基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力现已开放 7B、13B 和 33B 量级65B 正在训练中。 Linly-ChatFlow中文对话模型在 400 万指令数据集合上对中文基础模型指令精调现已开放 7B、13B 对话模型。 Linly-ChatFlow-int4 ChatFlow 4-bit 量化版本用于在 CPU 上部署模型推理。 GLM —— 用于自然语言理解和生成的通用预训练框架 GLM (General Language Model)是清华大学推出的一种使用自回归填空目标进行预训练的通用语言模型可以针对各种自然语言理解和生成任务进行微调。 GLM 通过添加 2D 位置编码并允许以任意顺序预测跨度来改进空白填充预训练从而在 NLU 任务上获得优于 BERT 和 T5 的性能。同时GLM 可以通过改变空白的数量和长度对不同类型的任务进行预训练。在横跨 NLU、条件和无条件生成的广泛任务上GLM 在给定相同的模型大小和数据的情况下优于 BERT、T5 和 GPT并从单一的预训练模型中获得了 1.25 倍 BERT Large 参数的最佳性能表明其对不同下游任务的通用性。关于 GLM 的详细描述可参考论文 GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022) ChatGLM-6B 就是在 GLM 框架的基础上为中文 QA 和对话进行了优化。 ChatGLM-6B —— 中英双语对话语言模型 ChatGLM-6B()是一个开源的、支持中英双语问答的对话语言模型并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构具有62亿参数。结合模型量化技术用户可以在消费级的显卡上进行本地部署INT4 量化级别下最低只需 6GB 显存。 ChatGLM-6B 使用了GLM框架针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练辅以监督微调、反馈自助、人类反馈强化学习等技术的加持62亿参数的 ChatGLM-6B 虽然规模不及千亿模型但大大降低了推理成本提升了效率并且已经能生成相当符合人类偏好的回答。 MLC LLM —— 本地大语言模型 MLC LLM是一种通用解决方案它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上。此外MLC LLM 还提供了一个高效的框架供使用者根据需求进一步优化模型性能。MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和部署 AI 模型而无需服务器支持并通过手机和笔记本电脑上的消费级 GPU 进行加速。 mPLUG-Owl —— 多模态大语言模型阿里达摩院提出的多模态 GPT 的模型mPLUG-Owl基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容还可以理解视觉信息并且具备优秀的跨模态对齐能力。论文https://arxiv.org/abs/2304.14178 DEMOhttps://huggingface.co/spaces/MAGAer13/mPLUG-Owl 全网开源最优秀的 ocr 文字识别项目 https://github.com/PaddlePaddle/PaddleOCR https://github.com/Layout-Parser/layout-parser https://github.com/Calamari-OCR/calamari https://github.com/hiroi-sora/Umi-OCR https://github.com/tesseract-ocr/tesseract https://github.com/naptha/tesseract.js https://github.com/ocropus https://github.com/JaidedAI/EasyOCR https://github.com/Ucas-HaoranWei/Vary https://github.com/OpenBMB/MiniCPM-V