現(xiàn)在Ai是一個(gè)技術(shù)熱門領(lǐng)域,其中從非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換到結(jié)構(gòu)化數(shù)據(jù),是時(shí)常要面對(duì)的問(wèn)題。我們經(jīng)常需要從各原始數(shù)據(jù)中提取文本,這可能是來(lái)自docx/ppt/excel/pdf等此類文件。
其中PDF我愿稱之為 “文檔轉(zhuǎn)換的終點(diǎn)” 因?yàn)楫?dāng)你實(shí)際操作時(shí),你會(huì)發(fā)現(xiàn)由其他格式(如docx/html)轉(zhuǎn)換到PDF比較容易,但從PDF轉(zhuǎn)換出來(lái)卻變得非常困難,特別是那種純圖片形式的、掃描件PDF。“苦PDF久矣~啊”,各位同學(xué)。
不要慌,問(wèn)題與答案往往是相繼出現(xiàn)的,只要我們不停下探索的腳步。在本文中 我通過(guò)實(shí)際測(cè)驗(yàn)市面上評(píng)分較高的一些工具、項(xiàng)目,基本上包含了你在網(wǎng)上能找到的最優(yōu)的技術(shù)方案,大部是開(kāi)源的,也有個(gè)別是非開(kāi)源的?!∠旅鎸⑾虼蠹抑鹨唤榻B。
在下面的項(xiàng)目中我們使用下面的2份純圖片形式的求職簡(jiǎn)歷作為輸入,來(lái)測(cè)試OCR模型的識(shí)別和提取能力。 原內(nèi)容
?MinerU MinerU是由上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源智能數(shù)據(jù)提取工具,專注于高效解析復(fù)雜文檔(如PDF、網(wǎng)頁(yè)、電子書(shū)),并將其轉(zhuǎn)換為結(jié)構(gòu)化的機(jī)器可讀格式(如Markdown、JSON)。該項(xiàng)目憑借其強(qiáng)大的多模態(tài)解析能力,能夠精準(zhǔn)識(shí)別文本、表格、圖片、數(shù)學(xué)公式(支持LaTeX轉(zhuǎn)換)及復(fù)雜排版,并自動(dòng)去除頁(yè)眉、頁(yè)腳、頁(yè)碼等冗余信息,保留原始文檔的語(yǔ)義邏輯與結(jié)構(gòu)。MinerU支持176種語(yǔ)言識(shí)別,兼容CPU/GPU/NPU加速,適用于學(xué)術(shù)研究、企業(yè)數(shù)據(jù)處理、大模型訓(xùn)練等場(chǎng)景
開(kāi)源許可 AGPL-3.0
? 源代碼公開(kāi):如果一個(gè)程序以AGPL-3.0授權(quán),并且你通過(guò)網(wǎng)絡(luò)為他人提供了該程序的服務(wù)(比如SaaS),那么即使你沒(méi)有直接分發(fā)該程序的副本,你也必須向用戶提供源代碼,包括任何修改過(guò)的版本。 ? 衍生作品:使用了AGPL-3.0許可代碼的衍生作品也必須采用相同的許可證進(jìn)行發(fā)布。 ? 兼容性:AGPL-3.0與GPL-3.0保持一致,允許各自的組件保持其原有的授權(quán),但當(dāng)涉及到網(wǎng)絡(luò)服務(wù)時(shí),GPL授權(quán)的組件也需要遵守AGPL的要求,即提供源代碼 若企業(yè)使用AGPL-3.0軟件提供網(wǎng)絡(luò)服務(wù)(如SaaS),必須向用戶公開(kāi)完整源代碼及修改內(nèi)容;其強(qiáng)傳染性要求衍生作品也需開(kāi)源,可能迫使整個(gè)商業(yè)項(xiàng)目開(kāi)放源碼。如果僅在企業(yè)內(nèi)部使用(非對(duì)外服務(wù)),則無(wú)需公開(kāi)源代碼。若企業(yè)希望避免開(kāi)源代碼,可與原作者協(xié)商 閉源授權(quán)(需支付費(fèi)用)。
轉(zhuǎn)換效果 MinerU的識(shí)別效果,總體上來(lái)算可以,核心內(nèi)容是沒(méi)有太大問(wèn)題,不足的地方是還是有一些排版錯(cuò)亂的問(wèn)題,如下圖中:“技能評(píng)價(jià)”被橫插到了“實(shí)踐經(jīng)歷”的內(nèi)容中,而且有些內(nèi)容的字號(hào)設(shè)置不是太準(zhǔn)確,三級(jí)標(biāo)題和二級(jí)標(biāo)題一樣大。
MinerU識(shí)別效果 在線體驗(yàn) ? MinerU官網(wǎng) :https://mineru.net/OpenSourceTools/Extractor?source=github ? ModelScope :https://www.modelscope.cn/studios/OpenDataLab/MinerU ? HuggingFace :https://huggingface.co/spaces/opendatalab/MinerU ? Github倉(cāng)庫(kù) :https://github.com/opendatalab/MinerU mPLUG-DocOwl 1.5 阿里巴巴mPLUG團(tuán)隊(duì)在多模態(tài)文檔圖片理解領(lǐng)域的最新開(kāi)源工作,在10個(gè)文檔理解benchmark上達(dá)到最優(yōu)效果,5個(gè)數(shù)據(jù)集上提升超過(guò)10個(gè)點(diǎn),部分?jǐn)?shù)據(jù)集上超過(guò)智譜17.3B的CogAgent,在DocVQA上達(dá)到82.2的效果
開(kāi)源許可 Apacha-2.0
Apache License 2.0協(xié)議允許用戶自由使用、修改和分發(fā)軟件,同時(shí)提供專利授權(quán)保護(hù),并且不要求公開(kāi)衍生作品的源代碼。使用該許可證的項(xiàng)目時(shí),需要注意保留版權(quán)聲明和許可證副本,清晰標(biāo)注所做的任何修改,注意潛在的專利訴訟風(fēng)險(xiǎn),以及遵守商標(biāo)使用的相關(guān)規(guī)定,以確保法律合規(guī)性和促進(jìn)開(kāi)源社區(qū)健康發(fā)展。
以下是該許可證的一些關(guān)鍵特性:
? 專利授權(quán):如果軟件的原始貢獻(xiàn)者擁有相關(guān)的專利權(quán),則這些專利會(huì)在許可證下自動(dòng)授予用戶,但僅限于使用這些專利的權(quán)利,而不包括制造或銷售產(chǎn)品。 ? 分發(fā)代碼:你可以在任何項(xiàng)目中使用遵循Apache 2.0許可的代碼,無(wú)論是開(kāi)源還是閉源項(xiàng)目,并且無(wú)需公開(kāi)你的修改內(nèi)容。 ? 商標(biāo)使用:該許可證不授予使用貢獻(xiàn)者的名字、標(biāo)志或其他商標(biāo)的權(quán)利。 ? 免責(zé)聲明:該許可證包含一個(gè)明確的免責(zé)聲明,表明軟件“按原樣”提供,沒(méi)有任何形式的保證。
Apache 2.0 是商業(yè)友好的開(kāi)源協(xié)議,允許靈活使用代碼但需嚴(yán)格保留聲明。商用時(shí)需重點(diǎn)關(guān)注版權(quán)聲明、專利授權(quán)和免責(zé)聲明,避免因忽略條款導(dǎo)致法律風(fēng)險(xiǎn)。
轉(zhuǎn)換效果 mPLUG-DocOwl 1.5的識(shí)別效果,內(nèi)容丟失比較嚴(yán)重,在排版中也存在一些問(wèn)題,例如標(biāo)題重復(fù),內(nèi)容重復(fù)等問(wèn)題。算識(shí)別效果比較差的一個(gè)。
mPLUG-DocOwl 1.5識(shí)別效果 在線體驗(yàn) ? ModelScope :https://modelscope.cn/studios/iic/mPLUG-DocOwl/ ? HuggingFace :https://huggingface.co/spaces/mPLUG/DocOwl ? GitHub倉(cāng)庫(kù) :https://github.com/X-PLUG/mPLUG-DocOwl Mistral OCR Mistral OCR是由法國(guó)Mistral AI開(kāi)發(fā)的高性能光學(xué)字符識(shí)別工具,專為處理復(fù)雜文檔設(shè)計(jì),具備高精度解析(支持文本、圖像、表格、數(shù)學(xué)公式等)、多語(yǔ)言識(shí)別(覆蓋千種語(yǔ)言,準(zhǔn)確率達(dá)99.02%)、極速處理能力(單節(jié)點(diǎn)每分鐘2000頁(yè))及結(jié)構(gòu)化輸出(JSON/Markdown/HTML格式保留原始排版)等核心優(yōu)勢(shì)。
目前提供API版本(mistral-ocr-latest),通過(guò)開(kāi)發(fā)者平臺(tái)La Plateforme提供,定價(jià)為每1000頁(yè)1美元。
轉(zhuǎn)換效果 經(jīng)過(guò)實(shí)測(cè),Mistral OCR轉(zhuǎn)換效果確實(shí)驚艷,幾乎沒(méi)有丟失任何信息內(nèi)容,沒(méi)有排版錯(cuò)亂問(wèn)題,生成的Markdown內(nèi)容干凈整潔。唯一不足的是沒(méi)有設(shè)置標(biāo)題,所有內(nèi)容都是同一字號(hào)。
Mistral OCR轉(zhuǎn)換效果 在線體驗(yàn) ? 官方網(wǎng)站 :https://mistral.ai/news/mistral-ocr ? 在線體驗(yàn)地址 :https://mistralocr.org/zh-CN/ Got OCR 2.0 GOT-OCR 2.0 是一個(gè)基于通用 OCR 理論(General OCR Theory)的統(tǒng)一端到端模型,由 StepFun、曠視科技、中國(guó)科學(xué)院大學(xué)和清華大學(xué)聯(lián)合開(kāi)發(fā),旨在推動(dòng) OCR 技術(shù)進(jìn)入 OCR-2.0 時(shí)代。該模型具備處理多種類型內(nèi)容的能力,包括普通文本、數(shù)學(xué)公式、分子結(jié)構(gòu)、表格、圖表、樂(lè)譜等,并通過(guò)端到端架構(gòu)、Flash-Attention 技術(shù)優(yōu)化以及動(dòng)態(tài)分辨率處理,實(shí)現(xiàn)了高效識(shí)別與格式化輸出(如 Markdown/LaTeX)。
轉(zhuǎn)換效果 Got OCR 2.0識(shí)別出了大部分內(nèi)容,有輕微丟失,沒(méi)有排版整個(gè)結(jié)果內(nèi)容全在一行中,有輕微的內(nèi)容錯(cuò)亂。
Got OCR 2.0識(shí)別結(jié)果 在線體驗(yàn) ? ModelScope :https://www.modelscope.cn/studios/stepfun-ai/GOT_official_online_demo ? Github倉(cāng)庫(kù) :https://github.com/Ucas-HaoranWei/GOT-OCR2.0 Dolphin Dolphin是字節(jié)跳動(dòng)開(kāi)源一款文檔解析模型。與目前市面上各類大模型相比,這款輕量級(jí)模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。
開(kāi)源許可 MIT
MIT許可證是一種寬松的開(kāi)源軟件許可協(xié)議,最初由麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)制定。它給予軟件用戶很大的自由,僅要求保留版權(quán)聲明和許可聲明即可。
在商業(yè)使用MIT許可軟件時(shí),需注意保留原始版權(quán)聲明和許可協(xié)議、接受“無(wú)擔(dān)?!睏l款、避免法律責(zé)任、確保合規(guī)使用及分發(fā)、不得擅自使用原作者品牌或商標(biāo),并留意與其他軟件的兼容性。
轉(zhuǎn)換效果 在實(shí)際體驗(yàn)上Dolphin轉(zhuǎn)換速度比較快,但是和MinerU一樣的問(wèn)題,部分排版錯(cuò)亂、有部分信息(電話號(hào)碼)丟失問(wèn)題。
Dolphin識(shí)別效果 在線體驗(yàn) ? 在線Demo :http://115.190.42.15:8888/dolphin/ ? Github倉(cāng)庫(kù) :https://github.com/bytedance/dolphin Monkey OCR MonkeyOCR 是華中科技大學(xué)與金山辦公聯(lián)合開(kāi)發(fā)的高效文檔解析模型,基于創(chuàng)新的SRR(Structure-Recognition-Relation)范式,精準(zhǔn)提取PDF/圖片中的文本、公式(LaTeX)、表格(JSON)等內(nèi)容并結(jié)構(gòu)化輸出,支持Markdown/JSON格式導(dǎo)出。其30億參數(shù)模型在英文文檔解析中超越Gemini 2.5 Pro等大模型,處理速度達(dá)0.84頁(yè)/秒,且可在單塊3090 GPU上運(yùn)行。
開(kāi)源許可 Apache2.0
關(guān)于Apache2.0許可和商用注意事項(xiàng)參考上文。
轉(zhuǎn)換效果 Monkey OCR的信息保留度很高,雖然有些是以圖片形式保存了下來(lái),但是文字是文字、圖片僅僅是圖片而已。而在布局上沒(méi)有發(fā)生混亂,原先簡(jiǎn)歷中的雙欄內(nèi)容,被按由左至右由上至下的順序正確的識(shí)別了,唯一問(wèn)題是標(biāo)題級(jí)別設(shè)置上有偏差。 MonkeyOCR識(shí)別效果 Nanonets-OCR-S Nanonets-OCR-s 是由 Nanonets 于 2025 年 6 月 10 日發(fā)布的光學(xué)字符識(shí)別(OCR)模型。該模型基于Qwen2.5-VL-3B微調(diào),運(yùn)行至少需要9G顯存。
開(kāi)源許可 Apache2.0
關(guān)于Apache2.0許可和商用注意事項(xiàng)參考上文。
轉(zhuǎn)換效果 Nanonets-OCR-S的轉(zhuǎn)換效果,說(shuō)實(shí)話驚?到我了,幾乎趨于完美,我個(gè)人認(rèn)為文檔寫(xiě)到這里為止,是體驗(yàn)過(guò)轉(zhuǎn)換效果最好的一個(gè)。內(nèi)容識(shí)別完整,雖然不像Monkey OCR帶圖片,其實(shí)應(yīng)該也可以(自己改造一下)布局準(zhǔn)確,盡然還使用的表格來(lái)組織簡(jiǎn)歷中的基礎(chǔ)信息。更關(guān)鍵的是標(biāo)題設(shè)置完全沒(méi)毛病,非常準(zhǔn)確。
Nanonets-OCR-S識(shí)別效果01 Nanonets-OCR-S識(shí)別效果02 Nanonets-OCR-S識(shí)別效果03 在線體驗(yàn) ? ModelScope :https://www.modelscope.cn/studios/nanonets/Nanonets-ocr-s/summary ? Github倉(cāng)庫(kù) :https://github.com/NanoNets/docext OCR Flux OCRFlux 是一款基于 多模態(tài)大語(yǔ)言模型(VLM) 的工具包,專為將 PDF 文檔和圖像轉(zhuǎn)換為結(jié)構(gòu)清晰、可讀性強(qiáng)的 Markdown 文本 而設(shè)計(jì)。一張12GB GPU 內(nèi)存的RTX-3090顯卡可以部署運(yùn)行。
開(kāi)源許可 Apache2.0
關(guān)于Apache2.0許可和商用注意事項(xiàng)參考上文。
轉(zhuǎn)換效果 OCR Flux識(shí)別結(jié)果,文字保留相對(duì)完整,標(biāo)題設(shè)置沒(méi)有太大問(wèn)題,唯一的不足之處是在簡(jiǎn)歷中的“技能評(píng)價(jià)”處,標(biāo)題設(shè)置不準(zhǔn)確,有些是內(nèi)容的部分被標(biāo)記為標(biāo)題,導(dǎo)致字體太大了。如果沒(méi)有這一點(diǎn)問(wèn)題的話,感覺(jué)和Nanonets-OCR-S不分上下。
OCR Flux識(shí)別效果 在線體驗(yàn) ? 官方Demo :https://ocrflux.pdfparser.io ? Github倉(cāng)庫(kù) :https://github.com/chatdoc-com/OCRFlux OLM OCR olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 團(tuán)隊(duì)開(kāi)發(fā)的一款開(kāi)源工具,旨在將PDF文件和其他文檔高效地轉(zhuǎn)換為純文本,同時(shí)保留自然的閱讀順序。它支持表格、公式、手寫(xiě)內(nèi)容等。
開(kāi)源許可 Apache2.0
關(guān)于Apache2.0許可和商用注意事項(xiàng)參考上文。
轉(zhuǎn)換效果 olm OCR的轉(zhuǎn)換效果還是不錯(cuò)的,在結(jié)果中去掉了圖片部分,內(nèi)容結(jié)構(gòu)有序,信息完整。沒(méi)有設(shè)置標(biāo)題部分,字體是統(tǒng)一大小,內(nèi)容排版無(wú)錯(cuò)亂。整體來(lái)說(shuō),這個(gè)效果要比Mistral OCR要稍好一些。 olmOCR識(shí)別效果 在線體驗(yàn) ? 官方Demo :https://olmocr.allenai.org ? Github倉(cāng)庫(kù) :https://github.com/allenai/olmocr Smol Docling SmolDocling(SmolDocling-256M-preview )是高效輕量級(jí)的多模態(tài)文檔處理模型。能將文檔圖像端到端地轉(zhuǎn)換為結(jié)構(gòu)化文本,支持文本、公式、圖表等多種元素識(shí)別,適用于學(xué)術(shù)論文、技術(shù)報(bào)告等多類型文檔。模型參數(shù)量256M。使其能夠在消費(fèi)級(jí)顯卡(如 RTX 3060 等)上流暢運(yùn)行。
開(kāi)源許可 MIT
關(guān)于MIT許可和商用注意事項(xiàng)參考上文。
轉(zhuǎn)換效果 Smol Docling的轉(zhuǎn)換效果,整體上還算可以內(nèi)容結(jié)構(gòu)上沒(méi)有混亂,但是在第二段工作經(jīng)歷中丟失了日期信息。
Smol Docling識(shí)別結(jié)果1 Smol Docling識(shí)別結(jié)果2 Smol Docling識(shí)別結(jié)果3 在線體驗(yàn) ? huggingface :https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo ? Github倉(cāng)庫(kù) :https://github.com/AIAnytime/SmolDocling-OCR-App 總結(jié) 經(jīng)過(guò)實(shí)際測(cè)試了這么多款的OCR項(xiàng)目,如果從本次測(cè)試結(jié)果來(lái)看,我個(gè)比較傾向于Nanonets-OCR-S、olm OCR和OCR Flux這三款,感覺(jué)它們?cè)谧R(shí)別結(jié)果上很不錯(cuò),而且差距不是太大,特別是Nanonets-OCR-S。
當(dāng)然也可能是我實(shí)際測(cè)試的數(shù)據(jù)樣本的問(wèn)題。使用更多的樣本去測(cè)試也可能會(huì)得到不一樣結(jié)果。去評(píng)價(jià)哪個(gè)工具的好壞也不是本文的目的。希望感興趣的同學(xué)能夠通過(guò)本文了解到這些工具、開(kāi)源項(xiàng)目,你們可以實(shí)際的去測(cè)測(cè)、用一用,選擇一個(gè)適合自己實(shí)際需求的,能給大家提供一個(gè)解決問(wèn)題的方案和思路。