-
@ topickapp (IT技術系ニュースサイト)
2025-03-01 16:14:35https://olmocr.allenai.org/ olmOCR – Open-Source OCR for Accurate Document Conversion PDFからテキストを抽出するオープンソースのOCR。 NVIDIA GPUが必要で、Popplerやフォントのインストール後、Conda環境を設定し、olmOCRとsglangを導入して使用可能。 AWS S3やBeakerを活用して、ローカルやクラスタ環境で大規模なPDF処理を実行できる。