Dart / Flutter #

Extract text, tables, images, and metadata from 91+ file formats and 248 programming languages including PDF, Office documents, and images. Dart bindings via flutter_rust_bridge for both Flutter apps and pure-Dart server contexts, with isolate-safe Future/Stream APIs.

Installation #

Package Installation #

Install via pub:

dart pub add kreuzberg

For Flutter projects:

flutter pub add kreuzberg

System Requirements #

Dart SDK 3.0+ for pure-Dart consumers
Flutter projects supported on macOS, iOS, Android, Linux, and Windows; Flutter Web is not supported
Native runtime delivered via flutter_rust_bridge with bundled binaries for the supported platforms
Optional: Tesseract OCR for OCR functionality

Quick Start #

Basic Extraction #

Extract text, metadata, and structure from any supported document format:

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  // Sync semantics — flutter_rust_bridge surfaces every call as a Future,
  // so even the *Sync entrypoints must be awaited from Dart.
  final result = await KreuzbergBridge.extractFileSync('document.pdf', null);

  print(result.content);
  print('MIME type: ${result.mimeType}');
  print('Tables: ${result.tables.length}');
}

Common Use Cases #

Extract with Custom Configuration

Most use cases benefit from configuration to control extraction behavior:

With OCR (for scanned documents):

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  final config = ExtractionConfig(
    useCache: true,
    enableQualityProcessing: true,
    forceOcr: false,
    disableOcr: false,
    ocr: const OcrConfig(
      enabled: true,
      backend: 'tesseract',
      language: 'eng',
      autoRotate: false,
    ),
    resultFormat: ResultFormat.unified,
    outputFormat: OutputFormat.plain(),
    includeDocumentStructure: false,
    maxArchiveDepth: 3,
  );

  final result = await KreuzbergBridge.extractFile('scanned.pdf', null, config);
  print(result.content);
}

Table Extraction

See Table Extraction Guide for detailed examples.

Processing Multiple Files

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  final items = <BatchFileItem>[
    const BatchFileItem(path: 'doc1.pdf'),
    BatchFileItem(
      path: 'scan.pdf',
      config: FileExtractionConfig(forceOcr: true),
    ),
  ];

  // Sync semantics — flutter_rust_bridge still returns a Future from Dart.
  final results = await KreuzbergBridge.batchExtractFilesSync(items);

  print('Processed ${results.length} files');
  for (final result in results) {
    print('${result.mimeType}: ${result.content.length} chars');
  }
}

Async Processing

For non-blocking document processing:

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  final result = await KreuzbergBridge.extractFile('document.pdf', null);

  print(result.content);
  print('MIME type: ${result.mimeType}');
  print('Tables: ${result.tables.length}');
}

Next Steps #

Installation Guide - Platform-specific setup
API Documentation - Complete API reference
Examples & Guides - Full code examples and usage guides
Configuration Guide - Advanced configuration options

Features #

Supported File Formats (91+) #

91+ file formats across 8 major categories with intelligent format detection and comprehensive metadata extraction.

Office Documents

Category	Formats	Capabilities
Word Processing	`.docx`, `.docm`, `.dotx`, `.dotm`, `.dot`, `.odt`	Full text, tables, images, metadata, styles
Spreadsheets	`.xlsx`, `.xlsm`, `.xlsb`, `.xls`, `.xla`, `.xlam`, `.xltm`, `.xltx`, `.xlt`, `.ods`	Sheet data, formulas, cell metadata, charts
Presentations	`.pptx`, `.pptm`, `.ppsx`, `.potx`, `.potm`, `.pot`, `.ppt`	Slides, speaker notes, images, metadata
PDF	`.pdf`	Text, tables, images, metadata, OCR support
eBooks	`.epub`, `.fb2`	Chapters, metadata, embedded resources
Database	`.dbf`	Table data extraction, field type support
Hangul	`.hwp`, `.hwpx`	Korean document format, text extraction

Images (OCR-Enabled)

Category	Formats	Features
Raster	`.png`, `.jpg`, `.jpeg`, `.gif`, `.webp`, `.bmp`, `.tiff`, `.tif`	OCR, table detection, EXIF metadata, dimensions, color space
Advanced	`.jp2`, `.jpx`, `.jpm`, `.mj2`, `.jbig2`, `.jb2`, `.pnm`, `.pbm`, `.pgm`, `.ppm`	OCR via hayro-jpeg2000 (pure Rust decoder), JBIG2 support, table detection, format-specific metadata
Vector	`.svg`	DOM parsing, embedded text, graphics metadata

Web & Data

Category	Formats	Features
Markup	`.html`, `.htm`, `.xhtml`, `.xml`, `.svg`	DOM parsing, metadata (Open Graph, Twitter Card), link extraction
Structured Data	`.json`, `.yaml`, `.yml`, `.toml`, `.csv`, `.tsv`	Schema detection, nested structures, validation
Text & Markdown	`.txt`, `.md`, `.markdown`, `.djot`, `.rst`, `.org`, `.rtf`	CommonMark, GFM, Djot, reStructuredText, Org Mode

Email & Archives

Category	Formats	Features
Email	`.eml`, `.msg`	Headers, body (HTML/plain), attachments, threading
Archives	`.zip`, `.tar`, `.tgz`, `.gz`, `.7z`	File listing, nested archives, metadata

Academic & Scientific

Category	Formats	Features
Citations	`.bib`, `.biblatex`, `.ris`, `.nbib`, `.enw`, `.csl`	Structured parsing: RIS (structured), PubMed/MEDLINE, EndNote XML (structured), BibTeX, CSL JSON
Scientific	`.tex`, `.latex`, `.typst`, `.jats`, `.ipynb`, `.docbook`	LaTeX, Jupyter notebooks, PubMed JATS
Documentation	`.opml`, `.pod`, `.mdoc`, `.troff`	Technical documentation formats

Code Intelligence (248 Languages)

Feature	Description
Structure Extraction	Functions, classes, methods, structs, interfaces, enums
Import/Export Analysis	Module dependencies, re-exports, wildcard imports
Symbol Extraction	Variables, constants, type aliases, properties
Docstring Parsing	Google, NumPy, Sphinx, JSDoc, RustDoc, and 10+ formats
Diagnostics	Parse errors with line/column positions
Syntax-Aware Chunking	Split code by semantic boundaries, not arbitrary byte offsets

Complete Format Reference

Key Capabilities #

Text Extraction - Extract all text content with position and formatting information
Metadata Extraction - Retrieve document properties, creation date, author, etc.
Table Extraction - Parse tables with structure and cell content preservation
Image Extraction - Extract embedded images and render page previews
OCR Support - Integrate multiple OCR backends for scanned documents
Async/Await - Non-blocking document processing with concurrent operations
Plugin System - Extensible post-processing for custom text transformation
Embeddings - Generate vector embeddings using ONNX Runtime models
Batch Processing - Efficiently process multiple documents in parallel
Memory Efficient - Stream large files without loading entirely into memory
Language Detection - Detect and support multiple languages in documents
Code Intelligence - Extract structure, imports, exports, symbols, and docstrings from 248 programming languages via tree-sitter
Configuration - Fine-grained control over extraction behavior

Performance Characteristics #

Format	Speed	Memory	Notes
PDF (text)	10-100 MB/s	~50MB per doc	Fastest extraction
Office docs	20-200 MB/s	~100MB per doc	DOCX, XLSX, PPTX
Images (OCR)	1-5 MB/s	Variable	Depends on OCR backend
Archives	5-50 MB/s	~200MB per doc	ZIP, TAR, etc.
Web formats	50-200 MB/s	Streaming	HTML, XML, JSON

OCR Support #

Kreuzberg supports multiple OCR backends for extracting text from scanned documents and images:

Tesseract
Paddleocr

OCR Configuration Example #

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  final config = ExtractionConfig(
    useCache: true,
    enableQualityProcessing: true,
    forceOcr: false,
    disableOcr: false,
    ocr: const OcrConfig(
      enabled: true,
      backend: 'tesseract',
      language: 'eng',
      autoRotate: false,
    ),
    resultFormat: ResultFormat.unified,
    outputFormat: OutputFormat.plain(),
    includeDocumentStructure: false,
    maxArchiveDepth: 3,
  );

  final result = await KreuzbergBridge.extractFile('scanned.pdf', null, config);
  print(result.content);
}

Async Support #

This binding provides full async/await support for non-blocking document processing:

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  final result = await KreuzbergBridge.extractFile('document.pdf', null);

  print(result.content);
  print('MIME type: ${result.mimeType}');
  print('Tables: ${result.tables.length}');
}

Plugin System #

Kreuzberg supports extensible post-processing plugins for custom text transformation and filtering.

For detailed plugin documentation, visit Plugin System Guide.

Embeddings Support #

Generate vector embeddings for extracted text using the built-in ONNX Runtime support. Requires ONNX Runtime installation.

Embeddings Guide

Batch Processing #

Process multiple documents efficiently:

import 'package:kreuzberg/kreuzberg.dart';

Future<void> main() async {
  final items = <BatchFileItem>[
    const BatchFileItem(path: 'doc1.pdf'),
    BatchFileItem(
      path: 'scan.pdf',
      config: FileExtractionConfig(forceOcr: true),
    ),
  ];

  // Sync semantics — flutter_rust_bridge still returns a Future from Dart.
  final results = await KreuzbergBridge.batchExtractFilesSync(items);

  print('Processed ${results.length} files');
  for (final result in results) {
    print('${result.mimeType}: ${result.content.length} chars');
  }
}

Configuration #

For advanced configuration options including language detection, table extraction, OCR settings, and more:

Configuration Guide

Documentation #

Contributing #

Contributions are welcome! See Contributing Guide.

License #

Elastic-2.0 License — see LICENSE for details.

Support #

Discord Community: Join our Discord
GitHub Issues: Report bugs
Discussions: Ask questions

kreuzberg 1.0.0 kreuzberg: ^1.0.0 copied to clipboard

Metadata