feat: add RAG converter utilities and update integration guide

RAG Converter: - Create app/utils/rag_converter.py with conversion functions - parsed_doc_to_haystack_docs() - convert ParsedDocument to Haystack format - parsed_chunks_to_haystack_docs() - convert ParsedChunk list to Haystack - validate_parsed_doc_for_rag() - validate required fields before conversion - Automatic metadata extraction (dao_id, doc_id, page, block_type) - Preserve optional fields (bbox, section, reading_order) Integration Guide: - Update with ready-to-use converter functions - Add validation examples - Complete workflow examples
2025-11-16 03:03:20 -08:00
parent 7251e519d6
commit 49272b66e6
3 changed files with 208 additions and 0 deletions
--- a/services/parser-service/INTEGRATION.md
+++ b/services/parser-service/INTEGRATION.md
@@ -174,6 +174,23 @@ async def route(request: RouterRequest):
 ### 1. Конвертація ParsedDocument → Haystack Documents
 **Готова функція:** `app/utils/rag_converter.py`
 ```python
 from app.utils.rag_converter import parsed_doc_to_haystack_docs, validate_parsed_doc_for_rag
 # Валідація перед конвертацією
 is_valid, errors = validate_parsed_doc_for_rag(parsed_doc)
 if not is_valid:
    logger.error(f"Document validation failed: {errors}")
    return
 # Конвертація
 haystack_docs = parsed_doc_to_haystack_docs(parsed_doc)
 ```
 **Або вручну:**
 ```python
 from haystack.schema import Document
--- a/services/parser-service/app/utils/init.py
+++ b/services/parser-service/app/utils/init.py
@@ -0,0 +1,16 @@
 """
 Utility functions for PARSER Service
 """
 from app.utils.rag_converter import (
    parsed_doc_to_haystack_docs,
    parsed_chunks_to_haystack_docs,
    validate_parsed_doc_for_rag
 )
 __all__ = [
    "parsed_doc_to_haystack_docs",
    "parsed_chunks_to_haystack_docs",
    "validate_parsed_doc_for_rag"
 ]
--- a/services/parser-service/app/utils/rag_converter.py
+++ b/services/parser-service/app/utils/rag_converter.py
@@ -0,0 +1,175 @@
 """
 Utilities for converting ParsedDocument to RAG formats
 """
 import logging
 from typing import List, Dict, Any
 from app.schemas import ParsedDocument, ParsedBlock, ParsedPage
 logger = logging.getLogger(__name__)
 def parsed_doc_to_haystack_docs(parsed_doc: ParsedDocument) -> List[Dict[str, Any]]:
    """
    Convert ParsedDocument to Haystack Documents format
    This function prepares documents for RAG indexing by:
    - Extracting all blocks with text
    - Adding required metadata (dao_id, doc_id, page, block_type)
    - Preserving optional fields (bbox, section, reading_order)
    Args:
        parsed_doc: ParsedDocument from PARSER service
    Returns:
        List of dictionaries compatible with Haystack Document format
    """
    docs = []
    # Validate required fields
    if not parsed_doc.doc_id:
        logger.warning("ParsedDocument missing doc_id, cannot create RAG documents")
        return []
    dao_id = parsed_doc.metadata.get("dao_id")
    if not dao_id:
        logger.warning(f"ParsedDocument missing metadata.dao_id for doc_id={parsed_doc.doc_id}")
    for page in parsed_doc.pages:
        for block in page.blocks:
            # Skip empty blocks
            if not block.text or not block.text.strip():
                continue
            # Build metadata (must-have для RAG)
            meta: Dict[str, Any] = {
                "dao_id": dao_id or "",
                "doc_id": parsed_doc.doc_id,
                "page": page.page_num,
                "block_type": block.type,
                "reading_order": block.reading_order
            }
            # Add optional fields
            if block.bbox:
                meta["bbox_x"] = block.bbox.x
                meta["bbox_y"] = block.bbox.y
                meta["bbox_width"] = block.bbox.width
                meta["bbox_height"] = block.bbox.height
            # Add section if it's a heading
            if block.type == "heading":
                meta["section"] = block.text[:100]  # First 100 chars as section name
            # Add table data if present
            if block.type == "table" and block.table_data:
                meta["table_rows"] = len(block.table_data.rows)
                meta["table_columns"] = len(block.table_data.columns)
            # Add document-level metadata
            if parsed_doc.metadata:
                meta.update({
                    k: v for k, v in parsed_doc.metadata.items()
                    if k not in ["dao_id"]  # Already added
                })
            # Create document dict (Haystack format)
            doc = {
                "content": block.text.strip(),
                "meta": meta
            }
            docs.append(doc)
    logger.info(f"Converted {len(docs)} blocks to Haystack documents for doc_id={parsed_doc.doc_id}")
    return docs
 def parsed_chunks_to_haystack_docs(chunks: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
    """
    Convert ParsedChunk list to Haystack Documents format
    Args:
        chunks: List of ParsedChunk dictionaries
    Returns:
        List of Haystack Document dictionaries
    """
    docs = []
    for chunk in chunks:
        # Validate required fields
        if not chunk.get("text") or not chunk.get("text", "").strip():
            continue
        metadata = chunk.get("metadata", {})
        if not metadata.get("dao_id") or not metadata.get("doc_id"):
            logger.warning(f"Chunk missing required metadata: {metadata}")
            continue
        doc = {
            "content": chunk["text"].strip(),
            "meta": {
                "dao_id": metadata["dao_id"],
                "doc_id": metadata["doc_id"],
                "page": chunk.get("page", 1),
                "section": chunk.get("section"),
            }
        }
        # Add bbox if present
        if chunk.get("bbox"):
            bbox = chunk["bbox"]
            doc["meta"]["bbox_x"] = bbox.get("x")
            doc["meta"]["bbox_y"] = bbox.get("y")
            doc["meta"]["bbox_width"] = bbox.get("width")
            doc["meta"]["bbox_height"] = bbox.get("height")
        # Add other metadata
        doc["meta"].update({
            k: v for k, v in metadata.items()
            if k not in ["dao_id", "doc_id"]
        })
        docs.append(doc)
    return docs
 def validate_parsed_doc_for_rag(parsed_doc: ParsedDocument) -> tuple[bool, List[str]]:
    """
    Validate ParsedDocument has all required fields for RAG
    Args:
        parsed_doc: ParsedDocument to validate
    Returns:
        Tuple of (is_valid, list_of_errors)
    """
    errors = []
    # Check doc_id
    if not parsed_doc.doc_id:
        errors.append("doc_id is required")
    # Check pages
    if not parsed_doc.pages:
        errors.append("pages list is empty")
    # Check metadata.dao_id
    if not parsed_doc.metadata.get("dao_id"):
        errors.append("metadata.dao_id is required for RAG filtering")
    # Check that pages have blocks
    for idx, page in enumerate(parsed_doc.pages, start=1):
        if not page.blocks:
            errors.append(f"Page {idx} has no blocks")
        # Check blocks have text
        for block_idx, block in enumerate(page.blocks, start=1):
            if not block.text or not block.text.strip():
                errors.append(f"Page {idx}, block {block_idx} has no text")
    return len(errors) == 0, errors