qwen emb for langchain

2025-10-10 21:45:07 +08:00
parent 1ec0d86ae7
commit 8a9c95a7e6
1 changed files with 228 additions and 0 deletions
--- a/lang_agent/rag/emb.py
+++ b/lang_agent/rag/emb.py
@@ -0,0 +1,228 @@
+from langchain.embeddings.base import Embeddings
+import dashscope
+from dashscope import TextEmbedding
+from typing import List
+import asyncio
+from concurrent.futures import ThreadPoolExecutor
+from loguru import logger
+import time
+
+class QwenEmbeddings(Embeddings):
+    """Custom Qwen embeddings using DashScope API"""
+    
+    def __init__(self, 
+                 api_key: str, 
+                 model: str = "text-embedding-v4",
+                 max_workers: int = 5,
+                 embedding_dimension: int = 512,
+                 batch_size: int = 10,  # DashScope supports up to 10 texts per batch
+                 rate_limit_delay: float = 0.00001):
+        """
+        Initialize Qwen embeddings
+        
+        Args:
+            api_key: DashScope API key
+            model: Model name (text-embedding-v1, text-embedding-v2, etc.)
+            max_workers: Maximum number of concurrent workers for async operations
+            embedding_dimension: Dimension of embedding vectors (adjust based on model)
+            batch_size: Number of texts to process in one API call (max 10 for DashScope)
+            rate_limit_delay: Delay between batches to respect rate limits
+        """
+        dashscope.api_key = api_key
+        if api_key is None:
+            logger.warning("no api_key provided!!")
+            
+        self.model = model
+        self.max_workers = max_workers
+        self.embedding_dimension = embedding_dimension
+        self.batch_size = min(batch_size, 10)  # DashScope limit
+        self.rate_limit_delay = rate_limit_delay
+        
+    def _get_batch_embeddings(self, texts: List[str]) -> List[List[float]]:
+        """Get embeddings for a batch of texts using DashScope native batch API"""
+        try:
+            # DashScope supports batch processing natively
+            response = TextEmbedding.call(
+                model=self.model,
+                input=texts  # Pass list directly
+            )
+            
+            if response.status_code == 200:
+                embeddings = []
+                for embedding_data in response.output['embeddings']:
+                    embeddings.append(embedding_data['embedding'])
+                return embeddings
+            else:
+                logger.error(f"Batch API Error: {response.status_code}, {response.message}")
+                # Return zero vectors as fallback
+                return [[0.0] * self.embedding_dimension for _ in texts]
+                
+        except Exception as e:
+            logger.error(f"Error embedding batch of {len(texts)} texts: {e}")
+            # Return zero vectors as fallback
+            return [[0.0] * self.embedding_dimension for _ in texts]
+    
+    def _get_single_embedding(self, text: str) -> List[float]:
+        """Get embedding for a single text (fallback method)"""
+        return self._get_batch_embeddings([text])[0]
+    
+    def embed_documents(self, texts: List[str]) -> List[List[float]]:
+        """Embed a list of documents using smart batching"""
+        if not texts:
+            return []
+            
+        all_embeddings = []
+        
+        # Process in batches
+        for i in range(0, len(texts), self.batch_size):
+            batch = texts[i:i + self.batch_size]
+            batch_num = i // self.batch_size + 1
+            total_batches = (len(texts) + self.batch_size - 1) // self.batch_size
+            
+            logger.info(f"Processing batch {batch_num}/{total_batches} ({len(batch)} texts)")
+            
+            batch_embeddings = self._get_batch_embeddings(batch)
+            all_embeddings.extend(batch_embeddings)
+            
+            # Add delay between batches to respect rate limits (except for last batch)
+            if i + self.batch_size < len(texts) and self.rate_limit_delay > 0:
+                time.sleep(self.rate_limit_delay)
+        
+        return all_embeddings
+    
+    def embed_query(self, text: str) -> List[float]:
+        """Embed a single query text"""
+        return self._get_single_embedding(text)
+    
+    async def aembed_documents(self, texts: List[str]) -> List[List[float]]:
+        """Embed a list of documents asynchronously with smart batching"""
+        if not texts:
+            return []
+            
+        loop = asyncio.get_event_loop()
+        
+        # Create batches
+        batches = [texts[i:i + self.batch_size] for i in range(0, len(texts), self.batch_size)]
+        
+        async def process_batch_with_delay(batch: List[str], batch_idx: int) -> List[List[float]]:
+            """Process a single batch with rate limiting"""
+            # Add delay before processing (except first batch)
+            if batch_idx > 0 and self.rate_limit_delay > 0:
+                await asyncio.sleep(self.rate_limit_delay)
+            
+            # Run the batch embedding in executor
+            return await loop.run_in_executor(
+                None, 
+                self._get_batch_embeddings, 
+                batch
+            )
+        
+        # Process batches with controlled concurrency
+        semaphore = asyncio.Semaphore(self.max_workers)
+        
+        async def process_batch_limited(batch: List[str], batch_idx: int) -> List[List[float]]:
+            async with semaphore:
+                logger.info(f"Processing async batch {batch_idx + 1}/{len(batches)} ({len(batch)} texts)")
+                return await process_batch_with_delay(batch, batch_idx)
+        
+        # Execute all batches
+        tasks = [
+            process_batch_limited(batch, idx) 
+            for idx, batch in enumerate(batches)
+        ]
+        
+        batch_results = await asyncio.gather(*tasks, return_exceptions=True)
+        
+        # Flatten results and handle exceptions
+        all_embeddings = []
+        for i, batch_result in enumerate(batch_results):
+            if isinstance(batch_result, Exception):
+                logger.error(f"Error processing async batch {i}: {batch_result}")
+                # Add zero vectors for failed batch
+                batch_size = len(batches[i])
+                all_embeddings.extend([[0.0] * self.embedding_dimension] * batch_size)
+            else:
+                all_embeddings.extend(batch_result)
+        
+        return all_embeddings
+    
+    async def aembed_query(self, text: str) -> List[float]:
+        """Embed a single query text asynchronously"""
+        loop = asyncio.get_event_loop()
+        return await loop.run_in_executor(None, self._get_single_embedding, text)
+    
+    def get_embedding_dimension(self) -> int:
+        """Get the dimension of embeddings"""
+        return self.embedding_dimension
+    
+    def batch_embed_documents(self, texts: List[str], batch_size: int = None) -> List[List[float]]:
+        """
+        Embed documents in batches (legacy method - now just calls embed_documents)
+        
+        Args:
+            texts: List of texts to embed
+            batch_size: Batch size (if None, uses instance default)
+        """
+        if batch_size is not None and batch_size != self.batch_size:
+            # Temporarily override batch size
+            original_batch_size = self.batch_size
+            self.batch_size = min(batch_size, 10)
+            try:
+                return self.embed_documents(texts)
+            finally:
+                self.batch_size = original_batch_size
+        else:
+            return self.embed_documents(texts)
+    
+    async def abatch_embed_documents(self, texts: List[str], batch_size: int = None) -> List[List[float]]:
+        """
+        Embed documents in batches asynchronously (legacy method - now just calls aembed_documents)
+        
+        Args:
+            texts: List of texts to embed
+            batch_size: Batch size (if None, uses instance default)
+        """
+        if batch_size is not None and batch_size != self.batch_size:
+            # Temporarily override batch size
+            original_batch_size = self.batch_size
+            self.batch_size = min(batch_size, 10)
+            try:
+                return await self.aembed_documents(texts)
+            finally:
+                self.batch_size = original_batch_size
+        else:
+            return await self.aembed_documents(texts)
+    
+    def estimate_cost(self, texts: List[str], cost_per_1k_tokens: float = 0.0007) -> dict:
+        """
+        Estimate the cost of embedding the given texts
+        
+        Args:
+            texts: List of texts to estimate cost for
+            cost_per_1k_tokens: Cost per 1000 tokens (adjust based on current pricing)
+            
+        Returns:
+            Dict with cost estimation details
+        """
+        # Rough estimation: ~1 token per 4 characters for Chinese/English mixed text
+        total_chars = sum(len(text) for text in texts)
+        estimated_tokens = total_chars / 4
+        estimated_cost = (estimated_tokens / 1000) * cost_per_1k_tokens
+        batches_needed = (len(texts) + self.batch_size - 1) // self.batch_size
+        
+        return {
+            "total_texts": len(texts),
+            "total_characters": total_chars,
+            "estimated_tokens": int(estimated_tokens),
+            "estimated_cost_usd": round(estimated_cost, 4),
+            "batches_needed": batches_needed,
+            "estimated_time_seconds": batches_needed * self.rate_limit_delay
+        }
+
+if __name__ == "__main__":
+    # EXAMPLE USAGE
+    embeddings = QwenEmbeddings(api_key="YOUR KEY")
+
+    vector = embeddings.embed_query("Qwen embeddings are powerful for bilingual tasks.")
+
+    print(vector)