deep-searcher/tests/embedding/test_sentence_transformer_e...


								import unittest

								import sys

								import logging

								from unittest.mock import patch, MagicMock


								# Disable logging for tests

								logging.disable(logging.CRITICAL)


								from deepsearcher.embedding import SentenceTransformerEmbedding


								class TestSentenceTransformerEmbedding(unittest.TestCase):

								    """Tests for the SentenceTransformerEmbedding class."""


								    def setUp(self):

								        """Set up test fixtures."""

								        # Create mock module for sentence_transformers

								        mock_st_module = MagicMock()


								        # Create mock SentenceTransformer class

								        self.mock_sentence_transformer = MagicMock()

								        mock_st_module.SentenceTransformer = self.mock_sentence_transformer


								        # Add the mock module to sys.modules

								        self.module_patcher = patch.dict('sys.modules', {'sentence_transformers': mock_st_module})

								        self.module_patcher.start()


								        # Set up mock instance

								        self.mock_model = MagicMock()

								        self.mock_sentence_transformer.return_value = self.mock_model


								        # Configure mock encode method

								        mock_embedding = [[0.1, 0.2, 0.3] * 341 + [0.4]]  # 1024 dimensions

								        self.mock_model.encode.return_value = MagicMock()

								        self.mock_model.encode.return_value.tolist.return_value = mock_embedding


								    def tearDown(self):

								        """Clean up test fixtures."""

								        self.module_patcher.stop()


								    @patch.dict('os.environ', {}, clear=True)

								    def test_init(self):

								        """Test initialization."""

								        # Create instance to test

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-m3")


								        # Check that SentenceTransformer was called with the right model

								        self.mock_sentence_transformer.assert_called_once_with("BAAI/bge-m3")


								        # Check that model and client were set correctly

								        self.assertEqual(embedding.model, "BAAI/bge-m3")

								        self.assertEqual(embedding.client, self.mock_model)


								        # Check batch size default

								        self.assertEqual(embedding.batch_size, 32)


								        # Test with model_name parameter

								        self.mock_sentence_transformer.reset_mock()

								        embedding = SentenceTransformerEmbedding(model_name="BAAI/bge-large-zh-v1.5")

								        self.mock_sentence_transformer.assert_called_once_with("BAAI/bge-large-zh-v1.5")

								        self.assertEqual(embedding.model, "BAAI/bge-large-zh-v1.5")


								        # Test with custom batch size

								        self.mock_sentence_transformer.reset_mock()

								        embedding = SentenceTransformerEmbedding(batch_size=64)

								        self.assertEqual(embedding.batch_size, 64)


								    @patch.dict('os.environ', {}, clear=True)

								    def test_embed_query(self):

								        """Test embedding a single query."""

								        # Create instance to test

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-m3")


								        # Mock the encode response for a single query

								        single_embedding = [0.1, 0.2, 0.3] * 341 + [0.4]  # 1024 dimensions

								        self.mock_model.encode.return_value = MagicMock()

								        self.mock_model.encode.return_value.tolist.return_value = [single_embedding]


								        # Call the method

								        result = embedding.embed_query("test query")


								        # Verify encode was called correctly

								        self.mock_model.encode.assert_called_once_with("test query")


								        # Check the result

								        self.assertEqual(len(result), 1024)

								        self.assertEqual(result, single_embedding)


								    @patch.dict('os.environ', {}, clear=True)

								    def test_embed_documents_small_batch(self):

								        """Test embedding documents with a small batch (less than batch size)."""

								        # Create instance to test

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-m3")


								        # Mock the encode response for documents

								        batch_embeddings = [

								            [0.1, 0.2, 0.3] * 341 + [0.4],  # 1024 dimensions

								            [0.4, 0.5, 0.6] * 341 + [0.7],

								            [0.7, 0.8, 0.9] * 341 + [0.1]

								        ]

								        self.mock_model.encode.return_value = MagicMock()

								        self.mock_model.encode.return_value.tolist.return_value = batch_embeddings


								        # Create test texts

								        texts = ["text 1", "text 2", "text 3"]


								        # Call the method

								        results = embedding.embed_documents(texts)


								        # Verify encode was called correctly

								        self.mock_model.encode.assert_called_once_with(texts)


								        # Check the results

								        self.assertEqual(len(results), 3)

								        for i, result in enumerate(results):

								            self.assertEqual(len(result), 1024)

								            self.assertEqual(result, batch_embeddings[i])


								    @patch.dict('os.environ', {}, clear=True)

								    def test_embed_documents_large_batch(self):

								        """Test embedding documents with a large batch (more than batch size)."""

								        # Create instance to test with small batch size

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-m3", batch_size=2)


								        # Mock the encode response for the first batch

								        batch1_embeddings = [

								            [0.1, 0.2, 0.3] * 341 + [0.4],  # 1024 dimensions

								            [0.4, 0.5, 0.6] * 341 + [0.7]

								        ]

								        # Mock the encode response for the second batch

								        batch2_embeddings = [

								            [0.7, 0.8, 0.9] * 341 + [0.1]

								        ]


								        # Set up the mock to return different values on each call

								        self.mock_model.encode.side_effect = [

								            MagicMock(tolist=lambda: batch1_embeddings),

								            MagicMock(tolist=lambda: batch2_embeddings)

								        ]


								        # Create test texts

								        texts = ["text 1", "text 2", "text 3"]


								        # Call the method

								        results = embedding.embed_documents(texts)


								        # Verify encode was called twice with the right batches

								        self.assertEqual(self.mock_model.encode.call_count, 2)

								        self.mock_model.encode.assert_any_call(["text 1", "text 2"])

								        self.mock_model.encode.assert_any_call(["text 3"])


								        # Check the results

								        self.assertEqual(len(results), 3)

								        self.assertEqual(results[0], batch1_embeddings[0])

								        self.assertEqual(results[1], batch1_embeddings[1])

								        self.assertEqual(results[2], batch2_embeddings[0])


								    @patch.dict('os.environ', {}, clear=True)

								    def test_embed_documents_no_batching(self):

								        """Test embedding documents with batching disabled."""

								        # Create instance to test with batching disabled

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-m3", batch_size=0)


								        # Mock the embed_query method

								        original_embed_query = embedding.embed_query

								        embed_query_calls = []


								        def mock_embed_query(text):

								            embed_query_calls.append(text)

								            return [0.1] * 1024  # Return a simple mock embedding


								        embedding.embed_query = mock_embed_query


								        # Create test texts

								        texts = ["text 1", "text 2", "text 3"]


								        # Call the method

								        results = embedding.embed_documents(texts)


								        # Check that embed_query was called for each text

								        self.assertEqual(len(embed_query_calls), 3)

								        self.assertEqual(embed_query_calls, texts)


								        # Check the results

								        self.assertEqual(len(results), 3)

								        for result in results:

								            self.assertEqual(len(result), 1024)

								            self.assertEqual(result, [0.1] * 1024)


								        # Restore original method

								        embedding.embed_query = original_embed_query


								    @patch.dict('os.environ', {}, clear=True)

								    def test_dimension_property(self):

								        """Test the dimension property."""

								        # Create instance to test

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-m3")


								        # Check dimension for BAAI/bge-m3

								        self.assertEqual(embedding.dimension, 1024)


								        # Test with different models

								        self.mock_sentence_transformer.reset_mock()

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-large-zh-v1.5")

								        self.assertEqual(embedding.dimension, 1024)


								        self.mock_sentence_transformer.reset_mock()

								        embedding = SentenceTransformerEmbedding(model="BAAI/bge-large-en-v1.5")

								        self.assertEqual(embedding.dimension, 1024)


								if __name__ == "__main__":

								    unittest.main()