BigDataBiology · areias03 · Jun 27, 2025 · Jun 27, 2025
diff --git a/tests/integration/test_data_caching.py b/tests/integration/test_data_caching.py
@@ -0,0 +1,34 @@
+import unittest
+from unittest.mock import patch
+import polars as pl
+from spirepy.data import cluster_metadata, genome_metadata, cache_dir
+import shutil
+import os
+
+class TestDataCacheOnDisk(unittest.TestCase):
+    def setUp(self):
+        """Ensure the cache directory is clean before each test."""
+        cluster_metadata.clear()
+        genome_metadata.clear()
+        if os.path.exists(cache_dir):
+            shutil.rmtree(cache_dir)
+
+    def tearDown(self):
+        """Clean up the cache directory after each test."""
+        if os.path.exists(cache_dir):
+            shutil.rmtree(cache_dir)
+
+    @patch('polars.read_csv')
+    def test_disk_cache_creation(self, mock_read_csv):
+        """Test that calling a cached function creates the on-disk cache."""
+        mock_read_csv.return_value = pl.DataFrame({'a': [1]})
+
+        self.assertFalse(os.path.exists(cache_dir))
+
+        cluster_metadata()
+
+        self.assertTrue(os.path.exists(cache_dir))
+        self.assertTrue(len(os.listdir(cache_dir)) > 0)
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/unit/test_data.py b/tests/unit/test_data.py
@@ -0,0 +1,50 @@
+import unittest
+from unittest.mock import patch, MagicMock
+import polars as pl
+from spirepy.data import cluster_metadata, genome_metadata
+
+class TestDataFunctions(unittest.TestCase):
+    @patch('polars.read_csv')
+    def test_cluster_metadata_returns_polars_dataframe(self, mock_read_csv):
+        mock_read_csv.return_value = pl.DataFrame({
+            'cluster_id': [1, 2],
+            'description': ['Cluster 1', 'Cluster 2']
+        })
+
+        result = cluster_metadata()
+
+        self.assertIsInstance(result, pl.DataFrame)
+
+    @patch('polars.read_csv')
+    def test_genome_metadata_returns_polars_dataframe(self, mock_read_csv):
+        mock_read_csv.return_value = pl.DataFrame({
+            'genome_id': [1, 2],
+            'species': ['Species A', 'Species B']
+        })
+
+        result = genome_metadata()
+
+        self.assertIsInstance(result, pl.DataFrame)
+
+    @patch('polars.read_csv')
+    def test_cluster_metadata_caching(self, mock_read_csv):
+        cluster_metadata.clear()
+        mock_read_csv.return_value = pl.DataFrame({'a': [1]})
+
+        cluster_metadata()
+        cluster_metadata()
+
+        mock_read_csv.assert_called_once()
+
+    @patch('polars.read_csv')
+    def test_genome_metadata_caching(self, mock_read_csv):
+        genome_metadata.clear()
+        mock_read_csv.return_value = pl.DataFrame({'a': [1]})
+
+        genome_metadata()
+        genome_metadata()
+
+        mock_read_csv.assert_called_once()
+
+if __name__ == '__main__':
+    unittest.main()