AXECAC · aragami3070 · Mar 14, 2026 · Mar 12, 2026 · Mar 12, 2026 · Mar 13, 2026
diff --git a/app/main.py b/app/main.py
@@ -1,16 +1,17 @@
 import docs_parser
 
 # NOTE: все эти точно работают и работают хорошо
-# (doc_p, _) = docs_parser.get_text("parser/assets/text_and_tables.docx")
-# (doc_p, _) = docs_parser.get_text("parser/assets/text_and_tables.docx")
-# (doc_p, _) = docs_parser.get_text("parser/assets/some_text.docx")
-# (doc_p, _) = docs_parser.get_text("parser/assets/text_tables_png.docx")
-# (doc_p, _) = docs_parser.get_text("parser/assets/text_from_img.png")
-# (doc_p, _) = docs_parser.get_text("parser/assets/main.typ")
-# (doc_p, _) = docs_parser.get_text("parser/assets/main.pdf")
-# (doc_p, _) = docs_parser.get_text("parser/assets/too_many_png.docx")
-# (doc_p, _) = docs_parser.get_text("parser/assets/Presentation.pptx")
-# print(doc_p)
+# (doc_p, _) = docs_parser.extract_text("parser/assets/text_and_tables.docx")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/text_and_tables.docx")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/some_text.docx")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/text_tables_png.docx")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/text_from_img.png")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/main.typ")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/main.pdf")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/too_many_png.docx")
+# (doc_p, _) = docs_parser.extract_text("parser/assets/Presentation.pptx")
+(doc_p, _) = docs_parser.extract_text("parser/assets/Book.xlsx")
+print(doc_p)
 # docs_parser.convert_to_new_format("parser/assets/old_docs.doc", "parser/assets/tests_results")
 # docs_parser.convert_to_new_format("parser/assets/old_pres.ppt", "parser/assets/tests_results")
 # docs_parser.convert_to_new_format("parser/assets/old_exel.xls", "parser/assets/tests_results")
diff --git a/parser/Cargo.lock b/parser/Cargo.lock
diff --git a/parser/Cargo.toml b/parser/Cargo.toml
@@ -21,8 +21,9 @@ mime = "0.3.17"
 # NOTE: Для парсинга форматов офиса
 docx-rs = "0.4.19"
 rustypptx = "0.2.0"
+calamine = "0.34.0"
 zip = "8.1.0"
-quick-xml = "0.39.2"
+quick-xml = "0.38.4"
 
 # NOTE: Для парсинга pdf
 pdf-extract = "0.10.0"

diff --git a/parser/assets/Book.xlsx b/parser/assets/Book.xlsx
diff --git a/parser/assets/tests_results/extract_text_from_xlsx.txt b/parser/assets/tests_results/extract_text_from_xlsx.txt
@@ -0,0 +1,16 @@
+/*** Sheet: Лист1 ***/
+Имя, Номер
+Вася, 1
+Петя, 3
+Ваня, 2
+Тема, 4
+Егор, 6
+Саша, 5
+
+/*** Sheet: Sheet2 ***/
+Страница 2
+some text
+
+/************* Image = 0 *************/
+МЯУ=191919
+/*************************************/
diff --git a/parser/docs_parser.pyi b/parser/docs_parser.pyi
@@ -1,2 +1,2 @@
-def get_text(from_path: str) -> tuple[str, dict[tuple[int, int], bytes]]: ...
+def extract_text(from_path: str) -> tuple[str, dict[tuple[int, int], bytes]]: ...
 def convert_to_new_format(old_file_path: str, new_path: str): ...
diff --git a/parser/src/errors.rs b/parser/src/errors.rs
@@ -17,6 +17,10 @@ pub enum ParserError {
     #[error("IO error: {0}")]
     IoError(#[from] io::Error),
 
+    /// Ошибка записи в буффер
+    #[error("Fmt error: {0}")]
+    FmtError(#[from] std::fmt::Error),
+
     /// Ошибка парсинга utf-8 из байтов текстового файла
     #[error("From utf-8 error: {0}")]
     FromUTF8Error(#[from] std::string::FromUtf8Error),
@@ -61,6 +65,12 @@ pub enum ParserError {
     #[error("Docx error: {0}")]
     PptxError(#[from] rustypptx::PptxError),
 
+    /// Ошибка чтения xlsx
+    ///
+    /// Ошибки библиотеки calamine для работы с xlsx
+    #[error("Docx error: {0}")]
+    XlsxError(#[from] calamine::XlsxError),
+
     /// Ошибка tesseract::InitializeError
     #[error("Tesseract init error: {0}")]
     TesseractInitError(#[from] tesseract::InitializeError),

diff --git a/parser/src/lib.rs b/parser/src/lib.rs
@@ -17,8 +17,8 @@ mod parser {
 
     /// Парсинг текста `from` файла по `path`
     #[pyo3::pyfunction]
-    pub fn get_text(from_path: &str) -> PyResult<(String, ImagesInfo)> {
-        Ok(crate::match_parsers::get_text(from_path)?)
+    pub fn extract_text(from_path: &str) -> PyResult<(String, ImagesInfo)> {
+        Ok(crate::match_parsers::extract_text(from_path)?)
     }
 
     /// Конвертер старых Microsoft office форматов в новые
@@ -34,7 +34,7 @@ mod parser {
 /// Функция реализации python модуля, добавляющая в него функции
 #[pymodule]
 fn docs_parser(m: &Bound<'_, PyModule>) -> PyResult<()> {
-    m.add_function(wrap_pyfunction!(parser::get_text, m)?)?;
+    m.add_function(wrap_pyfunction!(parser::extract_text, m)?)?;
     m.add_function(wrap_pyfunction!(parser::convert_to_new_format, m)?)?;
     Ok(())
 }
diff --git a/parser/src/match_parsers.rs b/parser/src/match_parsers.rs
@@ -11,7 +11,10 @@ use crate::{
         APPLICATION_XLS, APPLICATION_XLSX,
     },
     errors::ParserError,
-    parsers::{docx, image::get_from_image, pdf::get_from_pdf, pptx, text::get_from_text},
+    parsers::{
+        MSOfficeParser, docx, image::extract_text_from_image, pdf::extract_text_from_pdf, pptx, text::extract_from_text,
+        xlsx,
+    },
 };
 
 type Result<T> = std::result::Result<T, ParserError>;
@@ -32,24 +35,27 @@ static INFER: LazyLock<Infer> = LazyLock::new(Infer::new);
 /// # Errors
 /// - [`ParserError::InvalidFormat`] - тип файла не поддерживается/не определен
 /// - Остальные варианты [`ParserError`], если ошибка во время парсинга файла
-pub fn get_text(file_name: &str) -> Result<(String, ImagesInfo)> {
+pub fn extract_text(file_name: &str) -> Result<(String, ImagesInfo)> {
     let file_data = read_data_from_file(file_name)?;
     match define_mime_type(&file_data) {
         Some(mime)
             if mime == APPLICATION_DOCX
                 || (mime == APPLICATION_DOCX_ZIP && file_name.ends_with(".docx")) =>
         {
             let docx_parser = docx::DocxParser::new();
-            docx_parser.get_from_docx(&file_data)
+            docx_parser.extract_text(&file_data)
+        }
+        Some(mime) if mime == APPLICATION_XLSX => {
+            let xlsx_parser = xlsx::XlsxParser::new();
+            xlsx_parser.extract_text(&file_data)
         }
-        Some(mime) if mime == APPLICATION_XLSX => todo!(),
         Some(mime) if mime == APPLICATION_PPTX => {
             let pptx_parser = pptx::PptxParser::new();
-            pptx_parser.get_from_pptx(&file_data)
+            pptx_parser.extract_text(&file_data)
         }
-        Some(mime) if mime == APPLICATION_PDF => Ok((get_from_pdf(&file_data)?, HashMap::new())),
-        Some(mime) if mime.type_() == TEXT => Ok((get_from_text(&file_data)?, HashMap::new())),
-        Some(mime) if mime.type_() == IMAGE => Ok((get_from_image(&file_data)?, HashMap::new())),
+        Some(mime) if mime == APPLICATION_PDF => Ok((extract_text_from_pdf(&file_data)?, HashMap::new())),
+        Some(mime) if mime.type_() == TEXT => Ok((extract_from_text(&file_data)?, HashMap::new())),
+        Some(mime) if mime.type_() == IMAGE => Ok((extract_text_from_image(&file_data)?, HashMap::new())),
         Some(mime) if is_converted_mime_type(&mime) => Err(ParserError::InvalidFormat(format!(
             "Не поддерживается данный тип файла {mime}, но его вы можете конвертировать \
             в поддерживаемый формат через отдельный метод конвертации"