כיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#)

pcinfogmach

יש לי קובץ בינארי עם blobs של מידע בגודל אחיד. אני רוצה לכווץ אותו אבל לגשת למידע באופן ישיר (כלומר אם למשל אני רוצה לגשת לblob מספר ארבע). בסוף הקובץ ישנו מספר שאומר מהו אורך הblobs בתוך הקובץ (יש עוד דברים בקובץ). כאשר אני מקווץ את הקובץ אני לא מצליח לגשת למידע הזה וממילא גם לא לblobs.
ייתכן שאפילו לא שאלתי את השאלה בצורה נכונה כי אני עם ארץ גמור בנושאים אלו אשמח לקבל כל עזרה או הסבר.
נ.ב. אני עובד ב-C# מה שניסתי הוא gzip
כמו"כ אני לא רוצה לקרוא את כל הקובץ בבת אחת זה קובץ מאוד מאוד כבד.

OdedDvir

אתה יכול לייצר תבנית קובץ משלך, שמכילה את ה-metadata הזה, ואת הכיווץ כל blob בנפרד (לקמן zlob)
מבנה הקובץ
metadata
zlob
zlob
...
ה-metadata יכיל את המיקום בקובץ של כל zlob
זה יאפשר לך לטעון במהירות רק את ה-zlob הרצוי לפי דרישה ולפרוס אותו ל-blob

dovid

לא מבין את הסיטואציה, למה הקובץ מכווץ ומה הבעיה לחלץ אותו?

pcinfogmach

@OdedDvir
תודה ברם אם הבנתי נכון Zlob תופס הרבה יותר מקום מאשר קובץ שכולו מכווץ.

pcinfogmach

הקובץ מכיל אינדקס בסופו עם בלובים בגודל קבוע המכילים מידע על מיקומים וגדלים של בלובים בגודל בלתי קבוע בתוך המסמך, בסוף הקובץ ישנו מספר שמתאר את אורך האינדקס.
כאשר הקובץ מכווץ (למשל עם Gzip), הגישה הישירה לאינדקס נקטעת. אני לא מצליח לקרוא את האינדקס מבלי להסיר את הכיווץ מכל הקובץ קודם.

בעצם אני מדבר על Random acces לחלקים מתוך התוכן של קובץ מכווץ.

קומפיונט

@pcinfogmach אם אתה יכול לשנות את מבנה הקובץ, אז תשנה אותו כמו שכתב @OdedDvir שהמידע על ה - blobים יהיה בתחילת הקובץ (offset, length) ורק ה blobים עצמם יהיו מכווצים, לא כל הקובץ.

pcinfogmach

@קומפיונט
הבנתי אז זהו הדרך האופטימלית להשתמש עם zlobs תודה - אנסה ליישם זאת.

yossiz

@pcinfogmach כתב בכיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#):

ברם אם הבנתי נכון Zlob תופס הרבה יותר מקום מאשר קובץ שכולו מכווץ

כדי לקבל random access נדמה לי שאין לך ברירה. מה שכן אפשר לבדוק זה אפשרות של "מילון" מותאם אישית משותף לכל ה-blob-ים המכווצים. זה אמור להיות כמעט זהה לכיווץ כל הקובץ (ההשפעה שיהיה לזה על הדחיסה תלוי מאוד בתוכן ה-blob-ים)
ע"ע: https://github.com/EamonNerbonne/ZlibWithDictionary

נ.ב. אם לא היה מספיק ברור: zlob זו מילה מומצאת ל-blob מכווץ
עריכה: אני רואה ש-mysql כבר המציאו את המילה

OdedDvir

@pcinfogmach כתב בכיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#):

@OdedDvir
תודה ברם אם הבנתי נכון Zlob תופס הרבה יותר מקום מאשר קובץ שכולו מכווץ.

בעיקרון זה נכון, כי כיווץ עובד על תדירות של מופעים זהים של מידע, וההסתברות לחזרה של מידע היא ביחס ישר לכמות המידע

@yossiz כתב בכיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#):

עריכה: אני רואה ש-mysql כבר המציאו את המילה

חח, אשרי שכיוונתי

dovid

@OdedDvir כתב בכיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#):

בעיקרון זה נכון, כי כיווץ עובד על תדירות של מופעים זהים של מידע, וההסתברות לחזרה של מידע היא ביחס ישר לכמות המידע

זה עיקרון נכון על כמויות קטנות.
אם החומר הוא למשל טקסטואלי, אז אם מדובר בחתיכות מספיק גדולות (2 מגה למשל) אין משמעות ריאלית כמעט לתוספת, למרות שהתיאוריה נשארת בלי סוף.

@pcinfogmach
אם מדובר בחתיכות קטנות יותר, אז אני מבין סוף סוף את השאלה. התשובה היא הכיוון ש@yossiz הציע, דחיסה מבוססת מילון משותף, או מילון סטטי.
אם אני מנחש נכון ומדובר בטקסטים תורניים זה עלול גם לשפר יעילות+ביצועי דחיסה/פריסה.

dovid

ניסיתי כעת בעצמי את ספריית ZstdNet על קובץ יבמות של תורת אמת (MN_YEVAMOT_L2.txt) עם אימון מול כל השורות ודחיסה של כל שורה בנפרד, תוצאות מצויינות: כלל השורות ביחד 12% לעומת 40% בGZipStream.

dovid

@dovid כתב בכיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#):

אם אני מנחש נכון ומדובר בטקסטים תורניים זה עלול גם לשפר יעילות+ביצועי דחיסה/פריסה.

יעילות הדחיסה אכן השתפרה:

ניסיתי כעת בעצמי את ספריית ZstdNet על קובץ יבמות של תורת אמת (MN_YEVAMOT_L2.txt) עם אימון מול כל השורות ודחיסה של כל שורה בנפרד, תוצאות מצויינות: כלל השורות ביחד 12% לעומת 40% בGZipStream.

אבל הביצועים לא, הדחיסה הזו איטית משמעותית מGZipStream.
פה השאלה היא על יעילות פריסה ולא על דחיסה (שכנראה לא מבוצעת בשגרה), זה אבדוק בהמשך בע"ה.

dovid

@dovid כתב בכיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#):

פה השאלה היא על יעילות פריסה ולא על דחיסה (שכנראה לא מבוצעת בשגרה), זה אבדוק בהמשך בע"ה.

ZstdNet יותר יעיל משמעותית בחילוץ עם מילון (יותר מפי שלוש מחילוץ gzip).

pcinfogmach

פוסט זה נמחק!

pcinfogmach

@dovid
איך עושים את האימון?

dovid

var file = toratEmetLoc + @"020_MISHNA\102_SEDER_NASHIM\24_MAS_YEVAMOT\MN_YEVAMOT_L2.txt";

System.Text.Encoding.RegisterProvider(System.Text.CodePagesEncodingProvider.Instance);
var text = File.ReadAllText(file, Encoding.GetEncoding(1255));
var lines = text.Split('\n');
var linesAsBytes = lines.Select(l => Encoding.UTF8.GetBytes(l)).ToArray();

//train
var dic = DictBuilder.TrainFromBuffer(linesAsBytes.Where(l => l.Length > 100));
var option = new CompressionOptions(dic, CompressionOptions.MaxCompressionLevel);

using var compressor = new Compressor(option);
var perLineZstd = linesAsBytes.Select(x => compressor.Wrap(x));

זה רק להדגמה,
במציאות אתה תשמור את תוצאות האימון לקובץ ומשם תטען אותו בהמשך.

Aharon 0

@dovid לא מובן לי משהו, למה לגשת לקובץ ולבדוק מול טקסט ולא לגשת בינארית ולייצר מילון מבייטיים ? ככה אפשר גם לדחוס ולפרוס קובץ שזה לא טקסט.

dovid

@Aharon-0 עקב אחרי השרשור טוב? לא יצרתי מילון מטקסט אלא מבייטים,
הסיבה שאני קורא את הטקסט היא כדי לדמות קטעים קטנים (שורות).

Aharon 0

עדיין יש כאן תוספת חישוביות, מעניין מה השפעה על הביצועים של דחיסה ופריסה ?

dovid

@Aharon-0 אם כוונתך על הפיצול והקריאה כטקסט, לא התייחסתי אליהם, זו סימולציה בלבד. במציאות יהיה נטו רצפי בייטים.

תחומים - פורום חרדי מקצועי

כיווץ קובץ בינרי מבלי לפגוע בגישה הישירה ל-blobs שבתוכו (C#)