איך ליצור אינדקס של מסמכי pdf ומסמכי וורד בC#
-
מישהו מכיר אם יש משהו חינמי כבר מוכן שקורא pdf באופן יעיל בעברית (במהירות סבירה שלא תקשה על משתמשים) עבור C#?
כמו"כ אני מחפש צורה לקרוא מדמכי וורד באופן ישיר כנ"ל במסמכי הpdf?אני רוצה ליצור תוכנת חיפוש בקבצי pdf (שכבר עשו להם ocr) ולצרוך כך אני צריך לקרוא את הקבצים באופן ישיר מהקוד כדי שאוכל לבנות אינדקס.
בתודה מראש.
ראיתי שיש משהו שהתפרסם לאחרונה כאן בפורום בשם panofind שעושה משהו דומה. הבנתי מהפרסמים שהמתכנת מצא משהו חינמי שעושה את זה אבל לא יודע באיזה שפה.
-
@pcinfogmach כתב באיך ליצור אינדקס של מסמכי pdf ומסמכי וורד בC#:
panofind שעושה משהו דומה
-
@pcinfogmach זה גם הספרייה הנ"ל, pdfium
אפשר לקרוא את הקוד של התוכנה באמצעות תוכנה זו: https://github.com/dnSpyEx/dnSpy/releases -
@pcinfogmach זה קוד יחסית מסובך. תסתכל במחלקה
Panofind.PDFResultViewer
ומשם תגיע גם לIndexCommons.Utils.PDFAnalyzer
ו-IndexCommons.Renderer.PDFRenderer