איך ליצור אינדקס של מסמכי pdf ומסמכי וורד בC#

pcinfogmach

מישהו מכיר אם יש משהו חינמי כבר מוכן שקורא pdf באופן יעיל בעברית (במהירות סבירה שלא תקשה על משתמשים) עבור C#?
כמו"כ אני מחפש צורה לקרוא מדמכי וורד באופן ישיר כנ"ל במסמכי הpdf?

אני רוצה ליצור תוכנת חיפוש בקבצי pdf (שכבר עשו להם ocr) ולצרוך כך אני צריך לקרוא את הקבצים באופן ישיר מהקוד כדי שאוכל לבנות אינדקס.

בתודה מראש.

ראיתי שיש משהו שהתפרסם לאחרונה כאן בפורום בשם panofind שעושה משהו דומה. הבנתי מהפרסמים שהמתכנת מצא משהו חינמי שעושה את זה אבל לא יודע באיזה שפה.

yossiz

@pcinfogmach כתב באיך ליצור אינדקס של מסמכי pdf ומסמכי וורד בC#:

panofind שעושה משהו דומה

הוא משתמש בספרייה זו עבור PDF
וספרייה זו עבור קבצי וורד

pcinfogmach

@yossiz
סליחה על ההקפצה אבל מישהו יודע אולי איך הוא "מציג" את הספרי pdf ב-panofind
תודה מראש

yossiz

@pcinfogmach זה גם הספרייה הנ"ל, pdfium
אפשר לקרוא את הקוד של התוכנה באמצעות תוכנה זו: https://github.com/dnSpyEx/dnSpy/releases

pcinfogmach

@yossiz
פתחתי את ה-dll של התוכנה אבל אני לא מצליח למצוא שם מה בדיוק משמש להצגת הקבצים.

yossiz

@pcinfogmach זה קוד יחסית מסובך. תסתכל במחלקה Panofind.PDFResultViewer ומשם תגיע גם ל IndexCommons.Utils.PDFAnalyzer ו-IndexCommons.Renderer.PDFRenderer

תחומים - פורום חרדי מקצועי

איך ליצור אינדקס של מסמכי pdf ומסמכי וורד בC#