שלום רב לאור ההתעוררות הגדולה לאחרונה בציבור
לתוכנות של חיפוש מהיר באמצעות אינדקס,
ברצוני לברר האם מישהוא מכיר את התוכנה שגוגל משתמשים בה לאנדקס,
אולי נוכל להישג אותה לטובת הציבור כאן?
פרטים נוספים על התוכנה של גוגל תוכנת 'סורקים'.
שלום רב לאור ההתעוררות הגדולה לאחרונה בציבור
לתוכנות של חיפוש מהיר באמצעות אינדקס,
ברצוני לברר האם מישהוא מכיר את התוכנה שגוגל משתמשים בה לאנדקס,
אולי נוכל להישג אותה לטובת הציבור כאן?
פרטים נוספים על התוכנה של גוגל תוכנת 'סורקים'.
@pcinfogmach
לפעמים זה נכון,
קח לדוגמה את המאגר של היברו בוקס,
מדובר על מאות גיגה! [קרוב ל650]
אם ניצור אינדקס באמצעות הספריה הזאת,
כמה זה ישקול?......
קרוב ל2 TB!
@pcinfogmach כתב בספריית החיפוש meilisearch ב-בC#:
כשאינדקס שוקל כמה גיגה-בייטים, כמה זמן לדעתך לוקח לקרוא את התוכן שלו בצורה הקלאסית של קריאת תוכן קובץ?
זהותון מחפש תוך פחות משנייה על 3.5 GB שזה הרי ללא אינדקס........ [כי בכל אופן זה מילים חדשות אז אין מה לאנדקס....]
@sivan22 כתב בספריית החיפוש meilisearch ב-בC#:
חבל להמציא את הגלגל כשעשו לך כבר את העבודה
@sivan22 כתב בספריית החיפוש meilisearch ב-בC#:
אני כרגע מנסה אותה בשביל פרוייקט שלי, החיסרון המשמעותי הוא הגודל העצום של האינדקס, היא מיועדת בעיקר לשרתים ולא למשתמשי קצה ולכן אין אופטימיזציה של הגודל
נראה שאתה מפעיל את המודל Hugging Face OPUS-MT-he-en באמצעות Microsoft.ML.OnnxRuntime ב-.NET, ואתה נתקל ב'OnnxRuntimeException' עם הודעת השגיאה:
קוד סטטוס שאינו אפס הוחזר בזמן הפעלת צומת איסוף. שם:'/model/decoder/shared/Gather' הודעת סטטוס: רכיב מדדים מחוץ לגבולות הנתונים, idx=65838 חייב להיות בטווח הכולל [-62955,62954]'
שגיאה זו היא די ספציפית, וסביר להניח שהיא קשורה לדגם שבו אתה משתמש. להלן מספר סיבות ופתרונות אפשריים:
Gather
, שהוא צומת שאוסף אלמנטים מטנזור. ודא שהצומת מוגדר כהלכה ושהמדדים המשמשים לאיסוף נמצאים בטווח החוקי.כדי לפתור בעיה זו, תוכל לנסות את הפעולות הבאות:
אני מקווה שזה עוזר!
@yossiz כתב בגוגל טרנסלייט אופליין:
אשמח מי שיוכל להפנות אותי להדרכה על אמולטור וכו',
https://madrichim.ovh/topic/319/wsa-סביבת-האנדרואיד-של-ווינדוס-11-מבוא
אני ישמח להדרכה על ווינדוס 10...
@yossiz כתב בגוגל טרנסלייט אופליין:
עריכה: מצאתי (מעניין שלא מופיע בחיפוש בחנות)
תוכל לראות כאן,
לאחר שתעשה את ההוראות שם אשמח לדעת האם זה עבד לך,
@yossiz כתב בגוגל טרנסלייט אופליין:
אבל אני לא מצליח להתקין. כפתור "התקן" לא מופיע בתוכנת החנות
אתה מחובר עם חשבון מייקרוספוט שלך?
@אף-אחד-3 כתב בגוגל טרנסלייט אופליין:
אי אפשר לעשות את זה עם גוגל טרנסלייט במחשב אבל אתה יכול לשים אמולטור ועליו האפליקציה ולהוריד קובץ שפה
לחילופין יש את האפליקציה למחשב של מיקרוסופט שנמצאת בחנות האפליקציות של ווינדוס
תודה לכולם!
אשמח מי שיוכל להפנות אותי להדרכה על אמולטור וכו',
כמו"כ האם מה שיש למייקרוסופוט הוא מדויק כמו גוגל טרנסלייט?
שלום רב,
הבנתי שיש דרך להוריד את גוגל טרנסליט למחשב
כך שיעבוד אופליין, אשמח לקבל הדרכה איך עושים את זה?
תודה רבה!
עריכה- ניסיתי לראות כאן ולא הצלחתי להבין....
מחכה למומחים פה שיעזרו בזה....
@sivan22 מה מהירות החיפוש באינדקס זה?
אם זה מדאי כבד אפשר ליצור אינדקס עצמאי [לא צריך דווקא ספריה מוכנה...]
הרעיון של אינדקס הוא די פשוט
A background index! That's a great idea to speed up search times. Creating an inverted index is a common technique to accelerate searching large amounts of text data. Here's a high-level overview of how you can create a background index:
What is an inverted index?
An inverted index is a data structure that maps each unique term (word, phrase, keyword, etc.) to a list of documents that contain that term. This allows for efficient searching, as you can quickly retrieve the documents containing a given term.
How to create a background index?
To create a background index, you'll need to follow these steps:
How to query the index?
To query the index, you'll need to:
Some considerations:
Bonus tip: Use existing libraries and tools
Many programming languages and libraries provide built-in support for creating and querying inverted indices. For example:
Remember to consider the trade-offs between index size, query performance, and data freshness when designing your background index. Good luck!
למעשה יש כמה שיפורים קטנים ממש להוסיף ואז זה מושלם!
[למשל חלוקה של האינדקס לקבצים שונים לפי תווים וכן חלוקת כל מסמך למקטעים].
@קומפיונט האם יש התקדמות בענין?
@קומפיונט כתב בשיתוף | אב טיפוס של תוכנת תרגום אופליין:
מעניין, אני אבדוק את זה. תודה.
אתה יודע מה המשמעות של tc-big ??
באמת התוכנה שלך ממש מהירה,
האם אתה מתכנן לעשות גם מעברית לאנגלית, ואם כן מתי?
@yits כתב בזיהוי ושינוי קידוד טקסט בקובץ PDF:
לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ
Ï„‚È˘ „Ú ‰ÎÁÓ
ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת
קישור לקובץ עם הבעיה המדוברת:
עשיתי OCR, הנה הדוגמא: 62916-sFile העתקה.pdf
[אגב, הגדרתי שישנה את התמונה, אפשר להגדיר שם שישאיר כתמונה הניתנת לחיפוש].
@yits אין לי ספק שלא ניסת,
באותיות שלימות ומודרניות יש קרוב ל100%.
@דאציג כתב בשיתוף | אב טיפוס של תוכנת תרגום אופליין:
רציתי להפנות את תשומת לבך, שיש תוכנת תמלול אופליין מבוססת AI (דורשת משאבים רבים), אמנם היא כעת בפיתוח, אבל - עובדת.
אבל אתה ציינת לתוכנת תמלול,
והוא מדבר על תוכנת תרגום.
@yits יש לי פתרון פשוט בהרבה!!
לעשות OCR חינמי.... יש היום דברים ממש מדוקיים גם לעברית...
@קומפיונט דבר ראשון, תודה רבה!
זה נראה ממש דבר גדול!
האם אפשר גם לתרגם הפוך, מעברית לאנגלית?