דילוג לתוכן
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום
כיווץ
תחומים

תחומים - פורום חרדי מקצועי

💡 רוצה לזכור קריאת שמע בזמן? לחץ כאן!
אלף שיןא

אלף שין

@אלף שין
אודות
פוסטים
39
נושאים
10
קבוצות
0
עוקבים
0
עוקב אחרי
0

פוסטים

פוסטים אחרונים הגבוה ביותר שנוי במחלוקת

  • באיזה תוכנת אינדקס גוגל משתמשים?
    אלף שיןא אלף שין

    שלום רב לאור ההתעוררות הגדולה לאחרונה בציבור
    לתוכנות של חיפוש מהיר באמצעות אינדקס,

    ברצוני לברר האם מישהוא מכיר את התוכנה שגוגל משתמשים בה לאנדקס,
    אולי נוכל להישג אותה לטובת הציבור כאן?

    פרטים נוספים על התוכנה של גוגל תוכנת 'סורקים'.


  • ספריית החיפוש meilisearch ב-בC#
    אלף שיןא אלף שין

    @pcinfogmach
    לפעמים זה נכון,
    קח לדוגמה את המאגר של היברו בוקס,
    מדובר על מאות גיגה! [קרוב ל650]
    אם ניצור אינדקס באמצעות הספריה הזאת,
    כמה זה ישקול?......
    קרוב ל2 TB!


  • ספריית החיפוש meilisearch ב-בC#
    אלף שיןא אלף שין

    @pcinfogmach כתב בספריית החיפוש meilisearch ב-בC#:

    כשאינדקס שוקל כמה גיגה-בייטים, כמה זמן לדעתך לוקח לקרוא את התוכן שלו בצורה הקלאסית של קריאת תוכן קובץ?

    זהותון מחפש תוך פחות משנייה על 3.5 GB שזה הרי ללא אינדקס........ [כי בכל אופן זה מילים חדשות אז אין מה לאנדקס....]


  • ספריית החיפוש meilisearch ב-בC#
    אלף שיןא אלף שין

    @sivan22 כתב בספריית החיפוש meilisearch ב-בC#:

    חבל להמציא את הגלגל כשעשו לך כבר את העבודה

    @sivan22 כתב בספריית החיפוש meilisearch ב-בC#:

    אני כרגע מנסה אותה בשביל פרוייקט שלי, החיסרון המשמעותי הוא הגודל העצום של האינדקס, היא מיועדת בעיקר לשרתים ולא למשתמשי קצה ולכן אין אופטימיזציה של הגודל


  • שיתוף | אב טיפוס של תוכנת תרגום אופליין
    אלף שיןא אלף שין

    נראה שאתה מפעיל את המודל Hugging Face OPUS-MT-he-en באמצעות Microsoft.ML.OnnxRuntime ב-.NET, ואתה נתקל ב'OnnxRuntimeException' עם הודעת השגיאה:

    קוד סטטוס שאינו אפס הוחזר בזמן הפעלת צומת איסוף. שם:'/model/decoder/shared/Gather' הודעת סטטוס: רכיב מדדים מחוץ לגבולות הנתונים, idx=65838 חייב להיות בטווח הכולל [-62955,62954]'

    שגיאה זו היא די ספציפית, וסביר להניח שהיא קשורה לדגם שבו אתה משתמש. להלן מספר סיבות ופתרונות אפשריים:

    1. אי-תאימות מודל: ודא שדגם OPUS-MT-he-en תואם לספריית Microsoft.ML.OnnxRuntime. אתה יכול לבדוק את התיעוד של הדגם כדי לראות אם הוא נבדק עם זמן ריצה זה.
    2. אינדקסים מחוץ לתחום: הודעת השגיאה מתייחסת לרכיב מדדים מחוץ לגבולות הנתונים. זה עשוי להצביע על כך שהמודל מנסה לגשת לאינדקס שנמצא מחוץ לטווח המדדים התקפים עבור נתוני הקלט. בדוק את נתוני הקלט שלך כדי לוודא שהם בטווח הצפוי.
    3. תצורת צומת: הודעת השגיאה מזכירה צומת Gather, שהוא צומת שאוסף אלמנטים מטנזור. ודא שהצומת מוגדר כהלכה ושהמדדים המשמשים לאיסוף נמצאים בטווח החוקי.
    4. עיבוד מוקדם של הדגם: בדוק אם שלבי העיבוד המקדים של הדגם נכונים. ייתכן שהבעיה קשורה לאופן שבו המודל מצפה שנתוני הקלט יהיו בפורמט.

    כדי לפתור בעיה זו, תוכל לנסות את הפעולות הבאות:

    • בדוק את התיעוד והדוגמאות של הדגם כדי לוודא שאתה משתמש בו נכון.
    • בדוק את נתוני הקלט ואת תצורת המודל כדי לשלול כל מדדים מחוץ לתחום או צמתים שגויים.
    • נסה להפחית את מורכבות המודל או להתאים את ארכיטקטורת הרשת כדי לראות אם זה פותר את הבעיה.
    • אם אתה עדיין תקוע, שקול לפנות לקהילת Hugging Face או למנהלי Microsoft.ML.OnnxRuntime לקבלת סיוע נוסף.

    אני מקווה שזה עוזר!


  • גוגל טרנסלייט אופליין
    אלף שיןא אלף שין

    @yossiz כתב בגוגל טרנסלייט אופליין:

    אשמח מי שיוכל להפנות אותי להדרכה על אמולטור וכו',
    

    https://madrichim.ovh/topic/319/wsa-סביבת-האנדרואיד-של-ווינדוס-11-מבוא

    אני ישמח להדרכה על ווינדוס 10...


  • גוגל טרנסלייט אופליין
    אלף שיןא אלף שין

    @yossiz כתב בגוגל טרנסלייט אופליין:

    עריכה: מצאתי (מעניין שלא מופיע בחיפוש בחנות)

    תוכל לראות כאן,
    לאחר שתעשה את ההוראות שם אשמח לדעת האם זה עבד לך,

    @yossiz כתב בגוגל טרנסלייט אופליין:

    אבל אני לא מצליח להתקין. כפתור "התקן" לא מופיע בתוכנת החנות

    אתה מחובר עם חשבון מייקרוספוט שלך?


  • גוגל טרנסלייט אופליין
    אלף שיןא אלף שין

    @אף-אחד-3 כתב בגוגל טרנסלייט אופליין:

    אי אפשר לעשות את זה עם גוגל טרנסלייט במחשב אבל אתה יכול לשים אמולטור ועליו האפליקציה ולהוריד קובץ שפה
    לחילופין יש את האפליקציה למחשב של מיקרוסופט שנמצאת בחנות האפליקציות של ווינדוס

    תודה לכולם!
    אשמח מי שיוכל להפנות אותי להדרכה על אמולטור וכו',
    כמו"כ האם מה שיש למייקרוסופוט הוא מדויק כמו גוגל טרנסלייט?


  • גוגל טרנסלייט אופליין
    אלף שיןא אלף שין

    שלום רב,
    הבנתי שיש דרך להוריד את גוגל טרנסליט למחשב
    כך שיעבוד אופליין, אשמח לקבל הדרכה איך עושים את זה?
    תודה רבה!

    עריכה- ניסיתי לראות כאן ולא הצלחתי להבין....
    מחכה למומחים פה שיעזרו בזה....


  • ספריית החיפוש meilisearch ב-בC#
    אלף שיןא אלף שין

    @dovid
    נכון הייתי צריך להשמיט את הסוף...
    למעשה לענ"ד זה די פשוט לביצוע,
    משהוא ברעיון הזה.


  • ספריית החיפוש meilisearch ב-בC#
    אלף שיןא אלף שין

    @sivan22 מה מהירות החיפוש באינדקס זה?
    אם זה מדאי כבד אפשר ליצור אינדקס עצמאי [לא צריך דווקא ספריה מוכנה...]

    הרעיון של אינדקס הוא די פשוט
    A background index! That's a great idea to speed up search times. Creating an inverted index is a common technique to accelerate searching large amounts of text data. Here's a high-level overview of how you can create a background index:

    What is an inverted index?

    An inverted index is a data structure that maps each unique term (word, phrase, keyword, etc.) to a list of documents that contain that term. This allows for efficient searching, as you can quickly retrieve the documents containing a given term.

    How to create a background index?

    To create a background index, you'll need to follow these steps:

    1. Preprocess the data: Read in your files, split them into individual documents, and tokenize them into individual words (tokens). You may also want to apply stemming, stopword removal, and other text processing techniques to reduce the dimensionality of the data.
    2. Build the index: Create an empty index data structure, such as a dictionary or a hash table, that will store the mapping between terms and documents. Iterate through the tokenized documents and update the index with each document. For each term, add the document ID to the list of documents that contain that term.
    3. Write the index to disk: Once the index is built, write it to disk as a file or a database. This will allow you to store the index independently of the original data and retrieve it quickly for searching.
    4. Build an index writer process: Create a separate process or thread that runs in the background, continuously updating the index as new documents are added, removed, or modified. This process will ensure that the index remains up-to-date.

    How to query the index?

    To query the index, you'll need to:

    1. Tokenize the search query: Break down the search query into individual words (tokens).
    2. Lookup terms in the index: Iterate through the tokens and look up each one in the index. This will give you a list of documents that contain each term.
    3. Intersect the results: Combine the lists of documents that contain each token to get the final result set.
    4. Retrieve and rank the results: Use the final result set to retrieve the actual documents and rank them according to their relevance.

    Some considerations:

    • Index size: The size of the index can grow rapidly as the number of documents increases. You may need to implement techniques like compression, sparse matrices, or distributed indexing to manage the index size.
    • Index latency: Building and updating the index can take time, which may impact the freshness of the data. You may need to implement mechanisms to handle delayed updates or use a combination of real-time and batch updates.
    • Search optimization: The querying process can also be optimized using techniques like caching, caching query results, or using specialized search algorithms.
    • Index rebuilding: When rebuilding the index, you may need to consider strategies like incremental updating, iterative rebuilding, or even splitting the index into smaller pieces.

    Bonus tip: Use existing libraries and tools

    Many programming languages and libraries provide built-in support for creating and querying inverted indices. For example:

    • Lucene.NET (C#): A popular search engine library for .NET that includes support for building and querying inverted indices.
    • Elastic Search ( Java 😞 A distributed search engine that provides high-performance search capabilities and automatically builds inverted indices.
    • Apache Solr (Java): A popular search server that allows you to create and query inverted indices.

    Remember to consider the trade-offs between index size, query performance, and data freshness when designing your background index. Good luck!

    למעשה יש כמה שיפורים קטנים ממש להוסיף ואז זה מושלם!
    [למשל חלוקה של האינדקס לקבצים שונים לפי תווים וכן חלוקת כל מסמך למקטעים].


  • שיתוף | אב טיפוס של תוכנת תרגום אופליין
    אלף שיןא אלף שין

    @קומפיונט האם יש התקדמות בענין?


  • שיתוף | אב טיפוס של תוכנת תרגום אופליין
    אלף שיןא אלף שין

    @קומפיונט כתב בשיתוף | אב טיפוס של תוכנת תרגום אופליין:

    מעניין, אני אבדוק את זה. תודה.
    אתה יודע מה המשמעות של tc-big ??

    באמת התוכנה שלך ממש מהירה,
    האם אתה מתכנן לעשות גם מעברית לאנגלית, ואם כן מתי?


  • OCR כפתרון לבעיית PDF עם פונטים שלא מזוהים כעברית
    אלף שיןא אלף שין

    @yits כתב בזיהוי ושינוי קידוד טקסט בקובץ PDF:

    לדוגמא "מחכה עד שיגדל" נקלט בפעולת העתקת טקסט כ

    Ï„‚È˘ „Ú ‰ÎÁÓ
    ניתן כמובן לנתח את הקידוד באתר הזה https://www.online-decoder.com/he/

    האם יש דרך להמיר קידוד של טקסט בקבצי PDF (ללא ביצוע OCR) באמצעות קוד פייתון או בכל אפשרות אחרת

    קישור לקובץ עם הבעיה המדוברת:

    עשיתי OCR, הנה הדוגמא: 62916-sFile העתקה.pdf
    [אגב, הגדרתי שישנה את התמונה, אפשר להגדיר שם שישאיר כתמונה הניתנת לחיפוש].


  • OCR כפתרון לבעיית PDF עם פונטים שלא מזוהים כעברית
    אלף שיןא אלף שין

    @yits אין לי ספק שלא ניסת,
    באותיות שלימות ומודרניות יש קרוב ל100%.


  • שיתוף | אב טיפוס של תוכנת תרגום אופליין
    אלף שיןא אלף שין

    @דאציג כתב בשיתוף | אב טיפוס של תוכנת תרגום אופליין:

    רציתי להפנות את תשומת לבך, שיש תוכנת תמלול אופליין מבוססת AI (דורשת משאבים רבים), אמנם היא כעת בפיתוח, אבל - עובדת.

    אבל אתה ציינת לתוכנת תמלול,
    והוא מדבר על תוכנת תרגום.


  • OCR כפתרון לבעיית PDF עם פונטים שלא מזוהים כעברית
    אלף שיןא אלף שין

    @yits יש לי פתרון פשוט בהרבה!!
    לעשות OCR חינמי.... יש היום דברים ממש מדוקיים גם לעברית...


  • שיתוף | אב טיפוס של תוכנת תרגום אופליין
    אלף שיןא אלף שין

    @קומפיונט דבר ראשון, תודה רבה!
    זה נראה ממש דבר גדול!
    האם אפשר גם לתרגם הפוך, מעברית לאנגלית?

  • 1 / 1
  • התחברות

  • אין לך חשבון עדיין? הרשמה

  • התחברו או הירשמו כדי לחפש.
  • פוסט ראשון
    פוסט אחרון
0
  • דף הבית
  • קטגוריות
  • פוסטים אחרונים
  • משתמשים
  • חיפוש
  • חוקי הפורום