שאלה טכנית: הסרת ניקוד מטקסט

שָׁלוֹם רָב שׁוּבֵךְ, צִפֹּרָה נֶחְמֶדֶת (ביאליק)

יש דרך פשוטה להסיר את הניקוד בלי לעבור אות אות?

תגובות

31 תגובות לפוסט “שאלה טכנית: הסרת ניקוד מטקסט”

  1. halemo on 28 ביוני, 2006 16:01

    אפשר לכתוב קוד JavaScript פשוט שקורא את הטקסט, מוריד ממנו את הניקוד, ומציג לפניך טקטס בלי ניקוד.

  2. חגית on 28 ביוני, 2006 16:47

    יש דרך להסתיר אותו – זה מספיק טוב?

  3. חנן כהן on 28 ביוני, 2006 17:05

    חיפוש והחלפה על סימני הניקוד. עובד. בדקתי.

  4. ענת ממעטת on 28 ביוני, 2006 17:16

    פשששששששש איזה מזל יש לך שבמקרה קיבלתי קישור לוובסטר.
    אתה יכול לעשות replace all: לכתוב קמץ וב replace שום דבר, וכך לגבי כל התווים.

  5. קלינגר (14) on 28 ביוני, 2006 17:23

    אני זוכר ששמעתי על תוכנה ללינוקס שעושה את זה, לא זכור לי השם… חפש בוגל!

  6. נדב on 28 ביוני, 2006 17:37

    תנסה כאן, עשיתי איזה דף בשביל זה
    http://www.eshkol.net/Nikud

    ואל תשכח למצוא באגים, כי זה דף בטא

  7. כרמית אלופת אופיס on 28 ביוני, 2006 17:56

    אפשר להדביק את הטקסט בתוכנת Word
    כלים –> אפשרויות –> עברית ואחרים
    להוריד את הסימון מן האפשרות “סימני ניקוד”, ללחוץ אישור.
    כל סימני הניקוד התקניים אמורים להיעלם.
    חולם ודגש נוטים לפעמים להתעקש ולהישאר.
    למה? לאלוהי מיקרוסופט פתרונים.

  8. noamt on 28 ביוני, 2006 18:05

    לקחתי 15 דקות הפסקה מהעבודה, ובניתי משהו ממש, אבל ממש, quick-n-dirty ב-java. לא לוקח אחריות על התוצאה :-)
    הלינק בתגובה הבאה.

  9. noamt on 28 ביוני, 2006 18:06

    הנה זה:
    http://noamtm.googlepages.com/NoNikud.zip

    לפתוח את הזיפ לאנשהו, להריץ את NoNikud.bat.

    אה כן – צריך להיות Java מותקן במחשב.

  10. ירון on 28 ביוני, 2006 18:36
  11. זיו פרי (fat fish) on 28 ביוני, 2006 19:26

    כמה דקות….

  12. מ עוז on 28 ביוני, 2006 19:37

    טוב, יש פה איזה מעקף דרך וורד – זה רק מסתיר, אבל אולי אם תעתיק את זה אחר כך זה יעבור בלי הניקוד:
    http://www.tapuz.co.il/tapuzforum/main/articles/article.asp?forumId=62&a=32067&c=4041&sc=1379&ssc=0

  13. זיו פרי (fat fish) on 28 ביוני, 2006 19:58

    טוב, לא יותר מרבכ שעה (רציתי גם לעצב את זה נעים לעין) אבל הנה:
    כלי להסרת ניקוד מטקסט עברי
    אני אשמח לקבל הערות על באגים ובעיות, ואם יהיה ביקוש אבנה את זה כפלאג ל-wordpress.

  14. אהוד on 28 ביוני, 2006 21:39

    אם תשמור את הקובץ ב-ANSI (לא ב-Unicode) תוכל להשתמש בפקודת UNIX פשוטה (יש גרסה שלה גם ל-M$Windows) כך:

    tr -d “[\300-\337]” without-nikud.txt

    כמובן ששמות הקבצים בפקודה הם רק לדוגמא, אתה יכול לבחור שמות כרצונך.

    לגבי Unicode המצב יותר מסובך כי כל תו (או ניקוד) מיוצג ע”י שני בתים ותוכנית פשוטה כמו tr או sed לא מבחינה בין בית זוגי לאי זוגי, אבל קל מאוד לכתוב תוכנית קטנה שתעשה זאת.

  15. אהוד on 28 ביוני, 2006 21:56

    שורת הפקודה השתבשה שם (הסימנים “קטן מ” ו”גדול מ” והקטע ביניהם נמחק, כנראה הובן בתור תג) השורה הנכונה היא:

    tr -d "[\300-\337]" < nikud.txt > without-nikud.txt

  16. L on 28 ביוני, 2006 22:13

    כלים-> אפשרויות-> עברית ואחרים-> להוריד סימון V מ-“הצג ניקוד”, זה אמנם לא מסיר את כל סימני הניקוד אך אולי גם הסרה חלקית תעזור לך.

  17. אורי on 28 ביוני, 2006 22:50

    perl -pe ‘s/[\xc0-\xd2]//g’ bia001.html > bia001noniqqud.html

  18. שחר שמש on 28 ביוני, 2006 23:31

    tr -cd ‘, א-ת’

    כמובן שהוא הפך לי את הכל, אבל copy-paste אמור לעבוד.

    שחר

  19. RegShoe on 29 ביוני, 2006 01:04

    אני מניח שבמשפט קצר כזה אין צורך, אבל בוורד (או כל מעבד תמלילים אחר) יש אפשרות של החלפת טקסט. פשוט תעשה פילטרים כמספר סימני הניקוד שיתחלפו בכלום.

  20. blut on 29 ביוני, 2006 02:21

    כן. זיו פרי (fat fish) פיתח בשבילך במיוחד כלי כזה.
    התפלאתי שהוא לא טיקבק פה את זה עד עכשיו

  21. משתמש אנונימי (לא מזוהה) on 29 ביוני, 2006 07:13
  22. גיא מזרחי on 29 ביוני, 2006 07:47

    אפשר לעשות COPY & PASTE לתוך NOTEPAD, אבל אז תאבד גם את העיצוב..

  23. קהרו on 29 ביוני, 2006 07:56

    אתה יכול להפעיל את word-macro הזה על טקסט (לסמן אותו קודם)
    לא הדבר הכי נוח בעולם אבל עושה את העבודה (או לפחות חלק ממנה)

    http://www.miraclesalad.com/webtools/clip.php?clip=3b5

  24. יובל on 29 ביוני, 2006 11:15

    בלוג של תוכניתנים נהיה פה …

    קהרו – אפשר לקצר את כל הקוד לבדיקה לפי asc של התו במקום לבצע החלפות של כל ניקוד בנפרד. כל הניקוד יושב בין 192 ל- 210. כלומר אתה יכול לרוץ על כל התווים, על כל תו לבדוק את ה- asc שלו ואם הוא בתחום הנ”ל, אז כמו שאומרת ההיא – “תז’רקי אותו”.

    נ.ב.
    המהדרין יוותרו בבדיקה הזו על תו 208 (קו אנכי – |) שהוא לא ממש ניקוד אלא אחד מטעמי המקרא (פסק).

  25. אריאל on 29 ביוני, 2006 12:21
  26. רועי on 29 ביוני, 2006 12:22

    צריך תוכנה שמורידה ניקוד אבל בו בזמן עושה המרה מכתיב חסר לכתיב מלא. אחרת מקבלים מילים כמו “צפורה”, כלומר, בלי חיריק וגם בלי האות י’. לעשות דבר כזה לטקסט שלם יכול להיות מרגיז מאוד, כי אף אחד לא משתמש היום בכתיב חסר.

  27. ג.פ. on 30 ביוני, 2006 02:06

    אבל למה לעשות את זה?
    למה?

  28. קהרו on 3 ביולי, 2006 08:59

    יובל, הקלטת מאקרו בוורד לא יודעת לעשות את מה שאתה אומר… הקוד שצורף שגוי ברמה כזו שעצם ההתיחסות אליו לא שווה.

  29. יובל on 4 ביולי, 2006 21:48

    קהרו – ברור, זאת היתה עצה לטובת מי שמוכן להפשיל שרוולים ולכתוב מאקרו לבד או לערוך מאקרו שהוקלט.

  30. איתי בנר on 7 בנובמבר, 2010 15:00

    יום אחד אני אבין חצי מהדברים שכתבתם פה

  31. אמנון לבב - לבבי מדריכים on 25 בינואר, 2012 09:34

    אני מנוי על “נקדן טקסט”, ויש שם כפתור פשוט שמסיר את כל הניקוד. כמו שמוסיפים ניקוד לטקסט, אפשר גם להסיר שם ניקוד מטקסט בפקודה אחת.

פרסום תגובה

עליך להתחבר כדי להגיב.