אפשר להדביק את הטקסט בתוכנת Word
כלים –> אפשרויות –> עברית ואחרים
להוריד את הסימון מן האפשרות “סימני ניקוד”, ללחוץ אישור.
כל סימני הניקוד התקניים אמורים להיעלם.
חולם ודגש נוטים לפעמים להתעקש ולהישאר.
למה? לאלוהי מיקרוסופט פתרונים.
noamt on
28 ביוני, 2006 18:05
לקחתי 15 דקות הפסקה מהעבודה, ובניתי משהו ממש, אבל ממש, quick-n-dirty ב-java. לא לוקח אחריות על התוצאה :-)
הלינק בתגובה הבאה.
טוב, לא יותר מרבכ שעה (רציתי גם לעצב את זה נעים לעין) אבל הנה: כלי להסרת ניקוד מטקסט עברי
אני אשמח לקבל הערות על באגים ובעיות, ואם יהיה ביקוש אבנה את זה כפלאג ל-wordpress.
אם תשמור את הקובץ ב-ANSI (לא ב-Unicode) תוכל להשתמש בפקודת UNIX פשוטה (יש גרסה שלה גם ל-M$Windows) כך:
tr -d “[\300-\337]” without-nikud.txt
כמובן ששמות הקבצים בפקודה הם רק לדוגמא, אתה יכול לבחור שמות כרצונך.
לגבי Unicode המצב יותר מסובך כי כל תו (או ניקוד) מיוצג ע”י שני בתים ותוכנית פשוטה כמו tr או sed לא מבחינה בין בית זוגי לאי זוגי, אבל קל מאוד לכתוב תוכנית קטנה שתעשה זאת.
קהרו – אפשר לקצר את כל הקוד לבדיקה לפי asc של התו במקום לבצע החלפות של כל ניקוד בנפרד. כל הניקוד יושב בין 192 ל- 210. כלומר אתה יכול לרוץ על כל התווים, על כל תו לבדוק את ה- asc שלו ואם הוא בתחום הנ”ל, אז כמו שאומרת ההיא – “תז’רקי אותו”.
נ.ב.
המהדרין יוותרו בבדיקה הזו על תו 208 (קו אנכי – |) שהוא לא ממש ניקוד אלא אחד מטעמי המקרא (פסק).
צריך תוכנה שמורידה ניקוד אבל בו בזמן עושה המרה מכתיב חסר לכתיב מלא. אחרת מקבלים מילים כמו “צפורה”, כלומר, בלי חיריק וגם בלי האות י’. לעשות דבר כזה לטקסט שלם יכול להיות מרגיז מאוד, כי אף אחד לא משתמש היום בכתיב חסר.
ג.פ. on
30 ביוני, 2006 02:06
אבל למה לעשות את זה?
למה?
קהרו on
3 ביולי, 2006 08:59
יובל, הקלטת מאקרו בוורד לא יודעת לעשות את מה שאתה אומר… הקוד שצורף שגוי ברמה כזו שעצם ההתיחסות אליו לא שווה.
יובל on
4 ביולי, 2006 21:48
קהרו – ברור, זאת היתה עצה לטובת מי שמוכן להפשיל שרוולים ולכתוב מאקרו לבד או לערוך מאקרו שהוקלט.
אפשר לכתוב קוד JavaScript פשוט שקורא את הטקסט, מוריד ממנו את הניקוד, ומציג לפניך טקטס בלי ניקוד.
יש דרך להסתיר אותו – זה מספיק טוב?
חיפוש והחלפה על סימני הניקוד. עובד. בדקתי.
פשששששששש איזה מזל יש לך שבמקרה קיבלתי קישור לוובסטר.
אתה יכול לעשות replace all: לכתוב קמץ וב replace שום דבר, וכך לגבי כל התווים.
אני זוכר ששמעתי על תוכנה ללינוקס שעושה את זה, לא זכור לי השם… חפש בוגל!
תנסה כאן, עשיתי איזה דף בשביל זה
http://www.eshkol.net/Nikud
ואל תשכח למצוא באגים, כי זה דף בטא
אפשר להדביק את הטקסט בתוכנת Word
כלים –> אפשרויות –> עברית ואחרים
להוריד את הסימון מן האפשרות “סימני ניקוד”, ללחוץ אישור.
כל סימני הניקוד התקניים אמורים להיעלם.
חולם ודגש נוטים לפעמים להתעקש ולהישאר.
למה? לאלוהי מיקרוסופט פתרונים.
לקחתי 15 דקות הפסקה מהעבודה, ובניתי משהו ממש, אבל ממש, quick-n-dirty ב-java. לא לוקח אחריות על התוצאה :-)
הלינק בתגובה הבאה.
הנה זה:
http://noamtm.googlepages.com/NoNikud.zip
לפתוח את הזיפ לאנשהו, להריץ את NoNikud.bat.
אה כן – צריך להיות Java מותקן במחשב.
בערך:
http://office.microsoft.com/he-il/assistance/HP052580841037.aspx
ואחרי זה להעתיק
כמה דקות….
טוב, יש פה איזה מעקף דרך וורד – זה רק מסתיר, אבל אולי אם תעתיק את זה אחר כך זה יעבור בלי הניקוד:
http://www.tapuz.co.il/tapuzforum/main/articles/article.asp?forumId=62&a=32067&c=4041&sc=1379&ssc=0
טוב, לא יותר מרבכ שעה (רציתי גם לעצב את זה נעים לעין) אבל הנה:
כלי להסרת ניקוד מטקסט עברי
אני אשמח לקבל הערות על באגים ובעיות, ואם יהיה ביקוש אבנה את זה כפלאג ל-wordpress.
אם תשמור את הקובץ ב-ANSI (לא ב-Unicode) תוכל להשתמש בפקודת UNIX פשוטה (יש גרסה שלה גם ל-M$Windows) כך:
tr -d “[\300-\337]” without-nikud.txt
כמובן ששמות הקבצים בפקודה הם רק לדוגמא, אתה יכול לבחור שמות כרצונך.
לגבי Unicode המצב יותר מסובך כי כל תו (או ניקוד) מיוצג ע”י שני בתים ותוכנית פשוטה כמו tr או sed לא מבחינה בין בית זוגי לאי זוגי, אבל קל מאוד לכתוב תוכנית קטנה שתעשה זאת.
שורת הפקודה השתבשה שם (הסימנים “קטן מ” ו”גדול מ” והקטע ביניהם נמחק, כנראה הובן בתור תג) השורה הנכונה היא:
tr -d "[\300-\337]" < nikud.txt > without-nikud.txt
כלים-> אפשרויות-> עברית ואחרים-> להוריד סימון V מ-“הצג ניקוד”, זה אמנם לא מסיר את כל סימני הניקוד אך אולי גם הסרה חלקית תעזור לך.
perl -pe ‘s/[\xc0-\xd2]//g’ bia001.html > bia001noniqqud.html
tr -cd ‘, א-ת’
כמובן שהוא הפך לי את הכל, אבל copy-paste אמור לעבוד.
שחר
אני מניח שבמשפט קצר כזה אין צורך, אבל בוורד (או כל מעבד תמלילים אחר) יש אפשרות של החלפת טקסט. פשוט תעשה פילטרים כמספר סימני הניקוד שיתחלפו בכלום.
כן. זיו פרי (fat fish) פיתח בשבילך במיוחד כלי כזה.
התפלאתי שהוא לא טיקבק פה את זה עד עכשיו
עכשיו יש:
http://tools.fat-fish.co.il/punctuation/
אפשר לעשות COPY & PASTE לתוך NOTEPAD, אבל אז תאבד גם את העיצוב..
אתה יכול להפעיל את word-macro הזה על טקסט (לסמן אותו קודם)
לא הדבר הכי נוח בעולם אבל עושה את העבודה (או לפחות חלק ממנה)
http://www.miraclesalad.com/webtools/clip.php?clip=3b5
בלוג של תוכניתנים נהיה פה …
קהרו – אפשר לקצר את כל הקוד לבדיקה לפי asc של התו במקום לבצע החלפות של כל ניקוד בנפרד. כל הניקוד יושב בין 192 ל- 210. כלומר אתה יכול לרוץ על כל התווים, על כל תו לבדוק את ה- asc שלו ואם הוא בתחום הנ”ל, אז כמו שאומרת ההיא – “תז’רקי אותו”.
נ.ב.
המהדרין יוותרו בבדיקה הזו על תו 208 (קו אנכי – |) שהוא לא ממש ניקוד אלא אחד מטעמי המקרא (פסק).
תבדוק את זה
http://fat-fish.co.il/he/הסרת%20ניקוד%20מטקסט%20עברי
צריך תוכנה שמורידה ניקוד אבל בו בזמן עושה המרה מכתיב חסר לכתיב מלא. אחרת מקבלים מילים כמו “צפורה”, כלומר, בלי חיריק וגם בלי האות י’. לעשות דבר כזה לטקסט שלם יכול להיות מרגיז מאוד, כי אף אחד לא משתמש היום בכתיב חסר.
אבל למה לעשות את זה?
למה?
יובל, הקלטת מאקרו בוורד לא יודעת לעשות את מה שאתה אומר… הקוד שצורף שגוי ברמה כזו שעצם ההתיחסות אליו לא שווה.
קהרו – ברור, זאת היתה עצה לטובת מי שמוכן להפשיל שרוולים ולכתוב מאקרו לבד או לערוך מאקרו שהוקלט.
יום אחד אני אבין חצי מהדברים שכתבתם פה
אני מנוי על “נקדן טקסט”, ויש שם כפתור פשוט שמסיר את כל הניקוד. כמו שמוסיפים ניקוד לטקסט, אפשר גם להסיר שם ניקוד מטקסט בפקודה אחת.