<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2full.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0">

<channel>
	<title>‫המדריך לטרמפיסט בסטטיסטיקה‬</title>	
	<link>http://www.biostatistics.co.il</link>
	<description>‫בלוג סטטיסטיקה ללא סטטיסטיקאים וגם ההיפך (גירסת הרצה)‬</description>	<lastBuildDate>Sat, 21 Apr 2012 18:14:47 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://feeds.feedburner.com/statistics" /><feedburner:info uri="statistics" /><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" /><feedburner:emailServiceId>statistics</feedburner:emailServiceId><feedburner:feedburnerHostname>http://feedburner.google.com</feedburner:feedburnerHostname><item>
		<title>‫אנשי R (בהווה ובעתיד) – בואו ניפגש‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/OjYiUVIvpns/343</link>
		<comments>http://www.biostatistics.co.il/2012/04/343#comments</comments>
		<pubDate>Sat, 21 Apr 2012 18:03:37 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[אינטרנט]]></category>
		<category><![CDATA[אירוע]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[R בישראל]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=343</guid>
		<description><![CDATA[&#8235;על R ועלי:  אלו מיכם שמכירים אותי אישית יודעים שאני שהאהבות הגדולות שלי בחיים (שאינם בני אדם) זה מידע פתוח, קוד פתוח, אינטרנט וסטטיסטיקה. את כל אלו אני זוכה (בצורה כזו או אחרת) לשלב דרך שפת R. R זו סביבת פיתוח, ושפת תכנות, המיועדת לתכנות סטטיסטי. התוכנה מפותחת ומופצת בקוד פתוח ומאפשרת אינספור שימושים והרחבות. [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p><span style="text-decoration: underline;"><strong>על R ועלי</strong></span>:  אלו מיכם שמכירים אותי אישית יודעים שאני שהאהבות הגדולות שלי בחיים (שאינם בני אדם) זה מידע פתוח, קוד פתוח, אינטרנט וסטטיסטיקה. את כל אלו אני זוכה (בצורה כזו או אחרת) לשלב דרך <a href="http://r-israel.com/what-is-r">שפת R</a>. R זו סביבת פיתוח, ושפת תכנות, המיועדת לתכנות סטטיסטי. התוכנה מפותחת ומופצת בקוד פתוח ומאפשרת אינספור שימושים והרחבות.</p>
<p><span style="text-decoration: underline;"><strong>קהילות R בעולם</strong></span>:  באופן דומה לפרוייקטים אחרים כמו ויקפדיה וורדפרס, הפרוייקט המונומנטלי שהוא R מצליח בזכות אינספור מתכנתים וסטטיסטיקאים אשר משפרים את המערכת עוד ועוד. הקהילה של משתמשי R היא קהילה חובקת עולם עם קבוצות אשר נפגשות בערים גדולות ברחבי העולם. קבוצות מקומיות של משתמשי R מכונות גם RUG (R user group). יש רשימה של קבוצות כאלה <a href="http://blog.revolutionanalytics.com/local-r-groups.html">כאן</a>, ויש גם בלוג עם הרצאות מוקלטות ממפגשי R ברחבי העולם (<a href="http://r-bloggers.com/RUG">כאן</a>).</p>
<p><span style="text-decoration: underline;"><strong>קהילת R בישראל?</strong></span>  ומה לגבי ישראל? בישראל יש <a href="https://groups.google.com/forum/?fromgroups#!forum/israel-r-user-group">קבוצת דיון של משתמשי R בגוגל גרופס</a> אשר הוקמה על ידי יונתן רוזנבלט (תודה יונתן!). וגם היו שני סדנאות על R במהלך שנת 2012, אשר אורגנו על ידי איגוד הסטטיסטיקאים הישראלים (<a href="http://www.statistics.org.il/?p=296">קישור</a>). אבל זה עדיין לא קהילה.</p>
<p><span style="text-decoration: underline;"><strong>בואו ניפגש</strong></span>: כדי שנהפך להיות קהילת משתמשי R בישראל, אנחנו צריכים להיפגש ולהכיר. רצוי באופן קבוע יחסית (פעם בחודש עד 4 חודשים?). מה שמוביל אותי למטרת הפוסט. אם אתם מעוניינים להיפגש עם אנשי R, אנא <a href="http://r-israel.com/mailing-list">השאירו את פרטיכם בטופס הזה</a> (הטופס ממוקם באתר חדש שהוקם לצורך ריכוז מידע עבור הקהילה שתתהווה). אחרי שהטופס יתחיל להתמלא, אני אוכל לקבל מושג על מי עוד &quot;נמצא שם&quot;. ולפי זה אפשר יהיה להתחיל לתכנן מפגשים (בהתאם לרקע של האנשים שירשמו), ולגלגל את הכדור הלאה&#8230;</p>
<p><span style="text-decoration: underline;"><strong>רצינות הבלוגר</strong></span>: רק כדי להבהיר שאני רציני לגבי הפוסט הזה &#8211; 1) הייתי בין המארגנים של שני כנסי קוד פתוח (<a href="http://www.talgalili.com/2007/08/35">וורדקמפ 2007</a> ו<a href="http://www.talgalili.com/2008/10/473">ורדקמפ 2008</a>). ביוני הקרוב אני מתכנן לטוס לארה&quot;ב לכנס useR!2012 הבינלאומי, אני מניח שבאחד ממפגשי ה- R הקרובים אני אתן הרצאה על דברים מעניינים שאגלה שם. וגם תודה ל<a href="http://shlomoyona.blogspot.com/">שלמה יונה</a> (מאאוטבריין) אשר דחף אותי לקדם את הנושא, ומסייע מאד בצד הלוגיסטי והרוחני.</p>
<p>&nbsp;</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2012%2F04%2F343&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/OjYiUVIvpns" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2012/04/343/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2012/04/343</feedburner:origLink></item>
		<item>
		<title>‫כך זינק המס שאנחנו משלמים על הדלק?!‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/M16IZ6HlZLA/311</link>
		<comments>http://www.biostatistics.co.il/2012/03/311#comments</comments>
		<pubDate>Sat, 31 Mar 2012 21:23:09 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[דיסאינפוגרפיקה]]></category>
		<category><![CDATA[ויזואליזציה]]></category>
		<category><![CDATA[סטטיסטיקה בתקשורת]]></category>
		<category><![CDATA[סטטיסטיקה על העולם]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=311</guid>
		<description><![CDATA[&#8235;באולפן שישי מהימים האחרונים (30.03.2012), התנוססה לה כתבה תחת הכותרת &#34;כך זינק המס שאנחנו משלמים על הדלק&#34;. בכתבה מופיע תרשים מרשים המראה את הטיפוס הבלתי נלאה של המס שאנחנו משלמים על הדלק בעשור האחרון. היות והרבה חברים בפייסבוק החליטו להפיץ את התרשים הזה, החלטתי להסתכל עליו קצת יותר, הנה הוא: בתרשים הזה יש שני כשלים [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p>באולפן שישי מהימים האחרונים (30.03.2012), התנוססה לה כתבה תחת הכותרת &quot;כך זינק המס שאנחנו משלמים על הדלק&quot;. בכתבה מופיע תרשים מרשים המראה את הטיפוס הבלתי נלאה של המס שאנחנו משלמים על הדלק בעשור האחרון. היות והרבה חברים בפייסבוק החליטו להפיץ את התרשים הזה, החלטתי להסתכל עליו קצת יותר, הנה הוא:</p>
<p><a href="http://www.biostatistics.co.il/2012/03/311/gas-price-0" rel="attachment wp-att-315"><img class="alignnone  wp-image-315" title="gas price 0" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/gas-price-0.jpg" alt="" width="450" /></a></p>
<p>בתרשים הזה יש שני כשלים משמעותיים: הראשון הוא מבחינה עיצובית (תרשים עמודות תלת מימדי, במקום דו מימדי) והשני הוא מבחינת סוג הנתונים שהוצגו (נתונים גולמיים ללא תיקנון). וכעת הסבר מורחב:</p>
<p><span id="more-311"></span></p>
<h2>הטייה 1: תלת מימד כושל בלשקף את הנתונים</h2>
<p>נתחיל בנושא העיצוב. עד היום לא נתקלתי בשום גרף עמודות תלת מימדי שהיה יותר אינפורמטיבי מאשר הגרף הדו-מימדי. נהפוך הוא, תרשימים כאלה הם לרוב סוג של דיסאינפוגרפיקה שמעוותת את הרושם שנוצר מהנתונים. במקרה שלנו, מה שהתלת מימד עושה הוא להוסיף נפח לא מלבני לעמודות, מה שלא תורם לשימושיות של הגרף, רק גורע ממנו.</p>
<h2>הטייה 2: הבחירה של תחילת הצירים</h2>
<p>הבחירה של מה תהיה נקודת ההתחלה של הצירים כאן משפיעה על הגודל היחסי של כל עמודה. תסתכלו בבקשה על העמודה הכי שמאלית והכי ימנית בגרף. מדידה פשוטה של השוואת הגבהים מראה שהעמודה הימנית (מבחינה גרפית) נראית כמעט פי שלוש וחצי מהגובה של העמודה השמאלית. אבל אם טורחים לקרוא את המספרים, מגלים שמדובר במספר שהוא פחות מפי שלוש (עדיין עליה, אבל לא פי שלוש וחצי). זה כנראה בגלל הבחירה של ראשית הצירים (תודה להדב מהתגובות על התיקון שסיפקה לי)</p>
<p><a href="http://www.biostatistics.co.il/2012/03/311/gas-price-3d-is-bad-1" rel="attachment wp-att-312"><img title="gas price - 3d is bad - 1" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/gas-price-3d-is-bad-1-300x93.png" alt="" width="300" height="93" /></a></p>
<p>&nbsp;</p>
<p>כך נראה הגרף כאשר מציגים אותו בדו-מימד, ועם נקודת ה-0 בתחילת ציר ה- y.  פחות אקשן אבל (הרבה) יותר מדוייק:</p>
<p><a href="http://www.biostatistics.co.il/2012/03/311/gas-price-1" rel="attachment wp-att-314"><img class="alignnone size-full wp-image-314" title="gas price 1" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/gas-price-1.png" alt="" width="393" height="331" /></a></p>
<h2>הטייה 3: תנו את הנתונים הגולמיים כדי ליצור בילבול מקסימאלי</h2>
<p>כעת נעבור להטייה השלישית בגרף &#8211; לתת נתונים גולמיים מבלי לתקנן אותם לגורמים שאינם קשורים למשמעות שמעניינת אותנו.</p>
<p>אני משער שמטרתו של הגרף שהוצג בשידור הייתה לעורר זעם כלפי הממשלה. עלייה במחירי הדלק היא דבר מרגיז, שהרי מי מאיתנו רוצה לשלם לממשלה יותר מיסים? (שבין כה הולכים בשביל לשלם על דברים שאנחנו לא תמיד מסכימים לגביהם, כמו שחיתות, ותשלומים למגזרים ייעודיים, כל עוד אנחנו לא שייכים להם). אבל רגע, האם זה באמת מה שהגרף הזה מלמד שקרה? אני לא בטוח, ובואו נראה למה.</p>
<p>כמות הכסף שאנחנו מוציאים על דלק קשורה באחוז המיסוי של הדלק (עם תיקנון לערך השקל וכדומה), נשמע הגיוני, לא?! אך לא זה הנתון שהביאו לנו. מה שהתרשים שהוצג מתאר (כפי שמופיע בכיתוב הלבן הקטן שמופיע מתחת לצד השמאלי של הכותרת) הוא כמות ההכנסות במליארדי שקלים שנכנסו לקופת המדינה מהמס על הדלק (לפחות כך אני מבין את הכיתוב). ובכן, זה המספר הזה אכן עלה באופן די דרמטי בעשור האחרון. למעשה, הסכום הזה עלה כמעט פי שלוש בתוך עשר שנים, זה אכן הרבה.<br />
אבל רגע, האם הסיבה לעלייה בהכנסות ממיסוי על הדלק היא בגלל שאני ואתם משלמים יותר מיסים על הדלק? כנראה שגם, אבל לא רק.<br />
סביר מאד להניח שהעלייה בהכנסות קשורה לדברים אחרים. לדוגמא, העלייה בכמות הרכבים על הכביש, אשר יכול לשקף את העלייה בכמות האזרחים שיכולים לנהוג. לא ניסיתי למצוא נתונים כאלה, אבל כן מצאתי בזריזות את הנתונים של גודל האוכלוסייה בישראל בעשור האחרון (מקור: <a href="http://he.wikipedia.org/wiki/%D7%A7%D7%95%D7%91%D7%A5:Population_of_Israel_since_1949.svg">ויקיפדיה</a>), והפלא ופלא, המספר הזה עולה. למעשה, כאשר מציגים את התרשים של עליית ההכנסות מהמיסוי ביחד עם העלייה בגודל האוכלוסייה, נראה ששניהם עולים &quot;ביחד&quot;.</p>
<p><a href="http://www.biostatistics.co.il/2012/03/311/gas-price-2-fixed" rel="attachment wp-att-330"><img class="alignnone size-full wp-image-330" title="gas price 2 - fixed" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/gas-price-2-fixed.png" alt="" width="431" height="336" /></a></p>
<p>אם ניצור תרשים פיזור ונתאים להם קו לינארי, נראה שאפשר לתת תחזית ממש מעולה של כמות ההכנסות ממיסוי הדלק, פשוט על פי גודל האוכלוסיה (הקורלציה היא כמעט מושלמת, עם R בריבוע של 0.98):</p>
<p>&nbsp;</p>
<p><a href="http://www.biostatistics.co.il/2012/03/311/gas-price-4-fixed" rel="attachment wp-att-331"><img class="alignnone size-full wp-image-331" title="gas price 4 - fixed" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/gas-price-4-fixed.png" alt="" width="426" height="284" /></a></p>
<p>למען ההבהרה: המשמעות של הקורלציה הכמעט מושלמת הזו איננה שכל עליית המיסים מוסברת על ידי הגידול באוכלוסיה. (זוכרים, קורלציה היא לא סיבתיות&#8230;)</p>
<p>המשמעות של הקורלציה היא שלתת את הנתונים הגולמיים, בתקופה שבה יש צמיחה של הרבה גורמים, היא להתיימר ולומר שכל הסיפור של עליית המיסים מנותק מההקשר של צמיחה בגורמים אחרים באותו הזמן. ברור לי שהיה עלייה במיסוי על הדלק, ברור לי שהיום אני משלם יותר על דלק. יחד עם זאת, הנתונים שערוץ החדשות בחר להביא לא עוזרים לי לדעת כמה אני משלם יותר, רק כמה הממשלה מרוויחה יותר (מה שתלוי בעוד דברים מלבד בכמה אני משלם יותר, כמו לדוגמא- כמה אנשים משלמים יותר).</p>
<h2>אז מה זה אומר?</h2>
<p>שהגרף שהביאו לנו בחדשות לא עוזר לנו לדעת כמה החמיר מצבנו (או שלא). מה שכן, זו הזדמנות נהדרת להדגים את שני הדיסאינפוגרפיקות עליהן עברתי בפוסט הזה.</p>
<p>&nbsp;</p>
<p><span style="text-decoration: underline;"><strong>עידכונים לפוסט</strong></span>:</p>
<ol>
<li>אבנר מ&quot;<a href="http://charts.strawjackal.org/">שקרים יפים</a>&quot;, פירסם רשומה שבה הוא כן מביא את הנתון על<a href="http://charts.strawjackal.org/2012/04/%D7%90%D7%99%D7%A0%D7%A4%D7%95%D7%92%D7%A8%D7%A4%D7%99%D7%A7%D7%94-%D7%9E%D7%AA%D7%97%D7%AA-%D7%9C%D7%A4%D7%A0%D7%A1/"> מחירי הדלק בתדלוק עצמי מהעשור האחרון</a>. וממחיש כיצד גם הנתון הזה (כשלעצמו) לא מספיק בשביל להבין את מלוא המשמעות של שינויי המחירים. אין מה לעשות, העולם מורכב&#8230;</li>
<li>לאור הביקורות (הלגיטימיות) בתגובות, תיקנתי שני תרשימים שמציגים את צמיחת האוכלוסיה בישראל, כך שיכללו את ה-0 בציר המספרים. בגרף הראשון זה נראה די טוב, בגרף של הקורלציות זה יוצא קצת מעוות, אבל כנראה עדיף ככה&#8230; (טועים, טעיתי, אטעה &#8211; תודה על הסובלנות, אם יש כזו <img src='http://www.biostatistics.co.il/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  )</li>
<li>תיקון נוסף לפוסט היה להבחין שהסיבה לחוסר הפרופורציות בין העמודות נבעה מתחילת הצירים ולא מהשימוש בתלת מימד (כפי ששגיתי בתחילה לחשוב)</li>
<li>בינתיים,  מחלקת המחקר של הכנסת בדקה את הנושא יותר לעומק. הבדיקה שלה כוללת התייחסות למחירי הדלק במונחים של כוח קנייה ונטרול של השפעת הפערים ברמת החיים בין המדינות. על פי הנתונים, ישראל במקום ה-6 באירופה מבחינת יוקר הבנזין ובמקום ה-4 מבחינת גובה המס על הדלקים. <a href="http://www.ynet.co.il/articles/0,7340,L-4216563,00.html">קישור</a>.</li>
</ol>
<p><strong>פיספסתי משהו? הפוסט ריגש אותכם? כרגיל, אני אוהב לקרוא תגובות&#8230;</strong></p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2012%2F03%2F311&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/M16IZ6HlZLA" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2012/03/311/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2012/03/311</feedburner:origLink></item>
		<item>
		<title>‫תרשים של מחירי דירות בשנתיים האחרונות – אני לא רואה בשורות גדולות – ואתם?‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/pNWihS685Ko/299</link>
		<comments>http://www.biostatistics.co.il/2012/03/299#comments</comments>
		<pubDate>Wed, 28 Mar 2012 12:20:56 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[ויזואליזציה]]></category>
		<category><![CDATA[סטטיסטיקה בתקשורת]]></category>
		<category><![CDATA[סטטיסטיקה על העולם]]></category>
		<category><![CDATA[אינפוגרפיקה]]></category>
		<category><![CDATA[גרפיקה]]></category>
		<category><![CDATA[ויזואליזציה תרשימי מגמות]]></category>
		<category><![CDATA[מחאת האוהלים]]></category>
		<category><![CDATA[מחירי הדירות]]></category>
		<category><![CDATA[תרשימים]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=299</guid>
		<description><![CDATA[&#8235;מדור הכלכלה של ווינט פירסם לפני כמה שעות את הנתונים שפרסם היום משרד הבינוי והשיכון. המממ, כשאני אומר &#34;פירסם&#34;, כוונתי היא שהעיתון נתן צילום מסך של טבלת נתונים, ביחד עם תיאור של היחס בין מחירי הדירות בתאריכים שונים (דהיינו, הירידה באחוזים). אז מה הפריע לי? שלהסתכל על (צילום מסך) של טבלת נתונים גדולה לא ממש [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p>מדור הכלכלה של ווינט <a href="http://www.ynet.co.il/articles/0,7340,L-4209102,00.html">פירסם לפני כמה שעות</a> את הנתונים שפרסם היום משרד הבינוי והשיכון.</p>
<p>המממ, כשאני אומר &quot;פירסם&quot;, כוונתי היא שהעיתון נתן צילום מסך של טבלת נתונים, ביחד עם תיאור של היחס בין מחירי הדירות בתאריכים שונים (דהיינו, הירידה באחוזים).<br />
אז מה הפריע לי? שלהסתכל על (צילום מסך) של טבלת נתונים גדולה לא ממש עוזר לי להבין מה קורה בשוק הדיור (ותיאור האחוזים של הכתבה גם כן לא עוזר).</p>
<h2>הכנת הנתונים</h2>
<p>רציתי ליצור תרשים של הנתונים. בשלב הראשון, הורדתי את התמונה של טבלת הנתונים מהאתר של ווינט (<a href="http://www.ynet.co.il/PicServer3/2012/03/28/3829534/Untitled-2_wa.jpg">קישור</a>) . בשלב השני נגשתי לגוגל וחיפשתי &quot;OCR jpg to doc&quot;, כדי למצוא אתר שיאפשר לי להמיר את התמונה למספרים (כדי שאני לא אצטרך להתאמץ יותר מידי בהקלדה). הנה קישור לאתר שהצליח לא רע להמיר את התמונה למסמך וורד (<a href="http://www.onlineocr.net/">קישור</a>). את הטבלה שבקובץ וורד העברתי לאקסל, ותיקנתי כל מיני שגיאות (פסיקים, נקודות, ואפסים חסרים).<br />
אתם מוזמנים להוריד את הקובץ שהתקבל ולחשוב על דברים יצירתיים אחרים לעשות איתו (<a href="http://www.biostatistics.co.il/?attachment_id=300">קישור לקובץ הנתונים</a>).</p>
<h2>התרשים של מחירי הדירות בשנתיים האחרונות</h2>
<p>מה שמצער אותי זה שאני לא מבין את המשמעות המדוייקת של המחיר. אני לא יודע אם זה מחיר ממוצע לדירה בגודל מסויים. באיזה איזורים בארץ, וכן הלאה. המשמעות המדוייקת של הנתון לוטה בערפל, לא מתואר בכתבה של ווינט, ודורש חפירה באתר של משרד השיכוי והבינוי (וזה בהנחה שהם רשמו את ההסבר שם איפשהו).<br />
אבל בואו נניח שהנתון הזה בכל זאת מייצג משהו על מה שקורה בארץ. הנה התרשים:</p>
<p><a href="http://www.biostatistics.co.il/wp-content/uploads/2012/03/dirot-2010-till-2012-line-plot.png"><img class="alignnone  wp-image-301" title="dirot 2010 till 2012 - line plot" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/dirot-2010-till-2012-line-plot.png" alt="" width="458" height="328" /></a></p>
<p>הקו הכחול הוא של מחירי דירות יד שניה, בעוד שהקו האדום הוא של מחירי דירות חדשות. הקו השחור שהוספתי על גבי הנתונים הוא החלקה על פני 4 תקופות (אפשר לחשוב על זה כעל קו המגמה &quot;הממוצע&quot; של מחירי הדירות).</p>
<h2>מחשבות על הנתונים (ומחאת האוהלים)</h2>
<p>כמה תופעות מעניינות צצות כשמסתכלים על הגרף:</p>
<ol>
<li>מחירי הדירות הם נתון &quot;רועש&quot; בין חודש לחודש (שזה די מרשים לראות כשחושבים על זה שמדובר בממוצע של מחירים). אחת המסקנות שמתקבלות מזה היא שלהשוות חודש ספציפי עם חודש ספציפי בשנה שלפני כן, זה לא בהכרח ההשוואה הכי טובה. מדוע? כי ייתכן שבמקרה (או בכוונה שאיננה &quot;נקיית כפיים&quot;) נבחר להשוות שני חודשים עבורם היה הפרש גדול. וייתכן וההפרש הזה הוא מיקרי, ויהיה מתון יותר בחודש שלאחר מכן. זה אומר שלשם השוואות בין תקופות, ייתכן ועדיף להסתכל על נתונים שעברו &quot;החלקה&quot; (דהיינו, &quot;מיצוע&quot;, מה שמופיע בתרשיימים למעלה בתור הקו השחור).<br />
זה גם אומר שיכול להיות חודש שבו פתאום יכריזו ש&quot;מחירי הדירות מתרסקים&quot; (בעיקר כאשר מדובר במחירי הדירות החדשות), אבל שחודש לאחר מכן המחירים שלהם יתאזנו חזרה למחירים הקודמים.</li>
<li>נראה שיש יותר תנודתיות במחירי הדירות החדשות לעומת מחירי הדירות יד-שניה (זה רק מהסתכלות בעין, לא בהכרח מדובר בהבדל מובהק סטטיסטית). הסבר אחד על כך נתן אוהד דנוס, יו&quot;ר לשכת שמאי המקרקעין, אשר אמר בעקבות פרסום הנתונים כי &quot;הודעת משרד השיכון תואמת אחת לאחת את תחזיות לשכת השמאים בדבר ירידת מחירים זמנית, בשיעורים מינוריים, <strong>כשהקבלנים מוכנים להתפשר מעט יותר משוק דירות היד השנייה, וזאת רק הממונפים שבהם</strong>&quot;.</li>
<li>מאז תחילת מחאת האוהלים (דהיינו, <a href="http://he.wikipedia.org/wiki/%D7%9E%D7%97%D7%90%D7%AA_%D7%94%D7%90%D7%95%D7%94%D7%9C%D7%99%D7%9D">יולי 2011</a>), נראה שהייתה &quot;ירידה&quot; במחירי הדירות החדשות והיד-שניה (בהשוואה לשיא). אם כי הירידה היא על פני המגמה, יותר משמעותית בדירות החדשות &#8211; ובכל מקרה די זעומה ביחס לשונות הכללית של הנתונים. האם הנתונים האלה מלמדים אותנו שמחאת האוהלים השפיע על שוק הדיור והורידה את מחיריו? זו שאלה מצויינת, אינני יודע את התשובה. ייתכן ומחאת האוהלים הגיע באותו הזמן שהתחילה להתהפך מגמת העלייה של מחירי הדיור.</li>
</ol>
<p>בשורה התחתונה, אני לא רואה בשורה גדולה בנתונים האלה, רק קצת תובנות שלא ברור לי מה אפשר לעשות איתן.</p>
<p>אם יש לכם מחשבות על מה לעשות עם הנתונים, או איך לפרש אותם &#8211; אשמח <strong>לקרוא עליהם בתגובות</strong>, אני אוהב ללמוד דברים חדשים&#8230;</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2012%2F03%2F299&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/pNWihS685Ko" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2012/03/299/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2012/03/299</feedburner:origLink></item>
		<item>
		<title>‫מחירי החשמל עולים, אבל לא ככה – ביקורת על גרפיקה מהעיתון‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/A3wgV5S9RlY/258</link>
		<comments>http://www.biostatistics.co.il/2012/03/258#comments</comments>
		<pubDate>Fri, 23 Mar 2012 09:53:07 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[ויזואליזציה]]></category>
		<category><![CDATA[סטטיסטיקה בתקשורת]]></category>
		<category><![CDATA[אינפוגרפיקה]]></category>
		<category><![CDATA[דיסאינפוגרפיקה]]></category>
		<category><![CDATA[הטיות גרפיות]]></category>
		<category><![CDATA[ידיעות אחרונות]]></category>
		<category><![CDATA[מחירי החשמל]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=258</guid>
		<description><![CDATA[&#8235;דף הפייסבוק של ידיעות אחרונותפירסם הודעה עם הגרף שמתחת, ומעליו הטקסט הבא: התעצבנתם מחשבון החשמל המנופח? כשתקבלו את החשבון הבא תתעצבנו עוד יותר. כתבנו עמיר בן-דוד מדווח כי תעריפי החשמל יעלו בשבוע הבא בעוד 8.9%, ובכך ישלימו זינוק של 24% בתוך שנה. תראו כמה שילמתם אז &#8211; וכמה אתם עומדים לשלם עכשיו אין ספק שכעס [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p><a href="http://www.facebook.com/photo.php?fbid=396968343664675&amp;set=a.163280257033486.41864.137106982984147&amp;type=1">דף הפייסבוק של ידיעות אחרונות</a>פירסם הודעה עם הגרף שמתחת, ומעליו הטקסט הבא:</p>
<blockquote><p>התעצבנתם מחשבון החשמל המנופח? כשתקבלו את החשבון הבא תתעצבנו עוד יותר. כתבנו עמיר בן-דוד מדווח כי תעריפי החשמל יעלו בשבוע הבא בעוד 8.9%, ובכך ישלימו זינוק של 24% בתוך שנה. תראו כמה שילמתם אז &#8211; וכמה אתם עומדים לשלם עכשיו</p></blockquote>
<div style="float: centr;"><a href="http://www.biostatistics.co.il/2012/03/258/521765_10150769352472176_260689792175_11635255_287816430_n" rel="attachment wp-att-259"><img class="size-full wp-image-259 aligncenter" style="float: center;" title="521765_10150769352472176_260689792175_11635255_287816430_n" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/521765_10150769352472176_260689792175_11635255_287816430_n.jpg" alt="" width="327" height="566" /></a></div>
<p>אין ספק שכעס זה דבר שמושך תשומת לב של קוראים, ועלייה במחירי החשמל בפירוש עונה על הקריטריון הזה. אבל רגע, האם אתם שמים לב לאיזושהי בעיה בגרף שלמעלה? <span id="more-258"></span> מה שאנחנו רואים כאן זה מצב שבו יש גרף שמנסה לתאר את הטקסט הכתוב, מבלי להקפיד על מה שהמספרים אומרים. זאת במקום לוודא שהגרף מייצג את המספרים, ושהטקסט הכתוב מתאר את הגרף. אז איזה בעיות יש בגרף הזה? <span style="text-decoration: underline;"><strong>נתחיל בגרף העליון שהופיע בעיתון</strong></span>: 1) בציר ה- X (הציר האופקי), המרחק שמופיע בתרשים העמודות, שבין מארס 2011, נובמבר 2011, ואפריל 2012 הוא קבוע (למרות שהמרחק בין התאריך הללו איננו קבוע). 2) בציר ה- Y (הציר האנכי), אנחנו לא רואים את נקודת ה- 0, מה שמקשה לקבל פרופורציה נכונה של מידת העלייה. מהתסכלות בגרף זה עלול להרגיש כאילו העלייה במחיר היא בערך פי 2 מהמחיר שהיה ב- 2010, למרות שזה בפירוש לא המקרה. גרף שישקף את הנתונים טוב יותר, יהיה הגרף הבא: (אשר נוצר בזריזות באקסל), ציר ה- X מתאר את מספר החודשים שעברו מתחילת 2010: <a href="http://www.biostatistics.co.il/2012/03/258/microsoft-excel-book1_2012-03-23_10-55-24" rel="attachment wp-att-260"><img class="alignnone size-full wp-image-260" title="Microsoft Excel - Book1_2012-03-23_10-55-24" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/Microsoft-Excel-Book1_2012-03-23_10-55-24.png" alt="" width="439" height="321" /></a> אומנם הגרף הזה פחות יפה מהגרף שלמעלה (אין בו תקעים נחמדים ועולים), והוא פחות קומפקטי (יש בו הרבה מרווחים ריקים). מאידך, הוא משקף את הנתונים יפה. האם אפשר היה למצוא שילוב סביר בין הגרף בעיתון (שנראה יפה) לגרף שאני יצרתי? אני משער שכן, אבל זה יהיה אתגר. <span style="text-decoration: underline;"><strong>כעת נעבור לגרף התחתון שהופיע בעיתון.</strong></span> פה מדובר בעיוות ממש דרמטי אשר לא רק שאיננו משקף את המציאות, אלא גם פוגע בטענה שהעיתון מנסה לקדם. מה הבעיה בגרף הזה? הבעיה היא שהוא מספר כאילו העלייה במחירי החשמל בין 2010 ל- 2012 הייתה במגמת עלייה לינארית (קווית, ישרה), כאשר אם אנחנו משרטטים את הנתונים (שוב, באקסל פשוט) בסקאלות המתאימות, אנחנו מגלים סיפור אחר לגמרי: <img class="alignnone size-full wp-image-284" style="float: center;" title="chashmal shnati - Microsoft Excel - Book1_2012-03-23_19-11-00" src="http://www.biostatistics.co.il/wp-content/uploads/2012/03/chashmal-shnati-Microsoft-Excel-Book1_2012-03-23_19-11-00.png" alt="" width="335" height="324" /> במילים אחרות, יש מעט קשר בין הגרף שידיעות הציג, לבין המספרים שמופיעים על הגרף. אפשר לראות שהסיפור שהנתונים מספרים הוא של מחיר דומה בשנים 2010 ו- 2011, ואז קפיצה דרמטית ב- 2012. עוד נקודה (עדינה יותר), היא שהנתונים שמוצגים בכתבה הם חסרי קונטקסט. מה היה הטרנד של החשמל בחמש השנים האחרונות? האם זה הגון להשוות בין המחיר של 2012 במשך 4 חודשים שלו, למול המחיר הממוצע של השנים 2011 ו- 2010? (אולי לא, כי אולי יש הרבה רעש, שונות, במחירי החשמל לאורך השנה). אפשר היה גם לחשוב על לתת הקשר של מחירי החשמל בישראל לתופעות אחרות כמו מחירי החשמל במקומות אחרים בעולם, מחירי הנפט והגז במדינות שמהן אנו מייבאים חומרי גלם, ועוד ועוד. כל אלו סוגיות מורכבות יותר שהיה אפשר לחשוב עליהן בהקשר של הצגת הנתונים הנוגעים לתעריפי החשמל בישראל. לסיכום: הגרפיקה שידיעות אחרונות הציג היא &quot;יפה&quot;, אך לא משקפת היטב את הנתונים. הסיפור שהנתונים מציג הוא מורכב (ובעיני, מעניין) יותר מזה שמציגה הכתבה. ובכל מקרה, הייתי שמח ליותר נתונים כדי לקבל הקשר על מה שקורה כרגע. <strong>עידכונון</strong>: <a href="http://www.skeptics.org.il/users/%D7%A2%D7%9E%D7%99%D7%AA-%D7%91%D7%9F-%D7%91%D7%A1%D7%98">עמית בן בסט</a> הציע את המונח (המשובח) &quot;דיסאינפוגרפיקה&quot; בשביל לתאר את התופעה שאנו רואים בפוסט זה. (כמו דיסאינפורמציה, אבל דרך גרפיקה&#8230;) פיספסתי משהו? יש לכם עוד דוגמאות יפות לאינפוגרפיקות &quot;מטעות&quot;? יש לכם מילה טובה לתת? אתם מוזמנים להשאיר תגובה&#8230;</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2012%2F03%2F258&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/A3wgV5S9RlY" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2012/03/258/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2012/03/258</feedburner:origLink></item>
		<item>
		<title>‫רגישות, סגוליות וערכי ניבוי – למה כדאי שכולכם תדעו את זה (וגם איך מחשבים)‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/9pTc_XhBmgw/230</link>
		<comments>http://www.biostatistics.co.il/2011/11/230#comments</comments>
		<pubDate>Wed, 30 Nov 2011 22:12:31 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[אפידמיולוגיה]]></category>
		<category><![CDATA[לסטודנטים]]></category>
		<category><![CDATA[סטטיסטיקה]]></category>
		<category><![CDATA[סטטיסטיקה תיאורית]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=230</guid>
		<description><![CDATA[&#8235;למה כדאי שכולכם תרפרפו על המאמר שכתבתי? (כלומר &#8211; למה כדאי שתפיצו את המאמר הזה לחבריכם) כי כל פעם שאתם ניגשים לבדיקה רפואית שמחליטה האם אתם &#34;בריאים&#34; או &#34;חולים&#34; &#8211; כדאי שתדעו לשאול מהו הערך המנבא החיובי ומהו הערך המנבא השלילי. מדוע? כדי שתבינו, בהינתן שהובחנתם כבריאים/חולים &#8211; מה הסיכוי שההבחנה שקיבלתם באמת מתארת את [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p>למה כדאי שכולכם תרפרפו על המאמר שכתבתי? (כלומר &#8211; למה כדאי שתפיצו את המאמר הזה לחבריכם)<br />
כי כל פעם שאתם ניגשים לבדיקה רפואית שמחליטה האם אתם &quot;בריאים&quot; או &quot;חולים&quot; &#8211; כדאי שתדעו לשאול מהו הערך המנבא החיובי ומהו הערך המנבא השלילי. מדוע? כדי שתבינו, בהינתן שהובחנתם כבריאים/חולים &#8211; מה הסיכוי שההבחנה שקיבלתם באמת מתארת את המציאות.<br />
ביום שבו תצטרכו להבין את זה (וזה יגיע), כדאי שתזכרו את המאמר הזה &#8211; ותקראו אותו טוב (בניגוד לריפרוף הראשוני שבו אתם בטח תקראו אותו כעת).</p>
<p>בפוסט שלפניכם אני מתחיל מלהסביר (לאט לאט) מה זה &quot;רגישות&quot;, &quot;סגוליות&quot; ואז עובר להסביר מה זה &quot;ערך מנבא חיובי ושלילי&quot;. אני מראה כיצד השתמשתי בכל המונחים הללו כדי לחלץ את התשובה לשאלה: &quot;בהינתן שאישה עברה ממוגרפיה והובחנה כחולת סרטן השד &#8211; מהי ההסתברות שבאמת יש לה סרטן השד?&quot; (התשובה מופיעה בסוף הפוסט)</p>
<p>ונתחיל&#8230;.</p>
<p><span id="more-230"></span></p>
<p><span class="Apple-style-span" style="font-size: 26px; font-weight: bold;">רגישות סגוליות וכו'</span></p>
<p dir="RTL">נאמר שישנה מחלה כלשהי שאנו רוצים לזהות באמצעות בדיקה חדשה.</p>
<p dir="RTL">ניקח קבוצה של אנשים מהאוכלוסייה, ובאמצעות בדיקה שתמיד צודקת, אנו יודעים באופן וודאי של- 10 מהם יש את המחלה הזו. כך תראה הטבלה:</p>
<div align="right">
<table dir="rtl" width="321" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="128">
<p dir="LTR" align="center">האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" nowrap="nowrap" width="64">
<p dir="RTL" align="center">הבדיקה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">10</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">?</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">כעת, היינו רוצים להשוות כמה שיטות חדשות לבדוק האם למישהו יש את המחלה או לא. כדי להעריך עד כמה השיטות הללו טובות, אנחנו נלמד שני מדדים לעשות זאת: רגישות וסגוליות.</p>
<p dir="RTL"><strong>רגישות </strong>(sensitivity) מודדת מהו אחוז האנשים <strong>החולים</strong> שהצלחנו לזהות <strong>כחולים</strong>.</p>
<p dir="RTL">כך לדוגמא, נניח שיש לנו רופא פאסימי אשר רוצה שלא לפספס אף אדם חולה. השיטה שלו היא שכל אדם שהוא בודק מיד מוכרז כחולה. במצב כזה, הרגישות של הרופא הפאסימי תהיה 100%. כי הוא בהכרח יצליח לזהות את כל החולים כחולים. (טיפ לאיך לזכור זאת: היא לחשוב על אמא שיש לה רגישות מיוחדת למתי אנחנו חולים)</p>
<p dir="RTL">עם זאת, השיטה הזו איננה בהכרח מוצלחת. מדוע לא? כי הרופא הפאסימי שלנו גם יאבחן בטעות אנשים בריאים בתור אנשים חולים. עד כמה זה חמור? תלוי באחוז החולים מול הבריאים באוכלוסייה.  בואו נאמר שיש לנו מחלה נדירה כלשהי. כזו שפוגעת ב-1 מכל 100 איש. ושהמדגם שלקחנו מהאוכלוסייה היה של 1000 איש. אז הטבלה עכשיו תראה כך:</p>
<div align="right">
<table dir="rtl" width="321" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="128">
<p dir="LTR" align="center">האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" nowrap="nowrap" width="64">
<p dir="RTL" align="center">הבדיקה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">990</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">10</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">1000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">ויצא שבמקביל לזיהוי נכון של 10 מתוך 10 חולים, הרופא הפאסימי שלנו גם זיהה בשוגג 990 אנשים כחולים, למרות שהם בריאים. מכאן אני למדים שיש צורך במדד משלים למדד הרגישות כדי להבין את ההצלחה של כלי המדידה שלנו – ואת זה אנו מכנים סגוליות.</p>
<p dir="RTL"><strong>סגוליות </strong>(specificity או &quot;ספציפיות&quot;) מודדת מהו אחוז האנשים <strong>הבריאים</strong> שהצלחנו לזהות <strong>כבריאים</strong>.</p>
<p dir="RTL">כך שבמקרה של הרופא הפאסימי, הוא לא הצליח לזהות אף איש בריא מבין האנשים הבריאים, ולכן הסגוליות שלו היא 0%. לעומתו, אם היינו פונים לרופא אופטימי (כזה שמכריז על כל אדם כבריא), אזי הסגוליות שלו תהיה מאד טובה – 100%. אבל מצד שני, הרגישות שלו תהיה 0% (שכן הוא לעולם לא יצליח לזהות אף אדם חולה כחולה).</p>
<p dir="RTL">(טיפ לאיך לזכור זאת: אפשר לחשוב על חבר טוב שיש לו את הסגולה תמיד לחפש את מה שחיובי וטוב ובריא אצל אנשים)</p>
<p dir="RTL">כעת אחרי שלמדנו על רגישות וסגוליות, נוסיף עוד נתון בטבלה. נאמר שהבדיקה החדשה שלנו מצליחה לזהות תשעה מתוך עשרת החולים, אז:</p>
<div align="right">
<table dir="rtl" width="321" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="128">
<p dir="LTR" align="center">האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" nowrap="nowrap" width="64">
<p dir="RTL" align="center">הבדיקה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 9</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">990</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">10</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">1000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">מה נאמר שהרגישות של הבדיקה שלנו?</p>
<p style="text-align: left; direction:ltr;">Sensitivity = 9/10 = 0.9 =90%</p>
<p dir="RTL">ומהי הסגוליות של הבדיקה שלנו? מהטבלה הנוכחית אי אפשר לדעת. נאמר שהבדיקה מצליחה לזהות נכון 792 מתוך האנשים הבריאים, אז נקבל ש:</p>
<p style="text-align: left; direction:ltr;">Specificity = 792/990 = 0.8 = 80%</p>
<p dir="RTL">ונוכל לעדכן את הטבלה כך:</p>
<div align="right">
<table dir="rtl" width="321" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="128">
<p dir="LTR" align="center">האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" nowrap="nowrap" width="64">
<p dir="RTL" align="center">הבדיקה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 9</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 792</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">990</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">10</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">1000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">אז על הבדיקה החדשה שלנו אנו יודעים שהיא מצליחה לזהות נכון 90% מהאנשים החולים, ו-80% מהאנשים הבריאים. האם זו בדיקה טובה או לא? באופן טיבעי, היינו רוצים בדיקה שתצליח לזהות 100% מהחולים ו- 100% מהבריאים. אבל לפעמים בדיקות כאלה הן פולשניות, או יקרות. ובמצבים כאלה היינו מעדיפים להסתפק בבדיקה פשוטה/זולה/בטוחה יותר – אפילו שאחוזי הדיוק שלה פחות טובים מהבדיקה המושלמת (את הבדיקה המושלמת, זו שמגלה את ה&quot;אמת&quot;, או הכי קרוב לאמת שאנו יודעים עליה, אנו מכנים גם בתור &quot;סטנדרט הזהב&quot; או gold standard).</p>
<p dir="RTL">החישוב של רגישות וסגוליות מאפשר לנו להשוות בין שיטות שונות ולזהות שיטות שהן בהכרח יותר טובות (כאלה שעבורן מתקבל שהן הרגישות והן הסגוליות שלהן יותר גבוהות), או שיטות שמציאות אלטרנטיבות (נאמר, יותר רגישות, אבל פחות סגוליות – או ההיפך). ההחלטה מה עדיף בבדיקה, רגישות או סגוליות גבוהים, תלויה בהקשר. ויש מצבים שבהם הבחירה בין השניים אינה נתונה להחלטתנו.</p>
<p dir="RTL">כעת נאמר שאנחנו אחד מה-1000 אנשים הללו ושאנו מגיעים לרופא והוא משתמש בבדיקה שמתוארת בטבלה כדי לבדוק אותנו עבור המחלה הזו (ההחלטה לבצע את הבדיקה היא ללא סיבה מיוחדת, אקראית לחלוטין). הבדיקה טוענת שיש לנו את המחלה. האם זה אומר שיש לנו את המחלה? לא בהכרח. בשביל לדעת מה הסיכוי (חשש) שבאמת יש לנו את המחלה, אנו צריכים להשתמש במדד חדש בשם ערך מנבא חיובי.</p>
<p dir="RTL"><strong>ערך ניבוי חיובי</strong> (positive predictive value או בקיצור PPV) הוא אחוז האנשים שבאמת חולים מתוך כלל האנשים שאובחנו כחולים על ידי הבדיקה. כדי לחשב את המדד הזה בטבלה שלנו, עלינו קודם למלא ולזהות כמה אנשים בריאים אובחנו כחולים ואז לחשב כמה סך הכל אובחנו כחולים. אז נמלא את הטבלה ונקבל:</p>
<div align="right">
<table dir="rtl" width="321" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="128">
<p dir="LTR" align="center">האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" nowrap="nowrap" width="64">
<p dir="RTL" align="center">הבדיקה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 198</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 9</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 207</p>
</td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 792</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">990</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">10</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">1000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">מכאן שערך הניבוי החיובי שלנו הוא:</p>
<p>PPV = 9/207 =  0.043 = 4.3%</p>
<p dir="RTL">זה אומר שבגלל שלבדיקה שלנו יש סגוליות שהיא לא 100%, ובגלל שהמחלה שלנו נדירה, מתקבל שישנם המון אנשים שאובחנו כחולים למרות שהם אינם חולים. למעשה, גם אם תאובחן כחולה, הסיכוי שאתה באמת חולה הוא רק 4.3%. וכדי לדעות בוודאות, צריך להשתמש בבדיקה עם יכולת איבחון טובה יותר.</p>
<p dir="RTL">כעת, מה היה קורה אילו הבדיקה הייתה מכריזה עלינו כעל בריאים. מה הסיכוי שאנו באמת בריאים? לשם כך נחשב את יכולת הניבוי השלילי (לא שלהיות בריא זה שלילי. אבל התוצאה לגבי קיום המחלה יצאה שלילית)</p>
<p dir="RTL"><strong>ערך ניבוי שלילי</strong> (negative predictive value או בקיצור NPV) הוא אחוז האנשים שבאמת <strong>בריאים</strong> מתוך כלל האנשים שאובחנו <strong>כבריאים</strong> על ידי הבדיקה. כדי לחשב את המדד הזה בטבלה שלנו, עלינו קודם למלא ולזהות כמה אנשים חולים אובחנו כבריאים ואז לחשב כמה סך הכל אובחנו כבריאים. אז נמלא את הטבלה ונקבל:</p>
<div align="right">
<table dir="rtl" width="321" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="128">
<p dir="LTR" align="center">האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65"></td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" nowrap="nowrap" width="64">
<p dir="RTL" align="center">הבדיקה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 198</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 9</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 207</p>
</td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 792</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 1</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="RTL"> 793</p>
</td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="64"></td>
<td valign="bottom" nowrap="nowrap" width="65">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">990</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">10</p>
</td>
<td valign="bottom" nowrap="nowrap" width="64">
<p dir="LTR" align="right">1000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">מכאן שערך הניבוי השלילי שלנו הוא:</p>
<p style="text-align: left; direction:ltr;">NPV = 792/793 =  = 0.99873 = 99.87%</p>
<p dir="RTL">זה אומר שלמרות שהסגוליות של הבדיקה שלנו היא בסך הכל 80%, עדיין – אם אובחנו כבריאים אז רוב הסיכויים הם שאנו בריאים (מעל ל- 99%). מדוע זה קורה? משום שהסיכוי שנהיה בריאים הוא שילוב של עד כמה המחלה נדירה עם עד כמה הבדיקה מצליחה לזהות אנשים חולים שהם חולים.</p>
<p>&nbsp;</p>
<p dir="RTL">לצורך סיכום הדיון נוסיף עוד שני מונחים אשר משלימים את הסגוליות והרגישות:</p>
<p dir="RTL"><strong>תוצאה חיובית מדומה</strong> (false positive) – זה אחוז הבריאים שאובחנו בטעות כחולים. התוצאה הזו מעניינת את קופות החולים &#8211; כי זה אומר כמה אנשים שולחים לבדיקות נוספות (שעולות כסף), מבלי שהיה להם מחלה אמיתית. במקרה שלנו זה:</p>
<p style="text-align: left; direction:ltr;">FP = 198/990 = 1-specificity = 0.2</p>
<p dir="RTL">זהו אחוז האנשים מתוך הבריאים אשר ידרשו, ללא צורך, בבדיקות המשך יקרות/פולשניות.</p>
<p dir="RTL"><strong>תוצאה שלילי מדומה</strong> (false negative) – זה אחוז החולים שאובחנו בטעות כבריאים. המספר הזה מעניין את (לדוגמא) חברות הביטוח &#8211; כי זה יכול לומר כמה אנשים צפויים לבוא ולתבוע אותם על כך שהרופא לא זיהה את המחלה שלהם בזמן. במקרה שלנו זה:</p>
<p style="text-align: left; direction:ltr;">FN = 1/10 = 1-sensitivity = 0.1</p>
<p dir="RTL">זהו אחוז האנשים מתוך החולים אשר לא יגלו שהם חולים בזמן מוקדם. ועבורם המחלה תתפתח, ועלולה להתגלות רק בשלב מאוחר ומתקדם יותר (אלו האנשים שאחר כך עשויים לתבוע את מערכת הבריאות על השגיאה בזיהוי מחלתם).</p>
<h1 dir="RTL">חילוץ ערכים עבור בדיקת ממוגרפיה של נשים</h1>
<p dir="RTL">ב-18 לאוקטובר 2011 פורסם ב- Annals of Internal Medicine</p>
<p dir="RTL">מחקר עוקבה בשם  &quot;Comparative Effectiveness of Digital Versus Film-Screen Mammography in Community Practice in the United States&quot; (<a href="http://annals.ba0.biz/content/155/8/493.short">http://annals.ba0.biz/content/155/8/493.short</a>)</p>
<p dir="RTL">במחקר הזה הוצגו נתונים על הצלחת הבדיקה הממוגרפית לזהות את סרטן השד (טבלה 2, ראו כאן: <a href="http://annals.ba0.biz/content/155/8/493/T2.large.jpg">http://annals.ba0.biz/content/155/8/493/T2.large.jpg</a>).</p>
<p dir="RTL">הנתונים כללו את המספרים הבאים:</p>
<ul>
<li>עבור 10000 נבדקים</li>
<li>ל – 45 היה סרטן השד</li>
<li>ל- 38 הצליחו לגלות את הסרטן באמצעות ממוגרפיה</li>
<li>ל – 7 לא הצליחו</li>
<li>הרגישות היא 84%</li>
<li>הסגוליות היא 90.4%</li>
</ul>
<p>(קחו בחשבון שהמחקר המקורי הסתמך על מאות אלפי נשים, 329,261 אם נדייק. המספרים שאני מביא כאן הם רק מקור אחד, לא מתוקנן של המספרים הללו. יש עוד מה לדעת בתחום &#8211; אבל לשם הפשטות, בואו נראה מה אפשר לעשות עם המספרים, האמיתיים, הללו)</p>
<p dir="RTL">השתמשו בנתונים הללו כדי:</p>
<p dir="RTL">1)      לבנות טבלה של המחקר</p>
<p dir="RTL">2)      לחלץ את ה- PPV וה- NPV</p>
<p dir="RTL">מהנתונים אפשר למלא את הטבלה הבאה באופן ישיר:</p>
<div align="right">
<table dir="rtl" width="227" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="67">
<p dir="LTR" align="center"> (האם יש סרטן השד) האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71"></td>
<td valign="bottom" nowrap="nowrap" width="33">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="33">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" valign="bottom" nowrap="nowrap" width="45">
<p dir="RTL" align="center">הבדיקה (ממוגרפיה)</p>
</td>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="33"></td>
<td valign="bottom" nowrap="nowrap" width="33">
<p dir="RTL">38</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="33"></td>
<td valign="bottom" nowrap="nowrap" width="33">
<p dir="RTL">7</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="33"></td>
<td valign="bottom" nowrap="nowrap" width="33">
<p dir="LTR" align="right">45</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="LTR" align="right">10000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">מכאן שאת מספר הבריאים באמת אפשר לחלץ בקלות על ידי:</p>
<p style="text-align: left; direction:ltr;">10000-45=9955</p>
<p>מתוך זה ידוע לנו שהסגוליות היא 90.4% לכן:</p>
<p style="text-align: left; direction:ltr;">Specificity = 90.4% = 0.904 = (# of healthy women diagnosted as being healthy) / (# of healthy women)</p>
<p style="text-align: left; direction:ltr;">-&gt; (# of healthy women diagnosted as being healthy) = 0.904*9955 = 8999 </p>
<p>כאן אפשר למלא את הטבלה ונקבל ש:</p>
<div align="right">
<table dir="rtl" width="227" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="67">
<p dir="LTR" align="center"> (האם יש סרטן השד) האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71"></td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" valign="bottom" nowrap="nowrap" width="45">
<p dir="RTL" align="center">הבדיקה (ממוגרפיה)</p>
</td>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="38"></td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="RTL">38</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="RTL">8999</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="RTL">7</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="LTR" align="right">9955</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="LTR" align="right">45</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="LTR" align="right">10000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">מה שאומר שיש לנו מספיק נתונים בשביל למלא את הטבלה לחלוטין ונקבל ש:</p>
<div align="right">
<table dir="rtl" width="227" border="2" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71"></td>
<td colspan="2" valign="bottom" nowrap="nowrap" width="67">
<p dir="LTR" align="center"> (האם יש סרטן השד) האמת</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44"></td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71"></td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="RTL">בריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="RTL">חולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="RTL">סה&quot;כ</p>
</td>
</tr>
<tr>
<td rowspan="2" valign="bottom" nowrap="nowrap" width="45">
<p dir="RTL" align="center">הבדיקה (ממוגרפיה)</p>
</td>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">אובחן כחולה</p>
</td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="LTR"> 956</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="RTL">38</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="LTR"> 994</p>
</td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">אובחן כבריא</p>
</td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="RTL">8999</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="RTL">7</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="LTR"> 9006</p>
</td>
</tr>
<tr>
<td valign="bottom" nowrap="nowrap" width="45"></td>
<td valign="bottom" nowrap="nowrap" width="71">
<p dir="RTL">סה&quot;כ</p>
</td>
<td valign="bottom" nowrap="nowrap" width="38">
<p dir="LTR" align="right">9955</p>
</td>
<td valign="bottom" nowrap="nowrap" width="29">
<p dir="LTR" align="right">45</p>
</td>
<td valign="bottom" nowrap="nowrap" width="44">
<p dir="LTR" align="right">10000</p>
</td>
</tr>
</tbody>
</table>
</div>
<p dir="RTL">וכעת נוכל לחשב את ה PPV וה- NPV:</p>
<p>&nbsp;</p>
<p style="text-align: left; direction:ltr;">PPV = (# of women diagnosed as having breasy cancer) / (# of sick women diagnosed as having breasy cancer) = 38/994 = 0.0382=3.82%</p>
<p style="text-align: left; direction:ltr;">NPV = (# of women diagnosed as NOT having breasy cancer) / (# of healthy women NOT diagnosed as having breasy cancer) = 8999/9006 = 0.99922= 99.922%</p>
<p>מסקנה:</p>
<p><strong>
<ul>
<li>רק ל- 3.8% מהנשים שממוגרפיה מגלה שיש להם סרטן – אכן יש להם סרטן</li>
<li>ל- 99.9% מהנשים שהממוגרפיה טוענת שהן בריאות – הן אכן בריאות</li>
</ul>
<p></strong></p>
<p>* אני מזכיר &#8211; אינני רופא, והכתוב במאמר הזה (ובבלוג הזה באופן כללי), איננו מהווה תחליף לייעוץ רפואי, או יומרה רפואית מכל סוג שהוא. אתם אחראיים על בריאותכם &#8211; תטפלו בה!</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2011%2F11%2F230&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/9pTc_XhBmgw" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2011/11/230/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2011/11/230</feedburner:origLink></item>
		<item>
		<title>‫הזמנה לערב הרצאות (כולל אחת שלי) לכבוד יום הסטטיסטיקה הבינלאומי‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/tZgrK0WJXZY/225</link>
		<comments>http://www.biostatistics.co.il/2011/11/225#comments</comments>
		<pubDate>Thu, 03 Nov 2011 13:07:28 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[אירוע]]></category>
		<category><![CDATA[אירועים]]></category>
		<category><![CDATA[הרצאות]]></category>
		<category><![CDATA[יום הסטטיסטיקה הבינלאומי]]></category>
		<category><![CDATA[ספקנים בפאב]]></category>
		<category><![CDATA[עכברים]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=225</guid>
		<description><![CDATA[&#8235;ב-14.11.2011 יתקיים ערב בן 5 הרצאות קצרות שיסקרו את נושא הסטטיסטיקה מכיוונים שונים לכבוד יום הסטטיסטיקה הבינלאומי (שכבר התקיים ב-20.10.2011). התכנסות בשעה 20:00, ההרצאות יחלו ב-20:30. האירוע יערך בפאב גורדו (נראה שהכתובת היא הירקון 121, חוף גורדון, טיילת תל אביב) ניתן להרשם ולהפיץ לחבריכם או שונאיכם באמצעות האירוע בפייסבוק. 10 ש&#34;ח דמי השתתפות לכיסוי הוצאות [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p>ב-14.11.2011 יתקיים ערב בן 5 הרצאות קצרות שיסקרו את נושא הסטטיסטיקה מכיוונים שונים לכבוד יום הסטטיסטיקה הבינלאומי (שכבר התקיים ב-20.10.2011).</p>
<p><strong>התכנסות בשעה 20:00, ההרצאות יחלו ב-20:30. האירוע יערך בפאב גורדו (נראה שהכתובת היא הירקון 121, חוף גורדון, טיילת תל אביב)</p>
<p>ניתן להרשם ולהפיץ לחבריכם או שונאיכם באמצעות <a href="https://www.facebook.com/event.php?eid=281668461867397">האירוע בפייסבוק</a>.</p>
<p>10 ש&quot;ח דמי השתתפות לכיסוי הוצאות לוגיסטיות.<br />
</strong></p>
<p>אני אתן בערב את ההרצאה &quot;כיצד חוקרים עכברים שחוקרים את סביבתם&quot;, הנה התקציר:</p>
<blockquote><p>יום אחד עכבר קם בבוקר, מחליט שהוא סקרן, ומתחיל ללכת. לאן הוא הולך? מתי הוא חוזר? כמה הוא מטייל? האם הוא מתרגש? ולמה זה בכלל מעניין אותנו (כחוקרים) לדעת?<br />
טל גלילי, הוא דוקטורנט לסטטיסטיקה באוניברסיטת תל אביב, אוהב קוד פתוח ומידע חופשי, ובלוגר במדריך לטרמפיסט בסטטיסטיקה.</p></blockquote>
<p><a href="http://www.safeksavir.co.il/general/skeptics-ta-nov11/">כנסו לאתר הספקנים בפאב</a>, בשביל פירוט של שאר ההרצאות שיתקיימו בערב. שאר ההרצאות יתקיימו על ידי אנשים מעניינים ומקצועיים בתחום הסטטיסטיקה, יהיה מעניין&#8230;</p>
<p>להתראות שם,<br />
טל.</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2011%2F11%2F225&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/tZgrK0WJXZY" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2011/11/225/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2011/11/225</feedburner:origLink></item>
		<item>
		<title>‫מבוא לבלוגוספירה של קהילת ה- R העולמית‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/X65wtuj9bpE/220</link>
		<comments>http://www.biostatistics.co.il/2011/10/220#comments</comments>
		<pubDate>Sun, 30 Oct 2011 17:04:31 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[אינטרנט]]></category>
		<category><![CDATA[העתיד]]></category>
		<category><![CDATA[סטטיסטיקה]]></category>
		<category><![CDATA[סטטיסטיקה ובלוגים]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[R bloggers]]></category>
		<category><![CDATA[useR]]></category>
		<category><![CDATA[useR 2011]]></category>
		<category><![CDATA[בלוג R]]></category>
		<category><![CDATA[בלוגוספירה]]></category>
		<category><![CDATA[בלוגרי R]]></category>
		<category><![CDATA[על הבלוגוספירה]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=220</guid>
		<description><![CDATA[&#8235;בכנס האחרון של useR 2011, אשר התקיים באוניברסיטת ווריק אשר באנגליה, נתתי הרצאה זריזה של כ-5 דקות על הבלוגוספירה של קהילת ה-R העולמית (למי שלא מכיר, הנה הסבר קצר על מה זה R). לאחרונה פנה אלי קוריאני חביב בשם צ'ל-הי-לי וביקש ממני להקליט את ההרצאה הזו על מנת שהוא יוכל להקרין אותה בכנס R שמתקיים [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p>בכנס האחרון של <a href="http://www.warwick.ac.uk/statsdept/user-2011/">useR 2011</a>, אשר התקיים באוניברסיטת ווריק אשר באנגליה, נתתי הרצאה זריזה של כ-5 דקות על הבלוגוספירה של קהילת ה-R העולמית (למי שלא מכיר, הנה הסבר קצר על <a href="http://www.r-statistics.com/2009/03/what-is-r/">מה זה R</a>).</p>
<p>לאחרונה פנה אלי קוריאני חביב בשם צ'ל-הי-לי וביקש ממני להקליט את ההרצאה הזו על מנת שהוא יוכל להקרין אותה <a href="http://www.openstatistics.net/?page_id=1035">בכנס R שמתקיים השנה (2011) בדרום קוריאה</a>. החלטתי לעשות זאת, והעליתי את ההרצאה (באורך של כ-7 דקות, באנגלית) לאינטרנט.</p>
<p>ההרצאה עוברת בזריזות על:</p>
<ul>
<li>ההיקף בהתעניינות של הקהילה העולמית בבלוגרים שכותבים על R</li>
<li>על מה כותבים בלוגרי R</li>
<li>איך לעודד בלוגר שאתה מעריך לכתוב עוד</li>
<li>כיצד להתחיל בלוג R בעצמך</li>
<li>טיפים על איך לכתוב בלוג כזה</li>
<li>עצה אחת על כיצד לפרסם את הבלוג שלך (פשוט להירשם ל- <a href="http://www.r-bloggers.com/">r-bloggers.com</a>)</li>
<li>שתי תחזיות קטנות לגבי העתיד של R והבלוגוספירה</li>
</ul>
<div>תהנו:</div>
<p><iframe width="480" height="360" src="http://www.youtube.com/embed/I4ZhxqbgWG4" frameborder="0" allowfullscreen></iframe></p>
<p>(הפוסט הזה גם פורסם באנגלית <a href="http://www.r-statistics.com/2011/10/the-present-and-future-of-the-r-blogosphere-a-7-minute-lightning-talk-from-user2011/">בבלוג שלי על R</a>)</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2011%2F10%2F220&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/X65wtuj9bpE" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2011/10/220/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2011/10/220</feedburner:origLink></item>
		<item>
		<title>‫אינפוגרפיקה על ישראל היום ומחאת האוהלים‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/bh9v-wlwuNg/213</link>
		<comments>http://www.biostatistics.co.il/2011/07/213#comments</comments>
		<pubDate>Sun, 24 Jul 2011 07:14:22 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[אירוע]]></category>
		<category><![CDATA[ויזואליזציה]]></category>
		<category><![CDATA[סטטיסטיקה בתקשורת]]></category>
		<category><![CDATA[סטטיסטיקה תיאורית]]></category>
		<category><![CDATA[j14]]></category>
		<category><![CDATA[אינפוגרפיקה]]></category>
		<category><![CDATA[חדשות]]></category>
		<category><![CDATA[ידיעות אחרונות]]></category>
		<category><![CDATA[ישראל היום]]></category>
		<category><![CDATA[מחאת האוהלים]]></category>
		<category><![CDATA[מעריב]]></category>
		<category><![CDATA[עיתונות]]></category>
		<category><![CDATA[תקשורת]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=213</guid>
		<description><![CDATA[&#8235;מחאת האוהלים אשר החלה ברוטשילד מצליחה לסחוף עוד ועוד אזרחים, לצלילי הדממה החברתית שפקדה את מדינתנו בעשורים האחרונים. ובהזדמנות זו, המחאה גם מצליחה לעורר דיון באופן שבו ערוצי התקשורת המרכזיים מסקרים את המחאה. מה שמוביל אותנו, תאמינו או לא, לסטטיסטיקה. נתקלתי באינפוגרפיקה המקסימה, אשר משווה את שטח ההתייחסות שכל אחד מהעיתונים המרכזיים (ידיעות, מעריב וישראל-היום) [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p><a href="http://j14.org.il/">מחאת האוהלים</a> אשר החלה ברוטשילד מצליחה לסחוף עוד ועוד אזרחים, <a href="http://www.talgalili.com/?p=1415" target="_blank">לצלילי הדממה</a> החברתית שפקדה את מדינתנו בעשורים האחרונים.</p>
<p>ובהזדמנות זו, המחאה גם מצליחה לעורר דיון באופן שבו ערוצי התקשורת המרכזיים מסקרים את המחאה. מה שמוביל אותנו, תאמינו או לא, לסטטיסטיקה.<br />
נתקלתי באינפוגרפיקה המקסימה, אשר משווה את שטח ההתייחסות שכל אחד מהעיתונים המרכזיים (ידיעות, מעריב וישראל-היום) הקדישו למחאת האוהלים בשבוע האחרון.<br />
לחצו על התמונה לגירסה מוגדלת:</p>
<div>
<a href="http://www.flickr.com/photos/misquote/5968726024/sizes/l/in/photostream/" target="_blank"><img src="http://farm7.static.flickr.com/6026/5968726024_31f0cc1cdc.jpg" alt="מחאת האוהלים - סיקור בתקשורת - אינפוגרפיקה" /></a><br />
(קרדיט: לגרפיקאי <a href="http://www.flickr.com/photos/misquote/" target="_blank">ליאור צור &#8211; misquote</a>. כל הכבוד!)<br />
<br/>
</div>
<p>התמונה מראה את העמוד הראשי של כל אחד משלושת העיתונים לאורך השבוע, וצובעת בורוד את ההופעה של התייחסות למאבק האוהלים. לקינוח, ציטוטים נבחרים מעמוד השער מוצגים לצד התמונה בצהוב.<br />
האם ישראל היום מתייחס פחות למחאת האוהלים מאשר עיתונים אחרים, בהחלט. האם זה מעיד על כך שמדובר ב&quot;ביטאון של ביבי&quot;? בשביל הפרשנות הזו צריך איש תקשורת, לא סטטיסטיקאי&#8230; <img src='http://www.biostatistics.co.il/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>העונת נוספת: למרות נסיונות של גורמים כאלה ואחרים לצבוע את המחאה כקיטוב בין מחנות הימין והשמאל הפוליטיים (כפי שאלו מתבטאים בדעות על הסכסוך הישראלי פלסטיני), הרי שהיטיבו לכתוב לפני שמה שבאמת מדובר פה זו הכלכלה, וספציפית, האם אנו שואפים למדינה <a href="http://www.yonitmozes.com/?p=634">קפיטליסטית או מדינה המקדמת אג'נדה כלכלית שהיא יותר סוציאלית</a>.</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2011%2F07%2F213&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/bh9v-wlwuNg" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2011/07/213/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2011/07/213</feedburner:origLink></item>
		<item>
		<title>‫20 היסודות לאינטראקציה עם היצגי נתונים – סיכום הרצאה‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/3JNgeiPIvD8/200</link>
		<comments>http://www.biostatistics.co.il/2011/02/200#comments</comments>
		<pubDate>Sat, 19 Feb 2011 16:43:50 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[ויזואליזציה]]></category>
		<category><![CDATA[לסטודנטים]]></category>
		<category><![CDATA[סטטיסטיקה על העולם]]></category>
		<category><![CDATA[סטטיסטיקה תיאורית]]></category>
		<category><![CDATA[גאפמינדר]]></category>
		<category><![CDATA[גראפיקה אינטראקטיבית]]></category>
		<category><![CDATA[גרפים]]></category>
		<category><![CDATA[היצגים גראפיים]]></category>
		<category><![CDATA[היצגים דינאמיים]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=200</guid>
		<description><![CDATA[&#8235;ביום רביעי האחרון נתתי הרצאה של 50 דקות בסדנת ויזואליזציה מטעם האיגוד הישראלי לסטטיסטיקה על סוגי הפעולות האפשריות (&#34;היסודות&#34;) אשר אפשריים כאשר מבצעים אינטראקציה עם היצגים גרפיים של נתונים (או בלעז: Interactive Data Visualization). בפוסט הנוכחי בכוונתי: להסביר מה זה אינטראקציה עם היצגי נתונים ולתת את המוטיבציה הסטטיסטית עבורה לפרט ולהסביר את 20 היסודות לאינטראקציה [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><p>ביום רביעי האחרון נתתי הרצאה של 50 דקות ב<a href="http://www.statistics.org.il/?p=474">סדנת ויזואליזציה מטעם האיגוד הישראלי לסטטיסטיקה</a> על סוגי הפעולות האפשריות (&quot;היסודות&quot;) אשר אפשריים כאשר מבצעים אינטראקציה עם היצגים גרפיים של נתונים (או בלעז: Interactive Data Visualization). בפוסט הנוכחי בכוונתי:</p>
<ol>
<li>להסביר מה זה אינטראקציה עם היצגי נתונים ולתת את המוטיבציה הסטטיסטית עבורה</li>
<li>לפרט ולהסביר את 20 היסודות לאינטראקציה עם היצגי נתונים</li>
<li>לדבר על ההזדמנויות והאתגרים שמציבים בפנינו היכולת לאינטראקציה עם היצגי נתונים</li>
</ol>
<p>כל הדוגמאות שיוצגו בפוסט זה יושמו באמצעות התוכנה <a href="http://www.ggobi.org/">GGobi </a>(תוכנה חופשית/קוד-פתוח). בפוסט הנוכחי אני <strong>לא </strong>אדון בתוכנות שמיישמות את העקרונות שיתוארו. אני מקווה לעשות זאת באחד הפוסטים העתידיים. לבינתיים, הנה דמו של 5 דקות על השימוש ב- GGobi (אפשר לקרוא את המשך הפוסט גם מבלי לצפות בו) :</p>
<p><iframe src="http://player.vimeo.com/video/12292239" width="400" height="253" frameborder="0"></iframe>
<p><a href="http://vimeo.com/12292239">brutally short intro to ggobi</a> from <a href="http://vimeo.com/user2935988">Mat Kelcey</a> on <a href="http://vimeo.com">Vimeo</a>.</p>
<p><span id="more-200"></span><br />
לפני שאגש לנושא הפוסט, ברצוני להודות ליונתן רוזנבלט על הפידבק שהוא הציע בשלבים הראשונים של הכנת ההרצאה, ובעיקר<strong> להודות ל<a href="http://www.math.tau.ac.il/~ybenja/">פרופסור יואב בנימיני</a></strong> על שעות רבות של עזרה ואינספור עצות מועילות אשר גם עזרו למקד את ההרצאה וגם ליטשו אותה לכדי תוצר הרבה יותר מוצלח משהייתי מסוגל להפיק בכוחות עצמי.</p>
<h3>מבוא: מה זה אינטראקציה עם היצגי נתונים?</h3>
<p>נתחיל בכמה הגדרות.<br />
היצג נתונים זה תרשים שמטרתו להציג נתונים. דוגמאות מקובלות הן תרשימי עמודה, הסטוגרמה, <a href="http://www.biostatistics.co.il/?p=108">תרשימי עוגה</a>, תרשימי פיזור, מפות תמתיות וכן הלאה.<br />
היצג נתונים אינטראקטיבי &#8211; הוא תרשים שאיננו סטטי, דהיינו שניתן לבצע בו שינוי כלשהו.<br />
אינטראקציה עם היצג נתונים &#8211; זה סוג הפעולות שהמשתמש יכול לבצע על היצג נתונים.<br />
במהלך הכנת ההרצאה, הצלחנו (יואב ואנוכי) לאתר כעשרים יסודות המשמשים לאינטראקציות שאפשר לבצע על היצג נתונים אותם אתאר מיד. אך לפני כן אני רוצה להסביר את המוטיבציה הסטטיסטית לעבודה עם גרפים דינאמיים.</p>
<p>סטטיסטיקאים נוהגים לבצע שתי פעולות (משלימות) בעבודתם: ניתוח נתונים מאשש, וניתוח נתונים בלשי. מבלי להעמיק בנושא יותר מידי (כי הוא עולם ומלואו), ברצוני לסכם את שני הסוגים בקצרה:</p>
<ul>
<li><strong>ניתוח נתונים מאשש (Confirmatory Data Analysis)</strong> &#8211; הוא כאשר לוקחים קובץ נתונים עם שאלה מוגדרת היטב מראש ומבצעים מבחן סטטיסטי שמטרתו לבחון את ההשערה. לדוגמא &#8211; כל המבחנים הסטטיסטיים שמלמדים בקורסי מבוא לסטטיסטיקה (מבחן Z, מבחן t, מבחני חי-בריבוע וכדומה) הם דוגמאות לניתוח נתונים מאשש. דהיינו, כזה שמתחיל בהשערת 0 ובא לבחון אותה באמצעות ביצוע חישוב על הנתונים.</li>
<li><strong>ניתוח נתונים בלשי (Exploratory data analysis)</strong> &#8211; הוא כאשר אנו באים להתבונן בקובץ נתונים מבלי שיש לנו &quot;השערות מוקדמות&quot; שאנו בוחנים, אלא במקום זאת נותנים לקובץ הנתונים לספר לנו את סיפורו. זה מה שאנו מבצעים כאשר אנו באים להסתכל על תרשימי היסטוגרמה/מקלות של משתנים מסויימים. פעמים רבות אנו מגיעים לתרשים מבלי שיש לנו שאלה מסויימת, אלא מתוך רצון לראות איזה התנהגות הנתונים מציגים. כמו &#8211; האם הנתונים מתפלגים עם דבשת (מיקום מרכזי) יחיד או יותר, האם ההתפלגות סימטרית והאם ההתפלגות דומה להתפלגות מוכרת (על כל אחת מהשאלות הללו אפשר לבצע מבחן השערות סטטיסטי, אך בשלב של ניתוח נתונים בלשי, איננו יודעים עדיין איזה מהמבחנים הללו נרצה לבצע).</li>
</ul>
<p>התחום של אינטראקציה עם היצגי נתונים משוייך באופן מובהק לניתוח נתונים בלשי. ולוקה בכל הייתרונות והחסרונות של שיטה זו (אליהם לא אכנס בפוסט זה).</p>
<h3>20 היסודות לאינטראקציה עם היצגי נתונים</h3>
<p>את היסודות אירגנתי לפי קבוצות ותתי קבוצות (איכשהו ספרתי וזה יצא 20, למרות שהמספר הזה יכול להיות נתון למחלוקת). אני אציג כאן את כולם עם הסבר קצר ובסוף הרשימה מצורפת פרזנטציה עם צילומי מסך שמדגימים חלק מהעקרונות.</p>
<p>אחת המגבלות בפורמט הכתוב הוא הקושי להעביר מוטיבציה של פעולה זריזה על גרפים. אני מקווה שאת זה יספקו (גם אם באופן חלקי) הסרטונים/מצגת שאצרף בהמשך הפוסט, אשר ידגימו את העקרונות שאתאר.</p>
<ul>
<li><strong><span style="text-decoration: underline;">הצגת</span></strong> נתונים
<ul>
<li>נקודת מבט:
<ul>
<li>יחס הצירים (scaling)  -היכולת לשנות את יחס הגובה\רוחב של הגרף</li>
<li>זום (zooming) &#8211; היכולת להגדיל/להקטין חלקים של הגרף</li>
</ul>
</li>
<li>מעבר בין גרפים (cycling) &#8211; היכולת להישאר באותו התרשים אבל להחליף את המשתנה אותו התרשים מציג</li>
<li>סיבוב (rotating) – היכולת לסובב את ההיצג הדו-ממדי של ענן נקודות תלת מימדי. זה כולל גם את היכולת לתת &quot;טפיחה&quot; לענן שימשיך להסתובב (באנימציה) גם לאחר הטפיחה.</li>
<li>טיול בהטלות שונות של משתנים ממימד גבוה (Grand tour). כאן מדובר ביכולת להתבונן בתרשים של ענן נקודות רב-ממדי אשר מוטלות על ההיצג הדו ממדי. וכמובן, היכולת לסובב את הנקודות הללו (בציר של אחד מהמשתנים שמרכיבים את הענן)</li>
</ul>
</li>
<li><strong><span style="text-decoration: underline;">איתור</span></strong> נתונים
<ul>
<li>זיהוי תצפית בודדת:
<ul>
<li>תיוג (labeling) – מסמנים נקודה בגרף ורואים איפה היא מופיעה (באיזו שורה) בקובץ הנתונים</li>
<li>איתור (locating) – מסמנים שורה בקובץ הנתונים ורואים איפה הנקודה מופיעה בגרף</li>
</ul>
</li>
<li>זיהוי טווח תצפיות &#8211; הברשה (brushing) – בחירה דינמית של נתונים המשנה את תצוגתם. מדובר לרוב בריבוע אשר ניתן להעביר אותו מעל (&quot;להבריש&quot;) ענן של נקודות. כל הנקודות הללו מקבלות (לדוגמא) צבע שונה. ובכך &quot;הוברשו&quot;. יש כמה תכונות שניתן לשנות במברשת נתונים -
<ul>
<li>משך הזמן שההברשה נשארת:
<ul>
<li>זמני (Transient) &#8211; ההברשה נשארת רק כל עוד ריבוע המברשת נמצא מעל הנקודות.</li>
<li>תמידי (Persistent) &#8211; מרגע שהיברשנו נקודות, הם ישתנו (על ידי צבע, או דברים אחרים), גם לאחר שנסיר את המברשת מעליהם</li>
</ul>
</li>
<li>השינוי: צבעים,  סוג הסימן (נקודה/מלבן/משולש . מלא/ריק/מקווקו &#8211; glyph) סוג ההברשה (צבע, או &quot;צל&quot;. כלומר, קבוצת נקודות שנרצה להתעלם מהם או להסירם מהתרשים לחלוטין).</li>
<li>המשלים (toggle) -לקבל את הנתונים שהם המשלים לבחירה שבוצעה</li>
<li>מודלים – קבלת התוצאה של חישוב על הנתונים שנבחרו (מספר תצפיות, ממוצע, קו רגרסיה וכו').</li>
</ul>
</li>
<li>קישור גרפים שונים (linking) &#8211; זהו עיקרון מאד יסודי בגרפיקה האינטראקטיבית. מדובר ביכולת להשפיע על נתונים בגרף אחד (לדוגמא, להבריש נקודות) ולראות את ההשפעה בכל שאר הגרפים (הנקודות בשאר הגרפים יוברשו גם הם).</li>
</ul>
</li>
<li><strong><span style="text-decoration: underline;">שינוי</span></strong> נתונים מוצגים
<ul>
<li>מחיקה (deleting) &#8211; של נתונים</li>
<li>הוספה (insert) &#8211; הוספה של נתונים חדשים</li>
<li>הזזה (moving) &#8211; של נתונים קיימים</li>
<li>הרעדה (jitter) &#8211; של נתונים. יכול להיות שימושי כאשר נתונים מסתירים האחד את השני</li>
<li>החלקה (Smoothing) – שינוי מדד ההחלקה של הגרף. טוב כדי להסתכל ולראות איזה מדד החלקה מתאים להתפלגות שלנו (לפי כללי אצבע).</li>
<li>טרנספורמציה  (Transformation) – של הנתונים או של מערכת הצירים (לוג, שורש וכדומה. טוב במקרה שרוצים להציג את הנתונים באופן שמתפלג, לדוגמא, נורמאלי)</li>
</ul>
</li>
<li><strong><span style="text-decoration: underline;">שליטה</span></strong> בהיצג הנתונים &#8211; שימו לב שישנם שני סוגים של היצגים דינמאיים של נתונים:
<ul>
<li>אינטראקציה – היצגים שמאפשרים למשתמש לשלוטט בגרף</li>
<li>אנימציה (animation) – היצגים שעוברים שינוי (מתוכנן מראש) אך ללא תגובה לאדם</li>
</ul>
</li>
</ul>
<h3>מצגת וסרטונים להדגמת עקרונות</h3>
<p>שקופיות מהמצגת שהוצגה בכנס:</p>
<div style="width:425px" id="__ss_6987252"><strong style="display:block;margin:12px 0 4px"><a href="http://www.slideshare.net/talgalili/interactive-data-visualization-presentation-isa-2011-for-blog-6987252" title="Interactive data visualization presentation   isa 2011 - for blog">Interactive data visualization presentation   isa 2011 &#8211; for blog</a></strong><object id="__sse6987252" width="425" height="355"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=interactivedatavisualizationpresentation-isa2011-forblog-110219162302-phpapp02&#038;stripped_title=interactive-data-visualization-presentation-isa-2011-for-blog-6987252&#038;userName=talgalili" /><param name="allowFullScreen" value="true"/><param name="allowScriptAccess" value="always"/><embed name="__sse6987252" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=interactivedatavisualizationpresentation-isa2011-forblog-110219162302-phpapp02&#038;stripped_title=interactive-data-visualization-presentation-isa-2011-for-blog-6987252&#038;userName=talgalili" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object>
<div style="padding:5px 0 12px">View more <a href="http://www.slideshare.net/">presentations</a> from <a href="http://www.slideshare.net/talgalili">Tal Galili</a>.</div>
</div>
<p>ניתן לצפות בסרטונים על הברשה, וטיולים רב מימדיים <a href="http://www.ggobi.org/demos/">בתוך אתר הבית של GGobi</a> (הסרטונים לא הועלו ליוטיוב, אלא מופיעים כקטעי MOV קצרים, ולכן לא יכולתי לשלב אותם בפוסט הנוכחי)</p>
<h3>לסיום: הזדמנויות ואתגרים בעבודה אינטראקטיבית עם היצגי נתונים</h3>
<ul>
<li>הזדמנויות –
<ul>
<li>בהירות &#8211; עבודה אינטראקטיבית עם נתונים מאפשר להבין קשרים מורכבים בין נתונים שאחרת אולי לא היינו מבינים. על היכולת הזו נשענים בעיקר בדיסציפלינות בהם נתוני ההתחלה הם רב ממדיים – לדוגמא גיאוסטטיסטיקאים שחוקרים תכונות שמתרחשות על יריעה דו-ממדית או חוקרי מוח שעובדים על פרוסות של מוח כאשר כל פרוסה מציגה מדידות מסוגים שונים.</li>
<li>מספיקים יותר &#8211; אפשר להגיע ולחקור דברים שאחרת לא היינו מספיקים להגיע ולהסתכל עליהם באמצעים &quot;ישנים&quot; בשל מוגבלות של זמן שמוקצה לניתוח הנתונים.</li>
<li>קל להדגים דברים על הנתונים. מה שמאפשר
<ul>
<li>הסבר ל&quot;לקוח&quot; – קל יותר להעביר תוצאות סטטיסטיות מורכבות באמצעים חזותיים שיש בהם אינטראקציה. בהרחבה לזה, זה גם משפר את ה</li>
<li>עבודה עם החוקר &#8211; מה שמאפשר לבצע את התהליך הזה ביחד עם החוקר. החוקר מבין יותר בקלות את מה שהסטטיסטיקאי עושה. יכול להרגיש מעורב יותר (מה שיכול לשפר את התוצר הסופי).</li>
</ul>
</li>
</ul>
</li>
<li>אתגרים –
<ul>
<li>איכות הגרף – כשמבצעים הרבה בדיקות ומשנים הרבה דברים בגרף, אז לא פעם קורה שבשביל להגיע לתוצאות אנחנו מוותרים על זה שהגרף יראה יפה. לא מקפידים על צבעים, על טקסט מתאים וכן הלאה. במצב כזה קורה שאנו מגיעים לכל מיני תוצאות מעניינות. אבל כדי להכין אותם להצגה אח&quot;כ במאמר או מצגת, צריך לקחת את כל התגליות ולהכין את הגרפים מחדש כדי שיהיו &quot;מקצועיים&quot;. מעבר לכך, עבור גרפים מורכבים (לדוגמא &#8211; גרפים רב מימדיים), יש לרוב התפשרות על איכות הגרף כדי לאפשר עבודה מהירה איתו. מה שאומר שבשלב שבו רוצים להעביר את הגרף הזה ללקוח, צריך לעבור ולהסתכל על גרף באיכות גבוהה יותר.</li>
<li>תיעוד (והשוואות מרובות). כלל עקרוני כשעושים סטטיסטיקה הוא שכאשר ממהרים אז לא מתעדים. במצב של חקר שכולל עבודה אינטראקטיבית עם גרף זה נהפך להיות בעיה אפילו יותר גדולה, כי זה מאד קל להגיע למצב שבו מוצאים עוד משהו ועוד משהו, אבל לא רושמים זאת בשום מקום. זו בעיה לגבי כל הדברים ה&quot;מעניינים&quot; שאנחנו שכחנו לרשום אבל מה שאפילו יותר גרוע מזה הוא שבסוג כזה של חקירה אנחנו גם לא רושמים את כל הדברים שבדקנו ולא מצאנו בהם כלום. למה זה בעייתי? כי הדבר הזה גורם לקושי עצום בלדעת מהו &quot;מספר ההשערות הסטטיסטיות&quot; שביצענו. כך שכאשר אנו מקבלים P value – זה איננו טריוויאלי לדעת איך לתקנן אותו ולהבין במדויק מהי משמעותו.</li>
<li>והערת סיום לגבי ה&quot;כיף בעבודה עם הלקוח&quot; – זה משהו שיכול להסיח בקלות את הדעת (מצד החוקר או מצד הסטטיסטיקאי). ובמצבים כאלה חשוב לשמור על מיקוד של מהן המטרות/שאלות העיקריות שמענייניות אותנו ואיך אנו מגיעים אליהם.</li>
</ul>
</li>
</ul>
<h3>רגע, אז באיזה תוכנה להשתמש?</h3>
<p>את העקרונות שתיארתי אפשר לראות מיושמים בתוכנות שמיועדות לעבודה סטטיסטית כמו GGobi או Mondrian (שתיהן בקוד פתוח), וגם בתוכנות בתשלום כמו JMP ואחרות. מעבר לזה, ניתן לראות שימוש בהרבה מהעקרונות הללו באפליקציות רשת מפורסמות שמאפשרות עבודה דינאמית עם נתונים. הדוגמא הכי מפורסמת לכך הוא האתר <a href="http://www.biostatistics.co.il/?p=23">גאפמינדר של הנס רוסלינג</a>.</p>
<p>לצערי הרב שתי התוכנות שיש כרגע בקוד פתוח ( GGobi ו- Mondrian), שתיהן בעיני מאד (איך ננסח זאת בעדינות) דלות.  כדי להגיע לכלי שהוא באמת מעניין מבחינת תהליך עבודה שוטף, הכלי חייב (לדעתי) להיות קשור אדוקות לכלי העבודה המרכזי שבו אנו משתמשים לניתוח סטטיסטי.<br />
במקרה שלי זה <a href="http://www.r-statistics.com/">R</a>. ובמקרה של R יקח עוד קצת זמן עד שהחבר'ה בקהילה יתכנתו כזה כלי (יש כרגע 2 נסיונות משמעותיים. הראשון הוא iPlots extreme שהוא דור המשך ל- <a href="http://www.r-statistics.com/2010/10/r-gui-now-offers-interactive-graphics-deducer-0-4-2-connects-with-iplots/deducer-with-iplots-24-10-2010-11-02-46/">iPlots </a>והשני הוא איזשהו ממשק ל- Qt על ידי היוצרים של GGobi). כשיהיו לי עוד חדשות מלהיבות, אני אשמח לדווח.</p>
<p>יש לכם דוגמאות נוספות לאינטראקציה עם היצגים גראפיים של נתונים? שאלות או פירגון על הנושא?  אתם מוזמנים לשתף אותי בהם בתגובות&#8230;</p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2011%2F02%2F200&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/3JNgeiPIvD8" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2011/02/200/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2011/02/200</feedburner:origLink></item>
		<item>
		<title>‫למה הסטטיסטיקאי חצה את הכביש? כדי להפגין בשישי הקרוב נגד הומיאופטיה במערכת הבריאות!‬</title>		<link>http://feedproxy.google.com/~r/statistics/~3/tFBIk84LyrM/178</link>
		<comments>http://www.biostatistics.co.il/2011/02/178#comments</comments>
		<pubDate>Tue, 01 Feb 2011 21:58:50 +0000</pubDate>
		<dc:creator>‫טל גלילי‬</dc:creator>				<category><![CDATA[אירוע]]></category>
		<category><![CDATA[אפידמיולוגיה]]></category>
		<category><![CDATA[הומהופטיה]]></category>
		<category><![CDATA[הומיאופטיה]]></category>
		<category><![CDATA[הפגנה]]></category>
		<category><![CDATA[מחאה]]></category>

		<guid isPermaLink="false">http://www.biostatistics.co.il/?p=178</guid>
		<description><![CDATA[&#8235;אם יש לכם רגע להתרחק מהאירועים (הכנראה היסטוריים) שמתרחשים ברגעים אלו במצרים, אז אתם מוזמנים להגיע ביום שישי הקרוב (4.2.11) בשעה 10:23 ולהפגין כנגד הומיאופטיה, בניצוחה של קהילת הספקנים בישראל (לחצו כאן לפרטים מלאים על ההפגנה). שמעתי על ההפגנה דרך הקריאה לדגל בבלוגו של יוסי לוי. אני ממליץ לכם לקרוא את מה שיש ליוסי לומר [...]&#8236;]]></description>			<content:encoded><![CDATA[<div dir="rtl"><div id="attachment_181" class="wp-caption alignnone" style="width: 281px"><a href="http://xkcd.com/765/"><img class="size-full wp-image-181" title="dilution" src="http://www.biostatistics.co.il/wp-content/uploads/2011/02/dilution.png" alt="" width="271" height="248" /></a><p class="wp-caption-text">Credit: xkcd (Dilution)</p></div>
<p>אם יש לכם רגע להתרחק מהאירועים (הכנראה היסטוריים) שמתרחשים <a title="קו חוץ" href="http://kavhutz.wordpress.com/">ברגעים אלו במצרים</a>, אז אתם מוזמנים להגיע ביום שישי הקרוב (4.2.11) בשעה 10:23 <strong>ולהפגין כנגד הומיאופטיה</strong>, בניצוחה של <a title="ספקנות" href="http://www.skeptics.org.il/">קהילת הספקנים בישראל</a> (<a href="http://www.1023.org.il/">לחצו כאן לפרטים מלאים</a> על ההפגנה).</p>
<p style="direction: rtl;">שמעתי על ההפגנה דרך הקריאה לדגל <a href="http://www.sci-princess.info/">בבלוגו של יוסי לוי</a>. אני ממליץ לכם לקרוא את מה שיש <a href="http://www.sci-princess.info/archives/1368">ליוסי לומר על הומיאופטיה</a>, אך לשירותכם אתמצת חלק מהעיקר בציטוט הבא:</p>
<blockquote><p>חולים שפונים לטיפול הומיאופתי דוחים בכך טיפול רפואי מבוסס או מועיל, או אפילו מוותרים עליו. [...]</p>
<p>צריך לעשות משהו, ואני וחבריי לקהילה הספקנית נעשה משהו.</p>
<p>אנו נצא למחות נגד הלגיטימציה שנותנות קופות החולים ורשתות הפארם לטיפולים ההומאופתיים חסרי הערך, ונקרא לציבור הרחב לבחון בשיקול דעת את התועלת והנזק הפוטנציאליים הטמונים בטיפול הומיאופתי לפני ההחלטה לפנות לטיפול כזה.</p>
<p>לא נהיה לבד. יחד עימנו ימחו אלפי אנשים בעשרות מדינות, במסגרת אירוע 10:23, אירוע מחאה גלובלי נגד ההומיאופתיה ונזקיה. אני גאה להיות חלק מהמחאה הזו. אשמח אם תצטרפו אליי,ביום שישי הקרוב, ה-4.2.2011, בשעה 10:23, בכיכר דיזנגוף בתל-אביב.</p></blockquote>
<p>בשבילי, התגלית שישנם &quot;ספקנים&quot; שכמותי בישראל היא מרתקת, אז בהחלט ייתכן שאקפוץ לבקר שם. מה איתכם?</p>
<p style="text-align: center;"><a href="http://www.1023.org.il/"><img class="size-full wp-image-179 aligncenter" title="logo-he-300x167" src="http://www.biostatistics.co.il/wp-content/uploads/2011/02/logo-he-300x167.png" alt="" width="240" height="134" /></a></p>

<div class="like">
<iframe src="http://www.facebook.com/plugins/like.php?href=http%3A%2F%2Fwww.biostatistics.co.il%2F2011%2F02%2F178&amp;layout=standard&amp;show_faces=true&amp;width=450&amp;action=like&amp;font=&amp;colorscheme=light" scrolling="no" frameborder="0" allowTransparency="true" style="border:none; overflow:hidden; width:450px; height:62px; "></iframe>
</div>
</div><img src="http://feeds.feedburner.com/~r/statistics/~4/tFBIk84LyrM" height="1" width="1"/>]]></content:encoded>			<wfw:commentRss>http://www.biostatistics.co.il/2011/02/178/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.biostatistics.co.il/2011/02/178</feedburner:origLink></item>
	</channel>
</rss>

