<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2spanishfull.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0">

<channel>
	<title>Análisis y comunicación de datos cuantitativos</title>
	
	<link>http://www.jjgibaja.net</link>
	<description>por Juanjo Gibaja</description>
	<pubDate>Sun, 11 Jul 2010 22:53:57 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.7.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://feeds.feedburner.com/analisis-comunicacion-datos-cuantitativos" /><feedburner:info uri="analisis-comunicacion-datos-cuantitativos" /><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" /><feedburner:feedFlare href="http://www.newsgator.com/ngs/subscriber/subext.aspx?url=http%3A%2F%2Ffeeds.feedburner.com%2Fanalisis-comunicacion-datos-cuantitativos" src="http://www.newsgator.com/images/ngsub1.gif">Subscribe with NewsGator</feedburner:feedFlare><feedburner:feedFlare href="http://www.bloglines.com/sub/http://feeds.feedburner.com/analisis-comunicacion-datos-cuantitativos" src="http://www.bloglines.com/images/sub_modern11.gif">Subscribe with Bloglines</feedburner:feedFlare><feedburner:feedFlare href="http://www.netvibes.com/subscribe.php?url=http%3A%2F%2Ffeeds.feedburner.com%2Fanalisis-comunicacion-datos-cuantitativos" src="http://www.netvibes.com/img/add2netvibes.gif">Subscribe with Netvibes</feedburner:feedFlare><feedburner:feedFlare href="http://fusion.google.com/add?feedurl=http%3A%2F%2Ffeeds.feedburner.com%2Fanalisis-comunicacion-datos-cuantitativos" src="http://buttons.googlesyndication.com/fusion/add.gif">Subscribe with Google</feedburner:feedFlare><feedburner:feedFlare href="http://www.pageflakes.com/subscribe.aspx?url=http%3A%2F%2Ffeeds.feedburner.com%2Fanalisis-comunicacion-datos-cuantitativos" src="http://www.pageflakes.com/ImageFile.ashx?instanceId=Static_4&amp;fileName=ATP_blu_91x17.gif">Subscribe with Pageflakes</feedburner:feedFlare><feedburner:feedFlare href="http://add.my.yahoo.com/content?lg=es&amp;url=http%3A%2F%2Ffeeds.feedburner.com%2Fanalisis-comunicacion-datos-cuantitativos" src="http://eur.i1.yimg.com/eur.yimg.com/i/es/my/addto1.gif">Subscribe with My Yahoo!</feedburner:feedFlare><feedburner:feedFlare href="http://www.feedness.com/alta/http://feeds.feedburner.com/analisis-comunicacion-datos-cuantitativos" src="http://www.feedness.com/ayuda/wp-content/square_b_sh_feed.gif">Subscribe with Feedness</feedburner:feedFlare><item>
		<title>Características deseables en un algoritmo de detección de patrones</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/SjfrvoxwTrc/caracteristicas-deseables-en-un-algoritmo-de-deteccion-de-patrones</link>
		<comments>http://www.jjgibaja.net/caracteristicas-deseables-en-un-algoritmo-de-deteccion-de-patrones#comments</comments>
		<pubDate>Sun, 11 Jul 2010 11:50:18 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[algorithms]]></category>

		<category><![CDATA[algoritmos]]></category>

		<category><![CDATA[aprendizaje estadístico]]></category>

		<category><![CDATA[complejidad de Rademacher]]></category>

		<category><![CDATA[complejidad-temporal]]></category>

		<category><![CDATA[efficiency]]></category>

		<category><![CDATA[eficiencia]]></category>

		<category><![CDATA[estabilidad]]></category>

		<category><![CDATA[patrones]]></category>

		<category><![CDATA[patterns]]></category>

		<category><![CDATA[rademacher complexity]]></category>

		<category><![CDATA[robustness]]></category>

		<category><![CDATA[stability]]></category>

		<category><![CDATA[statistical learning]]></category>

		<category><![CDATA[time-complexity]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=958</guid>
		<description><![CDATA[Una vez establecido que la detección de patrones se realiza a través del diseño de algoritmos que son finalmente ejecutados por computadores, conviene determinar cuáles son las características deseables en un algoritmo. Entre las más importantes cabe citar:

Eficiencia computacional: La detección de patrones en 	bases de datos es una tarea eminentemente práctica. En 	consecuencia, los [...]]]></description>
			<content:encoded><![CDATA[<p>Una vez establecido que la detección de patrones se realiza a través del diseño de algoritmos que son finalmente ejecutados por computadores, conviene determinar cuáles son las características deseables en un algoritmo. Entre las más importantes cabe citar:</p>
<ul>
<li><em>Eficiencia computacional</em>: La detección de patrones en 	bases de datos es una tarea eminentemente práctica. En 	consecuencia, los algoritmos que se diseñen para este fin deben ser 	capaces de dar respuesta a los problemas que se planteen, más allá 	de cuál sea el tamaño particular de la base de datos sobre la que 	se vaya a aplicar el algoritmo. Dicho de otro modo, un algoritmo que 	funcione bien (es decir, que sea capaz de detectar patrones en un 	tiempo razonable) en bases de datos de reducido tamaño (con unas 	pocas decenas de filas y unas pocas columnas) pero fracase en bases 	de datos reales (por presentar tiempos de ejecución muy elevados) 	no resultará aceptable. De forma más precisa, debe exigirse que un 	algoritmo de detección de patrones sea eficiente desde el punto de 	vista computacional. Son muchas las formas de medir la eficiencia de 	un algoritmo pero, quizás, la más extendida sea la evaluación de 	su <em>complejidad-temporal. </em><span style="font-style: normal;">La 	complejidad-temporal de un algoritmo es una</span> expresión del 	tiempo de ejecución (o del número de operaciones) que precisa 	dicho algoritmo en función del tamaño del problema (medido, por 	ejemplo, a partir del número de filas o columnas de la base de 	datos analizada). Para expresar la complejidad-temporal de un 	algoritmo suele recurrirse a la llamada “notación de Landau” (o 	notación de la O mayúscula). Se dice que un problema es <em>tratable</em> cuando el algoritmo más eficiente para resolverlo tiene complejidad 	temporal polinómica o inferior, es decir, cuando la función que 	pone en relación el tiempo (o número de operaciones) que requiere 	el algoritmo para resolver el problema con el tamaño de éste 	pertenece a <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=O%28n%5Ek%29+&bg=FFFFFF&fg=000000'  alt="O(n^k) " /> con <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=k+%5Cin+N&bg=FFFFFF&fg=000000'  alt="k \in N" />. Este requisito es, en realidad, bastante laxo ya 	que complejidades polinómicas pueden suponer (si el grado del 	polinomio es alto) tiempos de ejecución que hoy en día (a pesar 	del rápido incremento en la velocidad de los procesadores) resultan 	inaceptables. Lamentablemente, muchos de los algoritmos que se 	diseñan para la detección de patrones presentan 	complejidades-temporales superiores a la polinómica y son, por 	tanto, intratables desde el punto de vista de la teoría de la 	complejidad algorítmica.</li>
<li><em>Robustez</em>: Cualquier base de datos, y en mayor medida si es de 	gran tamaño, es susceptible de contener valores erróneos. En 	ocasiones, estos valores erróneos serán detectados (y 	convenientemente corregidos) por los procedimientos de detección de 	<em>outliers</em>, pero en ocasiones, aun a pesar de los mayores 	esfuerzos por parte de los analistas, los datos erróneos escaparán 	esta criba preliminar y pondrán en peligro la calidad de los 	análisis que se realicen tomando como materia prima la base de 	datos en la que se encuentran. Las fuentes de las que pueden 	provenir estos datos erróneos (a las que se les suele llamar 	fuentes de <em>errores sistemáticos</em>) son muchas y de diversa 	naturaleza. Entre otras cabe citar los problemas en los mecanismos 	de obtención de los datos (por ejemplo, errores en los instrumentos 	de medida, que pueden no estar correctamente calibrados), errores en 	la transmisión de los datos de unos soportes a otros (por ejemplo, 	al teclear manualmente los datos de un cuestionario en papel a una 	base de datos electrónica) o también errores en la preparación de 	los datos previa a la realización de algún análisis. Sin ninguna 	duda, el mejor antídoto contra este tipo de errores es un cuidado 	exquisito por parte del encargado de alimentar o manipular la base 	de datos en cada uno de los pasos descritos, pero, a pesar de los 	mejores esfuerzos por su parte, es imposible evitarlos por completo. 	De este modo, resulta evidente que una característica muy deseable 	en los algoritmos automáticos de detección de patrones es que 	éstos sean relativamente insensibles a la presencia de una cierta 	proporción de datos erróneos. A esta propiedad se le llama 	<em>robustez</em>. Así, se dice que un algoritmo de detección de 	patrones es robusto cuando los patrones detectados en una base de 	datos no se ven alterados (o al menos no de forma notable) cuando en 	ésta existe una proporción pequeña de datos erróneos. 	Lamentablemente, esta propiedad de robustez entra en conflicto con 	otra propiedad deseable: la sensibilidad, por la que un algoritmo 	debe detectar patrones diferentes en bases de datos diferentes.</li>
<li><em>Estabilidad</em>: Si entendemos una base de datos como una 	manifestación concreta (particular) de un determinado mecanismo 	generador de datos, es cuando el concepto de <em>estabilidad de un 	algoritmo</em> cobra todo su significado. Dicho brevemente: los 	algoritmos de detección de patrones deberían detectar  pautas en 	los mecanismos generadores de datos y no en la base de datos 	concreta que están analizando. Dicho de otra forma: diremos que un 	algoritmo de detección de patrones es <em>estable</em> si obtenidas 	dos bases de datos alternativas mediante el mecanismo generador 	(llamémoslas B1 y B2), el algoritmo detecta los mismos patrones 	en B1 y en B2. Así, un algoritmo estable es aquél que detecta los 	patrones que corresponden al mecanismo generador de los datos y que 	deja de lado las particularidades específicas de la base de datos 	que se está analizando.</li>
</ul>
<p style="margin-left: 1.25cm;">A este respecto resulta muy apropiado el comentario de John Allen Paulos en su obra <em>Innumeracy</em> (traducida al español como <em>El Hombre Anumérico</em>) quien cita a Plutarco cuando afirma “<em>It is not great wonder if, in the long process of time, while fortune takes her course hither and thither, numerous coincidences should spontaneously occur</em>”. Se trata de una advertencia sobre el riesgo de lo que dos mil años más tarde se ha dado en llamar <em>overfitting</em>: el riesgo de que un algoritmo de detección de patrones se ajuste en exceso a la realidad concreta de una base de datos detectando, de este modo, pautas que no corresponden al mecanismo generador de los datos sino que son particulares de la base de datos y, por tanto, no generalizables.</p>
<p style="margin-left: 1.25cm;">El mismo Paulos pone de manifiesto (en un ejemplo que luego recogen Christianini y Shawe-Taylor) cómo la única forma de protegerse del riesgo de <em>overfitting</em> es mediante la limitación de los patrones que cabe esperar encontrar en la base de datos. Si el analista de los datos está dispuesto a encontrar cualquier patrón y diseña el algoritmo con este criterio es seguro que encontrará algún patrón sorprendente: “<em>The paradoxical conclusion is that it would be very unlikely for unlikely events not to occur</em>”. El ejemplo al que recurren los mecionados autores para ilustrar este fenómeno es la muy conocida <em>Paradoja del cumpleaños</em>, que pone de manifiesto cómo son suficientes 23 personas reunidas en una sala para que al menos dos cumplan años en una misma fecha (una fecha cualquiera del año) mientras que son necesarias 253 personas para que alguna cumpla años en una fecha concreta establecida a priori. La clave está en el espacio de patrones que se está dispuesto a encontrar (<em>un día concreto</em> es mucho más restrictivo que <em>cualquier día del año</em>).</p>
<p style="margin-left: 1.25cm;">Otro ejemplo puede ayudar a ilustrar la idea de <em>overfitting</em>. En efecto, imaginemos que contamos con <em>n</em> parejas (<em>xi</em>,<em>yi</em>) de observaciones  tales que todos los valores del primer elemento de la pareja son distintos . Imaginemos que buscamos un patrón que prediga el valor de  <em>y</em> en función del valor de <em>x</em>. Pues bien, si el espacio de patrones es el conjunto de polinomios de grado <em>k</em> y estamos dispuestos a incrementar cuanto sea necesario el valor de <em>k</em>, será posible encontrar un patrón (un polinomio de grado <em>n</em>-1) que prediga de forma perfecta cada uno de los valores <em>y</em> en función del correspondiente <em>x</em>. Ahora bien, si mediante el mismo mecanismo de generación de datos obtuviéramos otro conjunto de observaciones  y aplicáramos el patrón aprendido en la base original para tratar de efectuar predicciones en la nueva base, los resultados serían mucho menos espectaculares. El conjunto de patrones susceptible de ser analizado era excesivamente grande y, por tanto, ha ocurrido el fenómeno de <em>overfitting</em>.</p>
<p style="margin-left: 1.25cm;">En aprendizaje estadístico, la llamada <em>complejidad de Rademacher</em> mide la <em>riqueza</em> de una familia de funciones (posibles patrones), entendiendo esta riqueza como la capacidad de la familia de funciones a adaptarse (y detectar) <em>ruido aleatorio</em>. Cuanto mayor sea la complejidad de Rademacher de una familia de funciones, mayor es el riesgo de <em>overfitting </em><span style="font-style: normal;">que se deriva de su utilización.</span></p>
<p style="margin-left: 1.25cm;">Como se ha mencionado ya, la única vía para evitar el problema del <em>overfitting</em> es a través de la limitación o restricción del espacio de búsqueda de posibles patrones. Con este fin, es necesario contar con conocimiento experto en la disciplina a la que se refiere la base de datos analizada. Sólo un experto en el ámbito de estudio (apoyado por el diseñador del algoritmo) puede decidir de manera informada cuál es la naturaleza de los patrones que cabe detectar en su ámbito de conocimiento así como señalar qué patrones no son razonables. De esta manera, el diseñador del algoritmo estará en las mejores condiciones para poder adaptar el algoritmo al ámbito al que se refiere la base de datos analizada. En este sentido, los algoritmos deben ser parametrizables para, a partir de una misma base, adaptarse a problemas de distinta naturaleza.</p>
<p><map name='google_ad_map_958_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/958?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_958_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=958&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fcaracteristicas-deseables-en-un-algoritmo-de-deteccion-de-patrones' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/eo88X0O2v-D-hkuxzbX9FIimbl0/0/da"><img src="http://feedads.g.doubleclick.net/~a/eo88X0O2v-D-hkuxzbX9FIimbl0/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/eo88X0O2v-D-hkuxzbX9FIimbl0/1/da"><img src="http://feedads.g.doubleclick.net/~a/eo88X0O2v-D-hkuxzbX9FIimbl0/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=SjfrvoxwTrc:-m7zybbaAzY:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=SjfrvoxwTrc:-m7zybbaAzY:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=SjfrvoxwTrc:-m7zybbaAzY:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=SjfrvoxwTrc:-m7zybbaAzY:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=SjfrvoxwTrc:-m7zybbaAzY:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/SjfrvoxwTrc" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/caracteristicas-deseables-en-un-algoritmo-de-deteccion-de-patrones/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/caracteristicas-deseables-en-un-algoritmo-de-deteccion-de-patrones</feedburner:origLink></item>
		<item>
		<title>El cuarto paradigma</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/QUqNry8JgXk/el-cuarto-paradigma</link>
		<comments>http://www.jjgibaja.net/el-cuarto-paradigma#comments</comments>
		<pubDate>Fri, 09 Jul 2010 07:56:47 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[estadística]]></category>

		<category><![CDATA[data analysis]]></category>

		<category><![CDATA[data mining]]></category>

		<category><![CDATA[paradigm]]></category>

		<category><![CDATA[science]]></category>

		<category><![CDATA[simulation]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=955</guid>
		<description><![CDATA[Si bien es cierto que las pioneras en detectar el valor que reside en los datos que acumulaban en sus bases fueron las organizaciones empresariales, el mundo científico no ha sido ajeno a esta realidad. A mediados de los noventa, el desaparecido Jim Gray -científico estadounidense galardonado en 1988 con el premio Turing- fue capaz [...]]]></description>
			<content:encoded><![CDATA[<p style="margin-bottom: 0cm;">Si bien es cierto que las pioneras en detectar el valor que reside en los datos que acumulaban en sus bases fueron las organizaciones empresariales, el mundo científico no ha sido ajeno a esta realidad. A mediados de los noventa, el desaparecido Jim Gray -científico estadounidense galardonado en 1988 con el premio Turing- fue capaz de anticipar esta nueva situación. Gray acuñó el término <em>eScience</em> para referirse al nuevo paradigma imperante en la investigación científica: la investigación intensiva en datos (<em>data-intensive scientific rersearch</em>). En opinión de este autor, la investigación científica ha atravesado cuatro estadios (paradigmas):</p>
<p style="margin-bottom: 0cm;">
<ul>
<li>
<p style="margin-bottom: 0cm;">El <em>paradigma empírico</em>. En 	los albores de la ciencia, ésta era puramente <em>empírica</em> y su 	objetivo no era otro que el de tratar de describir los fenómenos 	naturales. En particular, los científicos no pretendían generar 	modelos o leyes que rigieran comportamientos universales sino tan 	solo explicar aquello que veían.</p>
</li>
<li>
<p style="margin-bottom: 0cm;">El <em>paradigma teórico</em>. La 	ciencia evolucionó y sus objetivos se tornaron más ambiciosos. La 	ciencia no se limitaba ya a tratar de explicar aquello que veía. 	Los científicos deseaban formular modelos de aplicación general: 	modelos universales. En otras palabras, a pesar de que la ciencia 	continuó siendo empírica, adquirió un carácter teórico. Las 	leyes de Kepler, las leyes de Newton o las ecuaciones de Maxwell son 	ejemplos apropiados de este estadio de la ciencia.</p>
</li>
<li>
<p style="margin-bottom: 0cm;">El <em>paradigma de la simulación</em>. 	Los modelos teóricos universales que formulaban los científicos en 	su esfuerzo por explicar el funcionamiento de la realidad se fueron 	volviendo más y más complejos, hasta el punto de que pronto 	resultó evidente que estas formulaciones eran demasiado complicadas 	como para poder ser resueltas de modo analítico (exacto). Los 	científicos recurrieron entonces a la <em>simulación</em>. La 	Física, la Biología o la Química (en el ámbito de las Ciencias 	Experimentales) o la Economía y la Psicología (entre las Ciencias 	Sociales) son ejemplos de disciplinas que han adoptado la simulación 	(normalmente apoyada en el recurso intensivo a los ordenadores) con 	el fin de valorar el desempeño de sistemas excesivamente complejos 	para ser evaluados mediante un enfoque analítico.</p>
</li>
<li>
<p style="margin-bottom: 0cm;">El <em>paradigma intensivo en 	datos</em>. En la actualidad, el progresivamente mayor recurso a la 	simulación ha generado grandes volúmenes de datos. A éstos se une 	el aluvión proveniente de las observaciones empíricas de las 	Ciencias Experimentales (que cuentan con instrumentos  cada vez más 	precisos y potentes). Todos esos datos, captados o generados, se 	acumulan en bases de datos a la espera de ser analizados mediante 	potentes programas de ordenador que persiguen la detección de 	patrones o pautas de regularidad. Según este nuevo paradigma, estas 	pautas permitirán a los científicos aventurar nuevas conjeturas 	acerca de cómo funciona el mundo. Esta forma de entender la ciencia 	recibe el nombre de <em>El Cuarto Paradigma</em>.</p>
</li>
</ul>
<p><map name='google_ad_map_955_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/955?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_955_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=955&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fel-cuarto-paradigma' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/PTog79jSOuDbbF01NfD1fMvahSE/0/da"><img src="http://feedads.g.doubleclick.net/~a/PTog79jSOuDbbF01NfD1fMvahSE/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/PTog79jSOuDbbF01NfD1fMvahSE/1/da"><img src="http://feedads.g.doubleclick.net/~a/PTog79jSOuDbbF01NfD1fMvahSE/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=QUqNry8JgXk:jflEPs0gHqM:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=QUqNry8JgXk:jflEPs0gHqM:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=QUqNry8JgXk:jflEPs0gHqM:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=QUqNry8JgXk:jflEPs0gHqM:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=QUqNry8JgXk:jflEPs0gHqM:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/QUqNry8JgXk" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/el-cuarto-paradigma/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/el-cuarto-paradigma</feedburner:origLink></item>
		<item>
		<title>I Conferencia Hispana R-project</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/FyneAtksric/i-conferencia-hispana-r-project</link>
		<comments>http://www.jjgibaja.net/i-conferencia-hispana-r-project#comments</comments>
		<pubDate>Wed, 30 Dec 2009 07:44:30 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[eventos]]></category>

		<category><![CDATA[events]]></category>

		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=953</guid>
		<description><![CDATA[Vídeos de la I Conferencia Hispana R-Project organizada en la Universidad de Murcia los días 26 y 27 de noviembre de 2009]]></description>
			<content:encoded><![CDATA[<p>Los días 26 y 27 del mes de noviembre se celebró en la <a href="http://www.um.es/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.um.es/');" target="_blank">Universidad de Murcia</a> la <a href="http://ereros.org/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://ereros.org/');" target="_blank">I Conferencia Hispana R-project</a>. Lamentablemente no pude acercarme a Murcia para este evento pero los organizadores han puesto a nuestra disposición los <a href="http://tv.um.es/serial/index/id/216" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://tv.um.es/serial/index/id/216');" target="_blank">vídeos</a> de las jornadas. ¡Disfrutadlos!</p>
<p>Más información de cara a la organización de próximas jornadas <a href="https://stat.ethz.ch/mailman/listinfo/r-help-es" onclick="javascript:pageTracker._trackPageview('/outbound/article/https://stat.ethz.ch/mailman/listinfo/r-help-es');" target="_blank">aquí</a>.</p>
<p><map name='google_ad_map_953_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/953?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_953_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=953&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fi-conferencia-hispana-r-project' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/CpDC5E3q0lL3nF4_dPpuHjT7ETU/0/da"><img src="http://feedads.g.doubleclick.net/~a/CpDC5E3q0lL3nF4_dPpuHjT7ETU/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/CpDC5E3q0lL3nF4_dPpuHjT7ETU/1/da"><img src="http://feedads.g.doubleclick.net/~a/CpDC5E3q0lL3nF4_dPpuHjT7ETU/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=FyneAtksric:03cJ8UkVHNw:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=FyneAtksric:03cJ8UkVHNw:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=FyneAtksric:03cJ8UkVHNw:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=FyneAtksric:03cJ8UkVHNw:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=FyneAtksric:03cJ8UkVHNw:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/FyneAtksric" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/i-conferencia-hispana-r-project/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/i-conferencia-hispana-r-project</feedburner:origLink></item>
		<item>
		<title>El modelo de ajuste con restricciones “pasa por la media”</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/IeKQGGna66s/el-modelo-de-ajuste-con-restricciones-pasa-por-la-media</link>
		<comments>http://www.jjgibaja.net/el-modelo-de-ajuste-con-restricciones-pasa-por-la-media#comments</comments>
		<pubDate>Wed, 23 Dec 2009 08:58:12 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[regresión]]></category>

		<category><![CDATA[least squares]]></category>

		<category><![CDATA[linear constraints]]></category>

		<category><![CDATA[mínimos cuadrados]]></category>

		<category><![CDATA[ols]]></category>

		<category><![CDATA[restricciones lineales]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=919</guid>
		<description><![CDATA[En este post se demuestra que el modelo de ajuste sometido a restricciones lineales "pasa por la media". Este hecho se puede aprovechar para el cálculo del término independiente en el caso de haber trabajado con datos centrados.]]></description>
			<content:encoded><![CDATA[<p>Consideremos el modelo teórico lineal</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=Y%3DX+%5Cbeta+%2B+%5Cepsilon&bg=FFFFFF&fg=000000'  alt="Y=X \beta + \epsilon" /></p>
<p>El modelo de ajuste correspondiente a este modelo teórico es</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=Y%3DX+B+%2B+e&bg=FFFFFF&fg=000000'  alt="Y=X B + e" /></p>
<p>Este modelo de ajuste cumple</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BY%7D%3D%5Cbar%7BX%7D+B&bg=FFFFFF&fg=000000'  alt="\bar{Y}=\bar{X} B" /></p>
<p>Este hecho se suele expresar diciendo que &#8220;el modelo de ajuste pasa por la media&#8221;. Este hecho resulta de gran utilidad práctica ya que permite el cálculo del término independiente en el caso de que el ajuste del modelo se esté efectuando mediante el <a href="http://www.jjgibaja.net/datos-centrados-en-el-modelo-de-regresion-lineal-multiple"  target="_blank">método de datos centrados</a> mediante el empleo de la siguiente fórmula:</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=a%3D+%5Cbar%7By%7D+-+b_%7B1%7D+%5Cbar%7BX_1%7D+-+%5Cldots+-+b_%7Bk%7D+%5Cbar%7BX_k%7D&bg=FFFFFF&fg=000000'  alt="a= \bar{y} - b_{1} \bar{X_1} - \ldots - b_{k} \bar{X_k}" /></p>
<p>Pero, ¿qué ocurre cuando al modelo teórico se le añaden <a href="http://www.jjgibaja.net/el-modelo-de-ajuste-sometido-a-restricciones-lineales"  target="_blank">restricciones lineales</a>? ¿sigue pasando por la media? Dicho de otra forma: ¿se cumple la siguiente expresión?</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BY%7D%3D%5Cbar%7BX%7D+B_C&bg=FFFFFF&fg=000000'  alt="\bar{Y}=\bar{X} B_C" /></p>
<p>Bajo ciertas condiciones, la respuesta es afirmativa y la demostración sumamente sencilla</p>
<p><a href="http://www.jjgibaja.net/el-modelo-de-ajuste-sometido-a-restricciones-lineales"  target="_blank">Sabemos que</a></p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=B_C+%3D+B+%2B+%28X%5Et+X%29%5E%7B-1%7D+C%5Et+%5BC+%28X%5Et+X%29%5E%7B-1%7D+C%5Et%5D%5E%7B-1%7D+%28%5Cgamma+-+C+B%29&bg=FFFFFF&fg=000000'  alt="B_C = B + (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} (\gamma - C B)" /></p>
<p>y por tanto</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+B_C+%3D+%5Cbar%7BX%7D+B+%2B%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+C%5Et+%5BC+%28X%5Et+X%29%5E%7B-1%7D+C%5Et%5D%5E%7B-1%7D+%28%5Cgamma+-+C+B%29&bg=FFFFFF&fg=000000'  alt="\bar{X} B_C = \bar{X} B +\bar{X} (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} (\gamma - C B)" /></p>
<p>Para que <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BY%7D%3D%5Cbar%7BX%7D+B_C&bg=FFFFFF&fg=000000'  alt="\bar{Y}=\bar{X} B_C" /> debe ocurrir que</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+C%5Et+%5BC+%28X%5Et+X%29%5E%7B-1%7D+C%5Et%5D%5E%7B-1%7D+%28%5Cgamma+-+C+B%29+%3D+0&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} (\gamma - C B) = 0" /></p>
<p>ya que <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BY%7D%3D%5Cbar%7BX%7D+B&bg=FFFFFF&fg=000000'  alt="\bar{Y}=\bar{X} B" /></p>
<p>Consideremos la matriz</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+C%5Et&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1} C^t" /></p>
<p>Demostraremos que, bajo ciertas condiciones muy generales, dicha matriz es nula y, en consecuencia, que</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+C%5Et+%5BC+%28X%5Et+X%29%5E%7B-1%7D+C%5Et%5D%5E%7B-1%7D+%28%5Cgamma+-+C+B%29+%3D+0&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1} C^t [C (X^t X)^{-1} C^t]^{-1} (\gamma - C B) = 0" /></p>
<p>por lo que</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BY%7D%3D%5Cbar%7BX%7D+B_C&bg=FFFFFF&fg=000000'  alt="\bar{Y}=\bar{X} B_C" /></p>
<p>En efecto,</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+C%5Et+%3D+H_1+X+%28X%5Et+X%29%5E%7B-1%7D+C%5Et&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1} C^t = H_1 X (X^t X)^{-1} C^t" /></p>
<p>donde <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=H_1&bg=FFFFFF&fg=000000'  alt="H_1" /> es la matriz que proyecta los vectores de <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=R%5En&bg=FFFFFF&fg=000000'  alt="R^n" /> en la dirección del <a href="http://www.jjgibaja.net/datos-centrados-en-el-modelo-de-regresion-lineal-multiple"  target="_blank">vector formado por unos</a>.</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=H_1+%3D+1+%281%5Et+1%29%5E%7B-1%7D+1%5Et+%3D+%5Cfrac+%7B1%7D%7Bn%7D+1+1%5Et&bg=FFFFFF&fg=000000'  alt="H_1 = 1 (1^t 1)^{-1} 1^t = \frac {1}{n} 1 1^t" /></p>
<p>El resultado de premultiplicar cualquier vector de <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=R%5En&bg=FFFFFF&fg=000000'  alt="R^n" /> por la matriz <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=H_1&bg=FFFFFF&fg=000000'  alt="H_1" /> es un vector de <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=R%5En&bg=FFFFFF&fg=000000'  alt="R^n" /> cuyos componentes son todos iguales e iguales a la media de los componentes del vector original.</p>
<p>Consideremos ahora la matriz</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=X+%28X%5Et+X%29%5E%7B-1%7D&bg=FFFFFF&fg=000000'  alt="X (X^t X)^{-1}" /></p>
<p>Si premultiplicamos esta matriz por <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=X%5Et&bg=FFFFFF&fg=000000'  alt="X^t" />, el resultado es la matriz identidad, por lo que todas las columnas de <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=X+%28X%5Et+X%29%5E%7B-1%7D&bg=FFFFFF&fg=000000'  alt="X (X^t X)^{-1}" /> excepto la primera son ortogonales al vector de <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=R%5En&bg=FFFFFF&fg=000000'  alt="R^n" /> formado por unos -la primera columna de la matriz <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=X&bg=FFFFFF&fg=000000'  alt="X" />-. Si no fuera así, <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%28X%5Et+X%29+%28X%5Et+X%29%5E%7B-1%7D&bg=FFFFFF&fg=000000'  alt="(X^t X) (X^t X)^{-1}" /> no sería la matriz identidad, lo cual es absurdo. Dicho de otro modo, las sumas de los elementos de todas y cada una de las columnas de la matriz  <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=X+%28X%5Et+X%29%5E%7B-1%7D&bg=FFFFFF&fg=000000'  alt="X (X^t X)^{-1}" /> -excepto la primera- son nulas y, en consecuencia, las medias son nulas.</p>
<p>Como consecuencia de este hecho,</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+%3D+H_1+X+%28X%5Et+X%29%5E%7B-1%7D+&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1} = H_1 X (X^t X)^{-1} " /></p>
<p style="text-align: left;">es una matriz cuyos componentes son nulos salvo los de la primera columna.</p>
<p style="text-align: left;">¿Qué debe ocurrir para que la matriz <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D+C%5Et&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1} C^t" /> sea nula?</p>
<p style="text-align: left;">Es suficiente con que la primera columna de la matriz <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=C&bg=FFFFFF&fg=000000'  alt="C" /> sea nula. En ese caso, al postmultiplicar <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1}" /> por <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=C%5Et&bg=FFFFFF&fg=000000'  alt="C^t" /> se obtendrán combinaciones lineales de columnas de ceros, ya que la primera columna de  <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BX%7D+%28X%5Et+X%29%5E%7B-1%7D&bg=FFFFFF&fg=000000'  alt="\bar{X} (X^t X)^{-1}" /> -la única que puede no tener ceros- no forma parte de las combinaciones lineales.</p>
<p style="text-align: left;">¿Cómo podemos expresar la idea de que la primera columna de la matriz <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=C&bg=FFFFFF&fg=000000'  alt="C" /> sea nula de una forma más intuitiva? La primera columna de la matriz <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=C&bg=FFFFFF&fg=000000'  alt="C" /> recoge los coeficientes del término independiente en las restricciones lineales que se añaden al modelo teórico. Decir que la primera columna de <img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=C&bg=FFFFFF&fg=000000'  alt="C" /> es nula es lo mismo que decir que las restricciones añadidas al modelo teórico no involucran al término independiente.</p>
<p style="text-align: left;">En resumen, hemos demostrado que si las restricciones lineales que se añaden a un modelo teórico no incluyen al término independiente -lo que, en la práctica es la situación más habitual- entonces el modelo de ajuste con restricciones &#8220;pasa por la media&#8221;, es decir, satisface la ecuación</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=%5Cbar%7BY%7D%3D%5Cbar%7BX%7D+B_C&bg=FFFFFF&fg=000000'  alt="\bar{Y}=\bar{X} B_C" /></p>
<p style="text-align: left;">Finalmente, este hecho resulta de gran utilidad práctica para calcular el término independiente en el modelo de ajuste con restricciones si es que <a href="http://www.jjgibaja.net/restricciones-lineales-con-datos-centrados"  target="_blank">se está trabajando con datos centrados</a> ya que se cumple que</p>
<p style="text-align: center;"><img style="border:0px;vertical-align:middle;" src='http://l.wordpress.com/latex.php?latex=a_C%3D+%5Cbar%7By%7D+-+b_%7B1C%7D+%5Cbar%7BX_1%7D+-+%5Cldots+-+b_%7BkC%7D+%5Cbar%7BX_k%7D&bg=FFFFFF&fg=000000'  alt="a_C= \bar{y} - b_{1C} \bar{X_1} - \ldots - b_{kC} \bar{X_k}" /></p>
<p><map name='google_ad_map_919_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/919?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_919_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=919&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fel-modelo-de-ajuste-con-restricciones-pasa-por-la-media' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/DmjH6WO31BYNy0-nqm3ECDK6UiU/0/da"><img src="http://feedads.g.doubleclick.net/~a/DmjH6WO31BYNy0-nqm3ECDK6UiU/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/DmjH6WO31BYNy0-nqm3ECDK6UiU/1/da"><img src="http://feedads.g.doubleclick.net/~a/DmjH6WO31BYNy0-nqm3ECDK6UiU/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=IeKQGGna66s:H_exLgig2EA:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=IeKQGGna66s:H_exLgig2EA:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=IeKQGGna66s:H_exLgig2EA:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=IeKQGGna66s:H_exLgig2EA:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=IeKQGGna66s:H_exLgig2EA:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/IeKQGGna66s" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/el-modelo-de-ajuste-con-restricciones-pasa-por-la-media/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/el-modelo-de-ajuste-con-restricciones-pasa-por-la-media</feedburner:origLink></item>
		<item>
		<title>Hierarchical Clustering on Principal Components</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/6pF9PHHqcAo/hierarchical-clustering-on-principal-components</link>
		<comments>http://www.jjgibaja.net/hierarchical-clustering-on-principal-components#comments</comments>
		<pubDate>Thu, 30 Jul 2009 11:12:40 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[análisis de componentes principales]]></category>

		<category><![CDATA[clasificación jerárquica ascendente]]></category>

		<category><![CDATA[FactoMineR]]></category>

		<category><![CDATA[hierarchical clustering]]></category>

		<category><![CDATA[Principal Components Analysis]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=915</guid>
		<description><![CDATA[El equipo de agrocampus ouest anuncia que va a mejorar su paquete FactoMineR para incluir funciones que permitirán la realización de análisis cluster jerárquicos a partir de los datos obtenidos de un análisis de componentes principales]]></description>
			<content:encoded><![CDATA[<p>Al final no me pude acercar a <a href="http://maps.google.es/maps?f=q&amp;source=s_q&amp;hl=es&amp;geocode=&amp;q=rennes&amp;sll=43.312752,-1.899633&amp;sspn=0.302768,0.727158&amp;ie=UTF8&amp;ll=48.111099,-1.680908&amp;spn=2.222673,5.817261&amp;t=h&amp;z=8&amp;iwloc=A" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://maps.google.es/maps?f=q&amp;source=s_q&amp;hl=es&amp;geocode=&amp;q=rennes&amp;sll=43.312752,-1.899633&amp;sspn=0.302768,0.727158&amp;ie=UTF8&amp;ll=48.111099,-1.680908&amp;spn=2.222673,5.817261&amp;t=h&amp;z=8&amp;iwloc=A');" target="_blank">Rennes</a> para asistir a la <a href="http://www.agrocampus-ouest.fr/math/useR-2009//" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.agrocampus-ouest.fr/math/useR-2009//');" target="_blank">conferencia uSER2009!</a>. Pero los organizadores han hecho un gran trabajo y han publicado con gran diligencia los <a href="http://www.agrocampus-ouest.fr/math/useR-2009//abstracts/book_of_abstracts.pdf" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.agrocampus-ouest.fr/math/useR-2009//abstracts/book_of_abstracts.pdf');" target="_blank">resúmenes de las ponencias</a> que allí se presentaron.</p>
<p>Esto me reafirma en mi opinión de que el <a href="http://www2.agrocampus-ouest.fr/math/membres.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www2.agrocampus-ouest.fr/math/membres.html');" target="_blank">equipo</a> de <a href="http://www.agrocampus-ouest.fr" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.agrocampus-ouest.fr');" target="_blank">agrocampus ouest</a> sigue siendo el mejor en lo que a análisis multivariante se refiere. Ahora &#8220;amenazan&#8221; con mejorar su paquete <a href="http://factominer.free.fr/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://factominer.free.fr/');" target="_blank">FactoMineR</a> incluyendo en él funciones que permiten realizar <a href="http://www.agrocampus-ouest.fr/math/useR-2009/slides/LeRay+Molto+Husson.pdf" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.agrocampus-ouest.fr/math/useR-2009/slides/LeRay+Molto+Husson.pdf');" target="_blank">análisis cluster jerárquicos</a> a partir de los resultados obtenidos de un análisis de componentes principales.</p>
<p>Estaré atento a la <a href="http://cran.r-project.org/web/packages/FactoMineR/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://cran.r-project.org/web/packages/FactoMineR/');" target="_blank">publicación</a> de la nueva versión.</p>
<p><map name='google_ad_map_915_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/915?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_915_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=915&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fhierarchical-clustering-on-principal-components' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/IU8bHO2UisBjp1PXdN9LIulyimg/0/da"><img src="http://feedads.g.doubleclick.net/~a/IU8bHO2UisBjp1PXdN9LIulyimg/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/IU8bHO2UisBjp1PXdN9LIulyimg/1/da"><img src="http://feedads.g.doubleclick.net/~a/IU8bHO2UisBjp1PXdN9LIulyimg/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=6pF9PHHqcAo:mSQrXHNAXoE:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=6pF9PHHqcAo:mSQrXHNAXoE:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=6pF9PHHqcAo:mSQrXHNAXoE:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=6pF9PHHqcAo:mSQrXHNAXoE:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=6pF9PHHqcAo:mSQrXHNAXoE:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/6pF9PHHqcAo" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/hierarchical-clustering-on-principal-components/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/hierarchical-clustering-on-principal-components</feedburner:origLink></item>
		<item>
		<title>Distribución log-normal</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/y_zT3RBk8bs/distribucion-log-normal</link>
		<comments>http://www.jjgibaja.net/distribucion-log-normal#comments</comments>
		<pubDate>Thu, 23 Jul 2009 09:32:33 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[estadística]]></category>

		<category><![CDATA[arithmetic mean]]></category>

		<category><![CDATA[geometric mean]]></category>

		<category><![CDATA[lognormal]]></category>

		<category><![CDATA[mean]]></category>

		<category><![CDATA[media]]></category>

		<category><![CDATA[media aritmética]]></category>

		<category><![CDATA[media geométrica]]></category>

		<category><![CDATA[median]]></category>

		<category><![CDATA[mediana]]></category>

		<category><![CDATA[normal]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=911</guid>
		<description><![CDATA[Llevo un par de días leyendo el interesante libro de Rein Taagepera de título Making Social Sciences More Scientific. La aportación fundamental del autor consiste en una comparación entre las formas de trabajo predominates en los ámbitos de las ciencias naturales y las ciencias sociales. Afirma Taagepera que las ciencias sociales son "menos ciencias" que las naturales y que, quizás, la aplicación de los métodos empleados en estas últimas podría mejorar los resultados y la imagen social de aquéllas.

Entre otras cosas, el autor critica la omnipresencia en las ciencias sociales de la distribución normal -y de la media aritmética-. En su opinión, en muchas ocasiones es una mejor opción la distribución log-normal y la media geométrica. El autor nos proporciona unos consejos prácticos para seleccionar la media que mejor se adapta a los datos de que disponemos.]]></description>
			<content:encoded><![CDATA[<p>Llevo un par de días leyendo el interesante libro de <a href="http://www.faculty.uci.edu/profile.cfm?faculty_id=2570" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.faculty.uci.edu/profile.cfm?faculty_id=2570');" target="_blank">Rein Taagepera</a> de título <a href="http://books.google.es/books?id=l6tiJLcVZ8AC&amp;pg=PT20&amp;lpg=PT20&amp;dq=making+social+sciences+more+scientific&amp;source=bl&amp;ots=-jB3QRfVnP&amp;sig=LRF8ZbiVkee-dG6-ITpaDhUbCzE&amp;hl=es&amp;ei=DCxoSse-ItSc_Ab0moyxCw&amp;sa=X&amp;oi=book_result&amp;ct=result&amp;resnum=3" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://books.google.es/books?id=l6tiJLcVZ8AC&amp;pg=PT20&amp;lpg=PT20&amp;dq=making+social+sciences+more+scientific&amp;source=bl&amp;ots=-jB3QRfVnP&amp;sig=LRF8ZbiVkee-dG6-ITpaDhUbCzE&amp;hl=es&amp;ei=DCxoSse-ItSc_Ab0moyxCw&amp;sa=X&amp;oi=book_result&amp;ct=result&amp;resnum=3');" target="_blank"><em>Making Social Sciences More Scientific</em></a>. La aportación fundamental del autor consiste en una comparación entre las formas de trabajo predominates en los ámbitos de las ciencias naturales y las ciencias sociales. Afirma Taagepera que las ciencias sociales son &#8220;menos ciencias&#8221; que las naturales y que, quizás, la aplicación de los métodos empleados en estas últimas podría mejorar los resultados y la imagen social de aquéllas.</p>
<p>Entre otras cosas, el autor critica la omnipresencia en las ciencias sociales de la distribución normal -y de la media aritmética-. En su opinión, en muchas ocasiones es una mejor opción la <a href="http://en.wikipedia.org/wiki/Lognormal" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Lognormal');" target="_blank">distribución log-normal</a> y la <a href="http://en.wikipedia.org/wiki/Geometric_mean" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Geometric_mean');" target="_blank">media geométrica</a>. El autor nos proporciona unos consejos prácticos para seleccionar la media que mejor se adapta a los datos de que disponemos. Cito:</p>
<blockquote><p>Geometric means often express the central tendency better than arithmetic means. For the same reason, lognormal data fits often are called for, instead of desperate attempts to fit data into a Procrustean normal distribution. The following advice applies, with some reservations.</p>
<ul>
<li>In the absence of any other information, if a variable can range from minus to plus infinity, a normal distribution is our best  bet, implying that the arithmetic mean is close to the median. (In the presence of further information, the bet may be off.)</li>
<li>In the absence of any other information, if a variable can have only positive values, a lognormal distribution is among our best bets, implying that the geometric mean is close to the median. (In the presence of further information, the bet may be off-we may have a <a href="http://en.wikipedia.org/wiki/Gamma_distribution" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Gamma_distribution');" target="_blank">gamma distribution</a> or something else.)</li>
<li>However, if one tries a normal fit and standard deviation turns out less than one-half of the mean, then one might use this normal distribution. If standard deviation exceeds one-half of the mean, the normal fit should be abandoned in favor of lognormal.</li>
<li>If negative values are conceptually excluded but zero values do ocurr, then neither distribution can fit. Neither mean adequately reflects the median, but a pseudo-geometric mean might approximate it.</li>
<li>When there are grounds to hesitate between the arithmetic and geometric means, using the median might be the safest way, although it is awkward to calculte.</li>
</ul>
</blockquote>
<p>A este respecto resulta muy interesante el artículo de Limpert et al. (2001) de título <a href="http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf');" target="_blank"><em>Lognormal Distributions across the Sciences: Keys and Clues</em></a>.</p>
<p><map name='google_ad_map_911_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/911?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_911_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=911&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fdistribucion-log-normal' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/9km00viC_ypNFzc9tiqvJ_vIBQA/0/da"><img src="http://feedads.g.doubleclick.net/~a/9km00viC_ypNFzc9tiqvJ_vIBQA/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/9km00viC_ypNFzc9tiqvJ_vIBQA/1/da"><img src="http://feedads.g.doubleclick.net/~a/9km00viC_ypNFzc9tiqvJ_vIBQA/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=y_zT3RBk8bs:Nhc6G5af-uk:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=y_zT3RBk8bs:Nhc6G5af-uk:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=y_zT3RBk8bs:Nhc6G5af-uk:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=y_zT3RBk8bs:Nhc6G5af-uk:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=y_zT3RBk8bs:Nhc6G5af-uk:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/y_zT3RBk8bs" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/distribucion-log-normal/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/distribucion-log-normal</feedburner:origLink></item>
		<item>
		<title>Classification and regression trees</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/YxqKRN_RjYY/classification-and-regression-trees</link>
		<comments>http://www.jjgibaja.net/classification-and-regression-trees#comments</comments>
		<pubDate>Tue, 23 Jun 2009 14:23:35 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[CART]]></category>

		<category><![CDATA[métodos no paramétricos]]></category>

		<category><![CDATA[non-parametric methods]]></category>

		<category><![CDATA[R]]></category>

		<category><![CDATA[rpart]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=894</guid>
		<description><![CDATA[Una alternativa muy razonable a los métodos paramétricos de regresión y análisis discriminante es el llamado método CART, siglas de classification and regression trees. Este método, popularizado por Breiman, Friedman, Olshen y Stone en 1984, es de aplicación cuando se trata de predecir el valor de una variable dependiente cuantitativa -caso de la regresión- o cualitativa -caso de la clasificación- a partir del conocimiento de los valores que toman una serie de variables explicativas.]]></description>
			<content:encoded><![CDATA[<p>Una alternativa muy razonable a los métodos paramétricos de regresión y análisis discriminante es el llamado <a href="http://www.statsoft.com/textbook/stcart.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.statsoft.com/textbook/stcart.html');" target="_blank"><em>método CART</em></a>, siglas de <em>classification and regression trees</em>. Este método, popularizado por <a href="http://www.amazon.co.uk/Classification-Regression-Trees-Leo-Breiman/dp/0412048418" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.amazon.co.uk/Classification-Regression-Trees-Leo-Breiman/dp/0412048418');" target="_blank">Breiman, Friedman, Olshen y Stone en 1984</a>, es de aplicación cuando se trata de predecir el valor de una variable dependiente cuantitativa -caso de la regresión- o cualitativa -caso de la clasificación- a partir del conocimiento de los valores que toman una serie de variables explicativas.</p>
<p>Trataremos en este <em>post </em>el caso de la clasificación, es decir, la situación en la que la variable dependiente es cualitativa, con dos o más modalidades.</p>
<p>En esencia, el método CART parte de un <a href="http://en.wikipedia.org/wiki/Tree_(data_structure)" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Tree_(data_structure)');" target="_blank">nodo raíz o nodo inicial</a>, que contiene al conjunto de todos los individuos, y establece una <a href="http://en.wikipedia.org/wiki/Partition_of_a_set" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Partition_of_a_set');" target="_blank">partición</a> de dicho conjunto en dos subconjuntos -llamados nodos hijos- siguiendo el criterio de minimizar la <a href="http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity');" target="_blank">heterogeneidad </a>interna de dichos nodos -lo que supone maximizar la heterogeneidad entre ellos-. Este paso se repite con cada uno de los nodos hijos y así sucesivamente hasta satisfacer el criterio de parada -por ejemplo, porque se ha obtenido un nodo completamente homogéneo o de un tamaño menor que un umbral previamente establecido-. Así, el resultado final de esta primera fase del método CART es un <a href="http://en.wikipedia.org/wiki/Binary_tree" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Binary_tree');" target="_blank">árbol binario</a> -cada nodo padre se divide en dos nodos hijos- de nombre árbol máximo.</p>
<p>El conjunto de <a href="http://en.wikipedia.org/wiki/Leaf_node" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Leaf_node');" target="_blank">nodos terminales</a> del árbol máximo constituye una partición del conjunto inicial de individuos. A cada uno de dichos nodos terminales se le asigna una etiqueta igual a la moda en dicho nodo de la variable cualitativa dependiente. Supongamos, por ejemplo, que la variable dependiente analizada es el sexo, con dos modalidades, H y M. Se asignaría la etiqueta H a aquellos nodos terminales en los que haya más H que M y la etiqueta M a los demás. La asignación de la etiqueta a los nodos terminales supone la existencia de un error de clasificación debido a la presencia en nodos terminales de individuos cuya modalidad en la variable dependiente no coincide con la etiqueta asignada a dicho nodo terminal. Naturalmente, el árbol máximo es el árbol con el mínimo error de clasificación.</p>
<p>A partir del árbol máximo comienza el llamado proceso de <a href="http://en.wikipedia.org/wiki/Pruning_(algorithm)" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Pruning_(algorithm)');" target="_blank">poda</a> del árbol. Hemos comentado que el árbol máximo tiene un error de clasificación muy pequeño pero sólo a costa de una gran complejidad -un elevado número de nodos-. En la mayoría de las situaciones merece la pena incrementar en pequeña medida el error de clasificación para <a href="http://en.wikipedia.org/wiki/Decision-tree_pruning" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Decision-tree_pruning');" target="_blank">simplificar la estructura</a> del árbol binario obtenido. Se obtiene de este modo un árbol llamado árbol óptimo -al menos desde el punto de vista del coste-complejidad-.</p>
<p>Es muy importante recordar que el error de clasificación calculado para el árbol óptimo tiende a <a href="http://en.wikipedia.org/wiki/Overfitting#Machine_learning" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Overfitting#Machine_learning');" target="_blank">sobrevalorar</a> el verdadero poder explicativo de las variables independientes para explicar la variable dependiente. La práctica habitual es la de destinar una parte de la muestra total de individuos a &#8220;<a href="http://en.wikipedia.org/wiki/Decision_tree_learning" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://en.wikipedia.org/wiki/Decision_tree_learning');" target="_blank">aprender el árbol</a>&#8221; y otra parte de la muestra a contrastar la calidad del árbol.</p>
<p>Naturalmente, R dispone de paquetes que permiten la <a href="http://www.statmethods.net/advstats/cart.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.statmethods.net/advstats/cart.html');" target="_blank">aplicación del método CART</a>. Por ejemplo, el <em>package </em><a href="http://cran.r-project.org/web/packages/rpart/index.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://cran.r-project.org/web/packages/rpart/index.html');" target="_blank">rpart</a>.</p>
<p><map name='google_ad_map_894_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/894?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_894_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=894&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fclassification-and-regression-trees' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/d2ioZ7SM2JKauxio1FtbnMMWjLw/0/da"><img src="http://feedads.g.doubleclick.net/~a/d2ioZ7SM2JKauxio1FtbnMMWjLw/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/d2ioZ7SM2JKauxio1FtbnMMWjLw/1/da"><img src="http://feedads.g.doubleclick.net/~a/d2ioZ7SM2JKauxio1FtbnMMWjLw/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=YxqKRN_RjYY:lKvbsH9sNr8:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=YxqKRN_RjYY:lKvbsH9sNr8:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=YxqKRN_RjYY:lKvbsH9sNr8:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=YxqKRN_RjYY:lKvbsH9sNr8:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=YxqKRN_RjYY:lKvbsH9sNr8:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/YxqKRN_RjYY" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/classification-and-regression-trees/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/classification-and-regression-trees</feedburner:origLink></item>
		<item>
		<title>Nueva edición del libro de Gilbert Strang</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/PkupPv4YTEw/nueva-edicion-del-libro-de-gilbert-strang</link>
		<comments>http://www.jjgibaja.net/nueva-edicion-del-libro-de-gilbert-strang#comments</comments>
		<pubDate>Mon, 22 Jun 2009 11:24:58 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[Álgebra Lineal]]></category>

		<category><![CDATA[books]]></category>

		<category><![CDATA[Gilbert Strang]]></category>

		<category><![CDATA[libros]]></category>

		<category><![CDATA[Linear Algebra]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=890</guid>
		<description><![CDATA[Hace unos días me llegó por correo la cuarta edición del libro Introduction to Linear Algebra del profesor del MIT Gilbert Strang. Después de unos cuantos años de estudiar y de explicar asignaturas relacionadas con el álgebra lineal y las matrices es, sin duda alguna, mi favorito.]]></description>
			<content:encoded><![CDATA[<p>Hace unos días me llegó por correo la cuarta edición del libro <a href="http://www.amazon.com/Introduction-Linear-Algebra-Fourth-Gilbert/dp/0980232716/ref=sr_1_2?ie=UTF8&amp;s=books&amp;qid=1245669238&amp;sr=8-2" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.amazon.com/Introduction-Linear-Algebra-Fourth-Gilbert/dp/0980232716/ref=sr_1_2?ie=UTF8&amp;s=books&amp;qid=1245669238&amp;sr=8-2');" target="_blank"><em>Introduction to Linear Algebra</em></a> del profesor del <a href="http://web.mit.edu/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://web.mit.edu/');" target="_blank">MIT</a> <a href="http://www-math.mit.edu/~gs/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www-math.mit.edu/~gs/');" target="_blank">Gilbert Strang</a>. Después de unos cuantos años de estudiar y de explicar asignaturas relacionadas con el álgebra lineal y las matrices es, sin duda alguna, mi favorito.</p>
<p>El estilo del profesor Strang es directo. Los capítulos consisten en una breve -brevísima- presentación teórica seguida de un ejemplo, que se exprime de forma obsesiva hasta sacarle todo su jugo y, en particular, hasta poder formular conjeturas que, finalmente, son demostradas.</p>
<p>El índice es el siguiente:</p>
<ol>
<li>Introduction to Vectors</li>
<li>Solving Linear Equations</li>
<li>Vector Spaces and Subspaces</li>
<li>Orthogonality</li>
<li>Determinants</li>
<li>Eigenvalues and Eigenvectors</li>
<li>Linear Transformations</li>
<li>Applications</li>
<li>Numerical Linear Algebra</li>
<li>Complex Vectors and Matrices</li>
</ol>
<p>Para comprender bien los fundamentos del análisis multivariante es crucial un dominio del contenido de los capítulos 1 a 6 de este texto -los capítulos 7 a 10 pueden dejarse para un segundo curso de álgebra lineal-.</p>
<p>Además del libro, recomiendo los <a href="http://web.mit.edu/18.06/www/Video/video-fall-99-new.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://web.mit.edu/18.06/www/Video/video-fall-99-new.html');" target="_blank">vídeos de la asignatura <em>Linear Algebra</em> 18.06 </a>impartida en el MIT por el profesor Strang en otoño de 1999.</p>
<p><map name='google_ad_map_890_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/890?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_890_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=890&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fnueva-edicion-del-libro-de-gilbert-strang' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/ywHGl0TRVnopmmpzcLs4Zlw7Io4/0/da"><img src="http://feedads.g.doubleclick.net/~a/ywHGl0TRVnopmmpzcLs4Zlw7Io4/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/ywHGl0TRVnopmmpzcLs4Zlw7Io4/1/da"><img src="http://feedads.g.doubleclick.net/~a/ywHGl0TRVnopmmpzcLs4Zlw7Io4/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=PkupPv4YTEw:CrvmC3czGP8:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=PkupPv4YTEw:CrvmC3czGP8:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=PkupPv4YTEw:CrvmC3czGP8:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=PkupPv4YTEw:CrvmC3czGP8:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=PkupPv4YTEw:CrvmC3czGP8:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/PkupPv4YTEw" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/nueva-edicion-del-libro-de-gilbert-strang/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/nueva-edicion-del-libro-de-gilbert-strang</feedburner:origLink></item>
		<item>
		<title>El paquete dynGraph de R</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/VyS5ab-L32o/el-paquete-dyngraph-de-r</link>
		<comments>http://www.jjgibaja.net/el-paquete-dyngraph-de-r#comments</comments>
		<pubDate>Mon, 22 Jun 2009 11:10:29 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[dynGraph]]></category>

		<category><![CDATA[FactoMineR]]></category>

		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=888</guid>
		<description><![CDATA[Curioseando en los resúmenes de las comunicaciones de la conferencia useR! 2008 me he encontrado un interesante paquete -de nombre dynGraph- que permite el tratamiento de los resultados gráficos del paquete FactoMineR.]]></description>
			<content:encoded><![CDATA[<p>Curioseando en los resúmenes de las comunicaciones de la<a href="http://www.statistik.tu-dortmund.de/useR-2008/" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://www.statistik.tu-dortmund.de/useR-2008/');" target="_blank"> conferencia useR! 2008</a> me he encontrado un interesante paquete -de nombre <a href="http://cran.r-project.org/web/packages/dynGraph/index.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://cran.r-project.org/web/packages/dynGraph/index.html');" target="_blank">dynGraph</a>- que permite el tratamiento de los resultados gráficos del paquete <a href="http://cran.r-project.org/web/packages/FactoMineR/index.html" onclick="javascript:pageTracker._trackPageview('/outbound/article/http://cran.r-project.org/web/packages/FactoMineR/index.html');" target="_blank">FactoMineR</a>.</p>
<p>Con dynGraph es posible:</p>
<ul>
<li>Mostrar sólo los individuos que superen una cierta suma de <a href="http://www.jjgibaja.net/contribuciones-y-cosenos-cuadrados"  target="_blank">cosenos cuadrados</a>.</li>
<li>Mover las etiquetas de individuos y variables de forma que no se solapen.</li>
<li>Establecer el tamaño de los individuos en función de su contribución o del valor que toman en alguna variable cuantitativa.</li>
</ul>
<p>En resumen, el paquete permite un tratamiento adicional de los gráficos básicos que nos proporciona R.</p>
<p><map name='google_ad_map_888_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/888?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_888_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=888&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Fel-paquete-dyngraph-de-r' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/mthDe5_h4L2pxycFLu6PYq1bANc/0/da"><img src="http://feedads.g.doubleclick.net/~a/mthDe5_h4L2pxycFLu6PYq1bANc/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/mthDe5_h4L2pxycFLu6PYq1bANc/1/da"><img src="http://feedads.g.doubleclick.net/~a/mthDe5_h4L2pxycFLu6PYq1bANc/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=VyS5ab-L32o:fvzsQ05NeA8:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=VyS5ab-L32o:fvzsQ05NeA8:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=VyS5ab-L32o:fvzsQ05NeA8:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=VyS5ab-L32o:fvzsQ05NeA8:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=VyS5ab-L32o:fvzsQ05NeA8:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/VyS5ab-L32o" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/el-paquete-dyngraph-de-r/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/el-paquete-dyngraph-de-r</feedburner:origLink></item>
		<item>
		<title>Elecciones al Parlamento Vasco</title>
		<link>http://feedproxy.google.com/~r/analisis-comunicacion-datos-cuantitativos/~3/MN2j_EMkdu8/elecciones-al-parlamento-vasco</link>
		<comments>http://www.jjgibaja.net/elecciones-al-parlamento-vasco#comments</comments>
		<pubDate>Mon, 30 Mar 2009 08:33:37 +0000</pubDate>
		<dc:creator>Juanjo</dc:creator>
		
		<category><![CDATA[Uncategorized]]></category>

		<category><![CDATA[análisis de componentes principales]]></category>

		<category><![CDATA[Basque Country]]></category>

		<category><![CDATA[CAPV]]></category>

		<category><![CDATA[elecciones]]></category>

		<category><![CDATA[election results]]></category>

		<category><![CDATA[elections]]></category>

		<category><![CDATA[Euskadi]]></category>

		<category><![CDATA[País Vasco]]></category>

		<category><![CDATA[Principal Components Analysis]]></category>

		<category><![CDATA[resultados electorales]]></category>

		<guid isPermaLink="false">http://www.jjgibaja.net/?p=870</guid>
		<description><![CDATA[Con más retraso del inicialmente previsto aquí está el análisis de los resultados correspondientes a las elecciones al Parlamento Vasco celebradas en la CAPV el pasado 1 de marzo.
Se trata de un análisis de componentes principales en el que los individuos son los distintos municipios de Euskadi y las variables son los porcentajes de votos [...]]]></description>
			<content:encoded><![CDATA[<p>Con más retraso del inicialmente previsto aquí está el análisis de los resultados correspondientes a las elecciones al Parlamento Vasco celebradas en la CAPV el pasado 1 de marzo.</p>
<p>Se trata de un análisis de componentes principales en el que los individuos son los distintos municipios de Euskadi y las variables son los porcentajes de votos obtenidos por cada uno de los partidos que, finalmente, obtuvieron algún escaño en el Parlamento. Los individuos están ponderados en función del censo electoral del municipio.</p>
<p><img class="aligncenter size-full wp-image-879" title="variableseleccionesmarzo20091" src="http://www.jjgibaja.net/wp-content/uploads/2009/03/variableseleccionesmarzo20091.png" alt="variableseleccionesmarzo20091" width="586" height="585" /></p>
<p>El gráfico de las variables -el círculo de correlación-, que se presenta más arriba, sitúa en la parte derecha a los partidos de ámbito nacional y a la izquierda a los partidos de ámbito regional. Podemos interpretar este primer eje como una oposición entre nacionalismo español -a la derecha- frente a nacionalismo vasco -a la izquierda-. Dado que este es el eje principal de inercia podemos entender que es, precisamente, esta oposición la que en mayor medida caracteriza las diferencias electorales entre los municipios del País Vasco. En cuanto al segundo eje de inercia -que se presenta en vertical- se observa fácilmente que opone a los partidos nominalmente &#8220;de izquierdas&#8221; -en la parte superior del gráfico- a los partidos &#8220;de derechas&#8221; -situados en la parte inferior-, con la excepción de Eusko Alkartasuna.</p>
<p><img class="aligncenter size-full wp-image-880" title="individuoseleccionesmarzo2009" src="http://www.jjgibaja.net/wp-content/uploads/2009/03/individuoseleccionesmarzo2009.png" alt="individuoseleccionesmarzo2009" width="586" height="585" /></p>
<p>En lo que se refiere al gráfico de los individuos -municipios en este caso-, estos se presentan coloreados según el territorio histórico al que pertenecen. Se observa cómo los territorios históricos se pueden concebir como <em>unidades de destino en lo electoral</em>. Dicho de otra forma, se observa una gran homogeneidad interna en los territorios históricos:</p>
<ul>
<li>Los municipios alaveses -en color negro- están relacionados con los partidos de ámbito nacional y de derechas.</li>
<li>Los municipios guipuzcoanos -en color rojo- están relacionados con los partidos de ambito regional y de izquierdas.</li>
<li>Vizcaya -en color verde- aparece en una posición intermedia.</li>
</ul>
<p>¿Comentarios?</p>
<p><map name='google_ad_map_870_6cc73c25d9438dae'>
<area shape='rect' href='http://imageads.googleadservices.com/pagead/imgclick/870?pos=0' coords='1,2,367,28' />
<area shape='rect' href='http://services.google.com/feedback/abg' coords='384,10,453,23'/></map>
<img usemap='#google_ad_map_870_6cc73c25d9438dae' border='0' src='http://imageads.googleadservices.com/pagead/ads?format=468x30_aff_img&amp;client=&amp;channel=&amp;output=png&amp;cuid=870&amp;url= http%3A%2F%2Fwww.jjgibaja.net%2Felecciones-al-parlamento-vasco' /></p>
<p><a href="http://feedads.g.doubleclick.net/~a/nWrIV5FkQ7O0J_mPIgjEjHe-lc8/0/da"><img src="http://feedads.g.doubleclick.net/~a/nWrIV5FkQ7O0J_mPIgjEjHe-lc8/0/di" border="0" ismap="true"></img></a><br/>
<a href="http://feedads.g.doubleclick.net/~a/nWrIV5FkQ7O0J_mPIgjEjHe-lc8/1/da"><img src="http://feedads.g.doubleclick.net/~a/nWrIV5FkQ7O0J_mPIgjEjHe-lc8/1/di" border="0" ismap="true"></img></a></p><div class="feedflare">
<a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=MN2j_EMkdu8:Ejb2xBc_V-s:D7DqB2pKExk"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=MN2j_EMkdu8:Ejb2xBc_V-s:D7DqB2pKExk" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=MN2j_EMkdu8:Ejb2xBc_V-s:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?a=MN2j_EMkdu8:Ejb2xBc_V-s:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/analisis-comunicacion-datos-cuantitativos?i=MN2j_EMkdu8:Ejb2xBc_V-s:F7zBnMyn0Lo" border="0"></img></a>
</div><img src="http://feeds.feedburner.com/~r/analisis-comunicacion-datos-cuantitativos/~4/MN2j_EMkdu8" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.jjgibaja.net/elecciones-al-parlamento-vasco/feed</wfw:commentRss>
		<feedburner:origLink>http://www.jjgibaja.net/elecciones-al-parlamento-vasco</feedburner:origLink></item>
	</channel>
</rss>
