<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: Déduplication : bloc fixe VS bloc variable</title>
	<atom:link href="http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/</link>
	<description>Être admin, ça a parfois des airs de /dev/random...</description>
	<lastBuildDate>Tue, 13 Jul 2010 15:57:34 +0200</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.6</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
	<item>
		<title>By: Nap</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-205</link>
		<dc:creator>Nap</dc:creator>
		<pubDate>Mon, 15 Mar 2010 15:17:58 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-205</guid>
		<description>Bon j&#039;ai réussi à tuner un peu le script en :
*bypassant le hash (et donc en évitant le brevet héhéhé), mais en mettant tout simplement les pages en mémoires au lieu du hash. La comparaison est un poil plus lente, mais vu qu&#039;on n&#039;a plus de hash, on y gagne. 
*ne faisant la comparaison complète de du bloc que si ses 128 premiers octets étaient dans une seconde table remplie en même temps que la table principale. On perd en consommation mémoire, mais on booste le temps de comparaison.

Temps final : 4m39 pour dé-dupliquer 460Mo, soit 1.6Mo/s. Bon c&#039;est lent soit, mais bon faut être pas clair si vous voulez un filesystem en Python aussi :)</description>
		<content:encoded><![CDATA[<p>Bon j&#8217;ai réussi à tuner un peu le script en :<br />
*bypassant le hash (et donc en évitant le brevet héhéhé), mais en mettant tout simplement les pages en mémoires au lieu du hash. La comparaison est un poil plus lente, mais vu qu&#8217;on n&#8217;a plus de hash, on y gagne.<br />
*ne faisant la comparaison complète de du bloc que si ses 128 premiers octets étaient dans une seconde table remplie en même temps que la table principale. On perd en consommation mémoire, mais on booste le temps de comparaison.</p>
<p>Temps final : 4m39 pour dé-dupliquer 460Mo, soit 1.6Mo/s. Bon c&#8217;est lent soit, mais bon faut être pas clair si vous voulez un filesystem en Python aussi <img src='http://www.gabes.fr/jean/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Nap</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-203</link>
		<dc:creator>Nap</dc:creator>
		<pubDate>Mon, 15 Mar 2010 13:08:57 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-203</guid>
		<description>Je vais essayer de le monter et de voir les gains entre lessfs et ZFS question déduplication/compression.

Tu sais si ZFS fait de la taille fixe ou variable? (Il me semble que c&#039;est du fixe car il se base sur ton hash interne pour la corruption de données, donc taille fixe a priori).

Donc quid du gain sur un fichier qui se prends un petit offset dès le début?</description>
		<content:encoded><![CDATA[<p>Je vais essayer de le monter et de voir les gains entre lessfs et ZFS question déduplication/compression.</p>
<p>Tu sais si ZFS fait de la taille fixe ou variable? (Il me semble que c&#8217;est du fixe car il se base sur ton hash interne pour la corruption de données, donc taille fixe a priori).</p>
<p>Donc quid du gain sur un fichier qui se prends un petit offset dès le début?</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Cyril</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-202</link>
		<dc:creator>Cyril</dc:creator>
		<pubDate>Mon, 15 Mar 2010 13:06:02 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-202</guid>
		<description>Nous utilisons ZFS sur Opensolaris (également dispo sur BSD) qui intègre également déduplication et compression, très très concluant, les gains se cumulent et le système de fichier reste performant (et en + quota, snapshots instantanés de file system, export et import de snapshot... bref tout le confort)

Existe en version partielle sur Linux via Fuse il me semble (ZFS est opensource mais la licence n&#039;est pas compatible avec la GPL du noyau Linux, ce qui est fort dommage)</description>
		<content:encoded><![CDATA[<p>Nous utilisons ZFS sur Opensolaris (également dispo sur BSD) qui intègre également déduplication et compression, très très concluant, les gains se cumulent et le système de fichier reste performant (et en + quota, snapshots instantanés de file system, export et import de snapshot&#8230; bref tout le confort)</p>
<p>Existe en version partielle sur Linux via Fuse il me semble (ZFS est opensource mais la licence n&#8217;est pas compatible avec la GPL du noyau Linux, ce qui est fort dommage)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Nap</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-200</link>
		<dc:creator>Nap</dc:creator>
		<pubDate>Mon, 15 Mar 2010 10:09:26 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-200</guid>
		<description>Ne m&#039;en parle pas...

PS : y a pas edit de dispo? (mon compte là car il est authentifié, mais pour le autres je ne sais pas)</description>
		<content:encoded><![CDATA[<p>Ne m&#8217;en parle pas&#8230;</p>
<p>PS : y a pas edit de dispo? (mon compte là car il est authentifié, mais pour le autres je ne sais pas)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Nap</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-199</link>
		<dc:creator>Nap</dc:creator>
		<pubDate>Mon, 15 Mar 2010 10:07:57 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-199</guid>
		<description>C&#039;est vrai qu&#039;ils utilisent un arbre binaire il me semble. Je n&#039;ai toujours pas pris le temps de voir comment ça permettait d&#039;éviter le hash (brevet VMware...) des pages mémoires, mais en effet ici ça permettrait de faire la même chose au final.

D&#039;après ton lien, le replacement du hash est bien une simple comparaison bit à bit (&quot;Placement in the tree is determined by a simple memcmp()&quot;) ce qui au final est peu être plus efficace qu&#039;un hash!

Pour Btrfs oui, il semble prometteur. Mais j&#039;espère qu&#039;il fera du bloc fixe (ça ok, ça va être géré), mais aussi du variable, quitte à le faire en background, car les gains ne sont pas les mêmes :p

Pour l&#039;instant lessfs permet déjà de bien s&#039;amuser :)

Je sens bien que la dédup+compression va être un standard dans l&#039;avenir des espaces de backups, et que ça va remplacer nos chères commandes gzip et bzip2 car de-dupliquer du compressé, c&#039;est inefficace au possible :)</description>
		<content:encoded><![CDATA[<p>C&#8217;est vrai qu&#8217;ils utilisent un arbre binaire il me semble. Je n&#8217;ai toujours pas pris le temps de voir comment ça permettait d&#8217;éviter le hash (brevet VMware&#8230;) des pages mémoires, mais en effet ici ça permettrait de faire la même chose au final.</p>
<p>D&#8217;après ton lien, le replacement du hash est bien une simple comparaison bit à bit (&#8221;Placement in the tree is determined by a simple memcmp()&#8221;) ce qui au final est peu être plus efficace qu&#8217;un hash!</p>
<p>Pour Btrfs oui, il semble prometteur. Mais j&#8217;espère qu&#8217;il fera du bloc fixe (ça ok, ça va être géré), mais aussi du variable, quitte à le faire en background, car les gains ne sont pas les mêmes :p</p>
<p>Pour l&#8217;instant lessfs permet déjà de bien s&#8217;amuser <img src='http://www.gabes.fr/jean/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>Je sens bien que la dédup+compression va être un standard dans l&#8217;avenir des espaces de backups, et que ça va remplacer nos chères commandes gzip et bzip2 car de-dupliquer du compressé, c&#8217;est inefficace au possible <img src='http://www.gabes.fr/jean/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: AP</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-198</link>
		<dc:creator>AP</dc:creator>
		<pubDate>Mon, 15 Mar 2010 10:02:13 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-198</guid>
		<description>&quot;de contourner le brevet&quot; ... pas &quot;le projet&quot;.
Grrr, on ne se relit jamais assez.</description>
		<content:encoded><![CDATA[<p>&#8220;de contourner le brevet&#8221; &#8230; pas &#8220;le projet&#8221;.<br />
Grrr, on ne se relit jamais assez.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: AP</title>
		<link>http://www.gabes.fr/jean/2010/03/14/deduplication-bloc-fixe-vs-block-variable/comment-page-1/#comment-197</link>
		<dc:creator>AP</dc:creator>
		<pubDate>Mon, 15 Mar 2010 10:01:19 +0000</pubDate>
		<guid isPermaLink="false">http://www.gabes.fr/jean/?p=486#comment-197</guid>
		<description>Certains brevets logiciels sont liés au procédé de déduplication. Typiquement, ce qui pose problème, c&#039;est de déclarer identiques des blocs dont les sommes de contrôle s&#039;avèrent identiques. Le moyen typique de contourner le projet et de réaliser une comparaison bit à bit des blocs à fusionner.

Exemple d&#039;un projet qui doit contourner soigneusement les brevets : le projet KSM (kernel shared memory), qui consiste en un patch visant à fusionner les blocs de mémoire identiques. Très intéressant avec tout ce qui touche à la virtualisation.
http://lwn.net/Articles/330589/

Cela-dit ce lessfs semble trrrrrrrrès intéressant. Je vais creuser ça... en attendant que btrfs (dont j&#039;attends beaucoup) ne gère nativement la déduplication. :)</description>
		<content:encoded><![CDATA[<p>Certains brevets logiciels sont liés au procédé de déduplication. Typiquement, ce qui pose problème, c&#8217;est de déclarer identiques des blocs dont les sommes de contrôle s&#8217;avèrent identiques. Le moyen typique de contourner le projet et de réaliser une comparaison bit à bit des blocs à fusionner.</p>
<p>Exemple d&#8217;un projet qui doit contourner soigneusement les brevets : le projet KSM (kernel shared memory), qui consiste en un patch visant à fusionner les blocs de mémoire identiques. Très intéressant avec tout ce qui touche à la virtualisation.<br />
<a href="http://lwn.net/Articles/330589/" rel="nofollow">http://lwn.net/Articles/330589/</a></p>
<p>Cela-dit ce lessfs semble trrrrrrrrès intéressant. Je vais creuser ça&#8230; en attendant que btrfs (dont j&#8217;attends beaucoup) ne gère nativement la déduplication. <img src='http://www.gabes.fr/jean/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
</channel>
</rss>

