MD5全称Message-Digest-Algorithm-5,MD5计算⼯具⽤来检验
⽂件。。。
md5的全称是message-digest algorithm 5(信息-摘要算法),在90年代初由mit laboratory for computer science和
rsa data curity inc的ronald l. rivest开发出来,经md2、md3和md4发展⽽来。它的作⽤是让⼤容量信息在⽤数字签名软件签署私⼈密匙前被"压缩"成⼀种保密的格式(就是把⼀个任意长度的字节串变换成⼀定长的⼤整数)。不管是md2、md4还是md5,它们都需要获得⼀个随机长度的信息并产⽣⼀个128位的信息摘要。虽然这些算法的结构或多或少有些相似,但md2的设计与md4和md5完全不同,那是因为md2是为8位机器做过设计优化的,⽽md4和md5却是⾯向32位的电脑。这三个算法的描述和c语⾔源代码在internet rfcs 1321中有详细的描述(h++p://),这是⼀份最权威的⽂档,由ronald l. rivest在1992年8⽉向ieft提交。
rivest在1989年开发出md2算法。在这个算法中,⾸先对信息进⾏数据补位,使信息的字节长度是16的倍数。然后,以⼀个16位的检验和追加到信息末尾。并且根据这个新产⽣的信息计算出散列值。后来,rogier和chauvaud发现如果忽略了检验和将产⽣md2冲突。md2算法的加密后结果是唯⼀的--既没有重复。
为了加强算法的安全性,rivest在1990年⼜开发出md4算法。md4算法同样需要填补信息以确保信息的字节长度加上448后能被512整除(信息字节长度mod 512 = 448)。然后,⼀个以64位⼆进制表⽰的信息的最初长度被添加进来。信息被处理成512位damg?
rd/merkle迭代结构的区块,⽽且每个区块要通过三个不同步骤的处理。den boer和boslaers以及其他⼈很快的发现了攻击md4版本中第⼀步和第三步的漏洞。dobbertin向⼤家演⽰了如何利⽤⼀部普通的个⼈电脑在⼏分钟内找到md4完整版本中的冲突(这个冲突实际上是⼀种漏洞,它将导致对不同的内容进⾏加密却可能得到相同的加密后结果)。毫⽆疑问,md4就此被淘汰掉了。
尽管md4算法在安全上有个这么⼤的漏洞,但它对在其后才被开发出来的好⼏种信息安全加密算法的出现却有着不可忽视的引导作⽤。除了md5以外,其中⽐较有名的还有sha-1、ripe-md以及haval等。
⼀年以后,即1991年,rivest开发出技术上更为趋近成熟的md5算法。它在md4的基础上增加了"安全-带⼦"(safety-belts)的概念。虽然md5⽐md4稍微慢⼀些,但却更为安全。这个算法很明显的由四个和md4设计有少许不同的步骤组成。在md5算法中,信息-摘要的⼤⼩和填充的必要条件与md4完全相同。den boer和boslaers曾发现md5算法中的假冲突(pudo-collisions),但除此之外就没有其他被发现的加密后结果了。
van oorschot和wiener曾经考虑过⼀个在散列中暴⼒搜寻冲突的函数(brute-force hash function),
⽽且他们猜测⼀个被设计专门⽤来搜索md5冲突的机器(这台机器在1994年的制造成本⼤约是⼀百万美元)可以平均每24天就找到⼀个冲突。但单从1991年到2001年这10年间,竟没有出现替代md5算法的md6或被叫做其他什么名字的新算法这⼀点,我们就可以看出这个瑕疵并没有太多的影响md5的安全性。上⾯所有这些都不⾜以成为md5的在实际应⽤中的问题。并且,由于md5算法的使⽤不需要⽀付任何版权费⽤的,所以在⼀般的情况下(⾮绝密应⽤领域。但即便是应⽤在绝密领域内,md5也不失为⼀种⾮常优秀的中间技术),md5怎么都应该算得上是⾮常安全的了。
算法的应⽤
md5的典型应⽤是对⼀段信息(message)产⽣信息摘要(message-digest),以防⽌被篡改。⽐如,在unix下有很多软件在下载的时候都有⼀个⽂件名相同,⽂件扩展名为.md5的⽂件,在这个⽂件中通常只有⼀⾏⽂本,⼤致结构如:
md5 () = 0ca175b9c0f726a831d895e269332461
这就是⽂件的数字签名。md5将整个⽂件当作⼀个⼤⽂本信息,通过其不可逆的字符串变换算法,产⽣了这个唯⼀的md5信息摘要。如果在以后传播这个⽂件的过程中,⽆论⽂件的内容发⽣了任何形式的改变(包括⼈为修改或者下载过程中线路不稳定引起的传输错误等),只要你对这个⽂件重新计算md5时就会发现信息摘要不相同,由此可以确定你得到的只是⼀个不正确的⽂件。如果
再有⼀个第三⽅的认证机构,⽤md5还可以防⽌⽂件作者的"抵赖",这就是所谓的数字签名应⽤。
md5还⼴泛⽤于加密和解密技术上。⽐如在unix系统中⽤户的密码就是以md5(或其它类似的算法)经加密后存储在⽂件系统中。当⽤户登录的时候,系统把⽤户输⼊的密码计算成md5值,然后再去和保存在⽂件系统中的md5值进⾏⽐较,进⽽确定输⼊的密码是否正确。通过这样的步骤,系统在并不知道⽤户密码的明码的情况下就可以确定⽤户登录系统的合法性。这不但可以避免⽤户的密码被具有系统管理员
正是因为这个原因,现在被⿊客使⽤最多的⼀种破译密码的⽅法就是⼀种被称为"跑字典"的⽅法。有两种⽅法得到字典,⼀种是⽇常搜集的⽤做密码的字符串表,另⼀种是⽤排列组合⽅法⽣成的,先⽤md5程序计算出这些字典项的md5值,然后再⽤⽬标的md5值在这个字典中检索。我们假设密码的最⼤长度为8位字节(8 bytes),同时密码只能是字母和数字,共26+26+10=62个字符,排列组合出的字典的项数则是p(62,1)+p(62,2)….+p(62,8),那也已经是⼀个很天⽂的数字了,存储这个字典就需要tb级的磁盘阵列,⽽且这种⽅法还有⼀个前提,就是能获得⽬标账户的密码md5值的情况下才可以。这种加密技术被⼴泛的应⽤于unix系统中,这也是为什么unix系统⽐⼀般操作系统更为坚固⼀个重要原因。
算法描述
对md5算法简要的叙述可以为:md5以512位分组来处理输⼊的信息,且每⼀分组⼜被划分为16个32位⼦分组,经过了⼀系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将⽣成⼀个128位散列值。
在md5算法中,⾸先需要对信息进⾏填充,使其字节长度对512求余的结果等于448。因此,信息的字节长度(bits length)将被扩展⾄n*512+448,即n*64+56个字节(bytes),n为⼀个正整数。填充的⽅法如下,在信息的后⾯填充⼀个1和⽆数个0,直到满⾜上⾯的条件时才停⽌⽤0对信息的填充。然后,在在这个结果后⾯附加⼀个以64位⼆进制表⽰的填充前信息长度。经过这两步的处理,现在的信息字节长度=n*512+448+64=(n+1)*512,即长度恰好是512的整数倍。这样做的原因是为满⾜后⾯处理中对信息长度的要求。
md5中有四个32位被称作链接变量(chaining variable)的整数参数,他们分别为:
a=0x01234567,b=0x89abcdef,c=0xfedcba98,d=0x76543210。
当设置好这四个链接变量后,就开始进⼊算法的四轮循环运算。循环的次数是信息中512位信息分组的数⽬。
将上⾯四个链接变量复制到另外四个变量中:a到a,b到b,c到c,d到d。
主循环有四轮(md4只有三轮),每轮循环都很相似。第⼀轮进⾏16次操作。每次操作对a、b、c和d中的其中三个作⼀次⾮线性函数运算,然后将所得结果加上第四个变量,⽂本的⼀个⼦分组和⼀个常数。再将所得结果向右环移⼀个不定的数,并加上a、b、c或d中之⼀。最后⽤该结果取代a、b、c或d中之⼀。
以⼀下是每次操作中⽤到的四个⾮线性函数(每轮⼀个)。
f(x,y,z) =(x&y)|((~x)&z)
g(x,y,z) =(x&z)|(y&(~z))
h(x,y,z) =x^y^z
i(x,y,z)=y^(x|(~z))
(&是与,|是或,~是⾮,^是异或)
这四个函数的说明:如果x、y和z的对应位是独⽴和均匀的,那么结果的每⼀位也应是独⽴和均匀的。
f是⼀个逐位运算的函数。即,如果x,那么y,否则z。函数h是逐位奇偶操作符。
假设mj表⽰消息的第j个⼦分组(从0到15),<<
ff(a,b,c,d,mj,s,ti)表⽰a=b+((a+(f(b,c,d)+mj+ti)<< gg(a,b,c,d,mj,s,ti)表⽰a=b+((a+(g(b,c,d)+mj+ti)<< hh(a,b,c,d,mj,s,ti)表⽰a=b+ ((a+(h(b,c,d)+mj+ti)<< ii(a,b,c,d,mj,s,ti)表⽰a=b+((a+(i(b,c,d)+mj+ti)<<
这四轮(64步)是:
第⼀轮
ff(a,b,c,d,m0,7,0xd76aa478)
ff(d,a,b,c,m1,12,0xe8c7b756)
ff(c,d,a,b,m2,17,0x242070db)
ff(b,c,d,a,m3,22,0xc1bdceee)
ff(a,b,c,d,m4,7,0xf57c0faf)
ff(d,a,b,c,m5,12,0x4787c62a)
ff(c,d,a,b,m6,17,0xa8304613)
ff(b,c,d,a,m7,22,0xfd469501)
ff(a,b,c,d,m8,7,0x698098d8)
ff(c,d,a,b,m10,17,0xffff5bb1)
ff(b,c,d,a,m11,22,0x895cd7be) ff(a,b,c,d,m12,7,0x6b901122)
ff(d,a,b,c,m13,12,0xfd987193) ff(c,d,a,b,m14,17,0xa679438e) ff(b,c,d,a,m15,22,0x49b40821)
第⼆轮
gg(a,b,c,d,m1,5,0xf61e2562)
gg(d,a,b,c,m6,9,0xc040b340)
gg(c,d,a,b,m11,14,0x265e5a51) gg(b,c,d,a,m0,20,0xe9b6c7aa) gg(a,b,c,d,m5,5,0xd62f105d)
gg(d,a,b,c,m10,9,0x02441453) gg(c,d,a,b,m15,14,0xd8a1e681) gg(b,c,d,a,m4,20,0xe7d3fbc8) gg(a,b,c,d,m9,5,0x21e1cde6)
gg(d,a,b,c,m14,9,0xc33707d6) gg(c,d,a,b,m3,14,0xf4d50d87) gg(b,c,d,a,m8,20,0x455a14ed) gg(a,b,c,d,m13,5,0xa9e3e905) gg(d,a,b,c,m2,9,0xfcefa3f8)
gg(c,d,a,b,m7,14,0x676f02d9) gg(b,c,d,a,m12,20,0x8d2a4c8a)
第三轮
hh(a,b,c,d,m5,4,0xfffa3942)
hh(d,a,b,c,m8,11,0x8771f681) hh(c,d,a,b,m11,16,0x6d9d6122) hh(b,c,d,a,m14,23,0xfde5380c) hh(a,b,c,d,m1,4,0xa4beea44)
hh(d,a,b,c,m4,11,0x4bdecfa9) hh(c,d,a,b,m7,16,0xf6bb4b60) hh(b,c,d,a,m10,23,0xbebfbc70) hh(a,b,c,d,m13,4,0x289b7ec6) hh(d,a,b,c,m0,11,0xeaa127fa) hh(c,d,a,b,m3,16,0xd4ef3085) hh(b,c,d,a,m6,23,0x04881d05) hh(a,b,c,d,m9,4,0xd9d4d039)
hh(d,a,b,c,m12,11,0xe6db99e5) hh(c,d,a,b,m15,16,0x1fa27cf8) hh(b,c,d,a,m2,23,0xc4ac5665)
第四轮
ii(a,b,c,d,m0,6,0xf4292244)
ii(d,a,b,c,m7,10,0x432aff97)
ii(c,d,a,b,m14,15,0xab9423a7) ii(b,c,d,a,m5,21,0xfc93a039)
ii(a,b,c,d,m12,6,0x655b59c3)
ii(d,a,b,c,m3,10,0x8f0ccc92)
ii(c,d,a,b,m10,15,0xffeff47d)
ii(a,b,c,d,m8,6,0x6fa87e4f)
ii(d,a,b,c,m15,10,0xfe2ce6e0)
ii(c,d,a,b,m6,15,0xa3014314)
ii(b,c,d,a,m13,21,0x4e0811a1)
ii(a,b,c,d,m4,6,0xf7537e82)
ii(d,a,b,c,m11,10,0xbd3af235)
ii(c,d,a,b,m2,15,0x2ad7d2bb)
ii(b,c,d,a,m9,21,0xeb86d391)
常数ti可以如下选择:
在第i步中,ti是4294967296*abs(sin(i))的整数部分,i的单位是弧度。(4294967296等于2的32次⽅)
所有这些完成之后,将a、b、c、d分别加上a、b、c、d。然后⽤下⼀分组数据继续运⾏算法,最后的输出是a、b、c和d的级联。
当你按照我上⾯所说的⽅法实现md5算法以后,你可以⽤以下⼏个信息对你做出来的程序作⼀个简单的测试,看看程序有没有错误。
md5 ("") = d41d8cd98f00b204e9800998ecf8427e
md5 ("a") = 0cc175b9c0f1b6a831c399e269772661
md5 ("abc") = 900150983cd24fb0d6963f7d28e17f72
md5 ("message digest") = f96b697d7cb7938d525a2f31aaf161d0
md5 ("abcdefghijklmnopqrstuvwxyz") = c3fcd3d76192e4007dfb496cca67e13b
md5 ("abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz0123456789") =
d174ab98d277d9f5a5611c2c9f419d9f
md5 ("123456789012345678901234567890123456789012345678901234567890123456789
01234567890") = 57edf4a22be3c955ac49da2e2107b67a
如果你⽤上⾯的信息分别对你做的md5算法实例做测试,最后得出的结论和标准答案完全⼀样,那我就要在这⾥象你道⼀声祝贺了。要知道,我的程序在第⼀次编译成功的时候是没有得出和上⾯相同的结果的。
md5的安全性
md5相对md4所作的改进:
1. 增加了第四轮;
2. 每⼀步均有唯⼀的加法常数;
3. 为减弱第⼆轮中函数g的对称性从(x&y)|(x&z)|(y&z)变为(x&z)|(y&(~z));
4. 第⼀步加上了上⼀步的结果,这将引起更快的雪崩效应;
5. 改变了第⼆轮和第三轮中访问消息⼦分组的次序,使其更不相似;
6. 近似优化了每⼀轮中的循环左移位移量以实现更快的雪崩效应。各轮的位移量互不相同。
[color=red]简单的说:
MD5叫信息-摘要算法,是⼀种密码的算法,它可以对任何⽂件产⽣⼀个唯⼀的MD5验证码,每个⽂件的MD5码就如同每个⼈的指纹⼀样,都是不同的,这样,⼀旦这个⽂件在传输过程中,其内容被损坏或者被修改的话,那么这个⽂件的MD5码就会发⽣变化,通过对⽂件MD5的验证,可以得知获得的⽂件是否完整。