求教，怎么识别文件类型

有2G的网站数据，现在我想把html网页源码文件提出来，按文件名的md5保存。原本我以为只要识别后缀名就可以过滤掉图片之类的东西了，在linux下执行的，完了后，发现ubuntu能够识别这些文件！（好神奇...）还是有图片，还有js文件，这是怎么做到的

猜的吧，有bom头的直接判断，没有的就分析特征码。就像一些好的文本阅读器都能分辨出文本的编码一样。

话说大多数的文件的头部都是一些特殊的标志。。。
详情参考linux file ~~

通过文件头来认的吧、、好的文件管理器都可以这样认出来的、、

读文件头

谷歌搜索文件头去吧

看看那些开源软件是怎么实现的，学习一下就会了

linux下不靠扩展名来区分文件类型，而是靠MIME类型。
你可以试试file命令就懂了，无论扩展名是什么，file命令都会打印文件的实际类型

对file命令感兴趣的话可以man file看一下文档，里面就阐述了file的工作原理

下载贴吧APP
看高清直播、视频！

分享到: