业务中经常会遇到需要下载数据文件到本地进行解析处理的场景,但如果数据文件过大,往往会造成内存超限的情况。
下面就介绍以下,php通过curl实现分片下载大文件到本地的方法,避免对内存的过多占用:
class FileDownload { /** * 下载远程大文件 * * @param string $sourceFileUrl 远程文件地址 * @param string $targetFile 远程文件下载到本地的本地地址 * @param float|int $pieceSize 每次分片大小 M (默认100 因采用命令形式,不占用程序执行时内存) * @return bool */ public static function downloadLargeFile($sourceFileUrl, $targetFile, $pieceSize = 100) { $pieceSize = 1024 * 1024 * $pieceSize; $size = self::getRemoteFileSize($sourceFileUrl); if ($size === false) { return false; } $from = 0; $i = 0; $isSuccess = true; do { $to = min($from + $pieceSize - 1, $size); $partTargetFile = $targetFile . '_' . $i++; $partFiles[] = $partTargetFile; $r = self::downFileByPiece($sourceFileUrl, $partTargetFile, $from, $to); if ($r === false) { $isSuccess = false; break; } $from = $to + 1; if ($from > $size) { break; } } while(true); // 合并文件 if ($isSuccess) { $combineCmd = "cat " . implode(' ', $partFiles) . " > " . $targetFile; exec($combineCmd, $o, $ret); if ($ret != 0) { $isSuccess = false; } } // 清理临时文件 foreach ($partFiles as $partFile) { if (file_exists($partFile)) { @unlink($partFile); } } return $isSuccess; } /** * 分片下载远程文件 * * @param string $sourceFile 远程文件地址 * @param string $savePath 远程文件分片下载到本地的本地分片地址 * @param int $fromByte 远程文件分片起始位置 * @param int $toByte 远程文件分片结束位置(-1 表示直到文件结束) * @return bool */ private static function downFileByPiece($sourceFile, $savePath, $fromByte = 0, $toByte = -1) { if (file_exists($savePath)) { return true; } $cmd = "curl --range " . $fromByte . "-"; if ($toByte > 0) { $cmd .= $toByte; } $cmd .= " -o " . $savePath . " '" . $sourceFile . "'"; exec($cmd, $o, $ret); if ($ret != 0) { return false; } return true; } /** * 获取远程文件的大小 * * @param string $fileUrl 远程文件地址 * @return false|mixed */ private static function getRemoteFileSize($fileUrl) { $ch = curl_init(); curl_setopt($ch,CURLOPT_URL,$fileUrl); curl_setopt($ch, CURLOPT_HEADER, 1); curl_setopt($ch, CURLOPT_NOBODY, 1); curl_setopt($ch, CURLOPT_CUSTOMREQUEST, 'GET'); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); //忽略https if(strpos($fileUrl,'https')!==false){ curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE); } $head = curl_exec($ch); curl_close($ch); $regex = '/Content-Length:\s([0-9].+?)\s/'; preg_match($regex, $head, $matches); if (isset($matches[1])) { return $matches[1]; } return false; } }