La poda de DNN es una forma popular de reducir el tamaño del modelo, mejorar la latencia de inferencia y minimizar el consumo de energía en los aceleradores de DNN. Sin embargo, los enfoques existentes pueden ser demasiado complejos, costosos o ineficientes para aplicarlos a una variedad de tareas de visión/lenguaje, arquitecturas DNN y para cumplir con las restricciones de poda estructurada. En este documento, proponemos un esquema de poda de tiempo de tren efectivo pero eficiente, la poda diferencial sin parámetros (PDP), que ofrece cualidades de vanguardia en términos de tamaño del modelo, precisión y costo de entrenamiento. PDP utiliza una función dinámica de los pesos durante el entrenamiento para generar máscaras de poda suave para los pesos sin parámetros para un objetivo de poda dado. Aunque distinguible, la simplicidad y la eficiencia de PDP lo hacen lo suficientemente universal como para proporcionar resultados de poda aleatoria/estructurada/de canales de última generación en diversas tareas de visión y lenguaje natural. Por ejemplo, para MobileNet-v1, PDP puede lograr un 68,2 % de precisión en ImageNet1k top 1 con un 86,6 % de parsimonia, que es un 1,7 % más de precisión que los algoritmos líderes. Además, PDP proporciona más del 83,1 % de precisión en la inferencia de lenguaje natural multigénero con un 90 % de parsimonia para BERT, mientras que la mejor de las técnicas existentes cuenta con un 81,5 % de precisión. Además, PDP se puede aplicar a la poda estructurada, como la poda N:M y la poda de canales. Para la poda estructurada 1:4 de ResNet18, PDP mejoró la precisión de ImageNet1k en más de un 3,6 % en comparación con el estado del arte. Para la poda de canales ResNet50, PDP redujo la precisión de ImageNet1k del top 1 en un 0,6 % en comparación con el estado del arte.