Fix Adler and Fletcher calculations using SIMD when dataset is smaller than block size.

2025-12-16 11:14:29 +00:00 · 2023-09-24 19:33:25 +01:00
parent 89382334ec
commit 0d9d1d92eb
9 changed files with 750 additions and 699 deletions
--- a/fletcher32_ssse3.c
+++ b/fletcher32_ssse3.c
@@ -59,68 +59,72 @@ fletcher32_ssse3(uint16_t *sum1, uint16_t *sum2, const uint8_t *data, long len)
     * Process the data in blocks.
     */
    const unsigned BLOCK_SIZE = 1 << 5;
-    long           blocks     = len / BLOCK_SIZE;
-    len -= blocks * BLOCK_SIZE;
-    while(blocks)
+    if(len >= BLOCK_SIZE)
    {
-        unsigned n = NMAX / BLOCK_SIZE; /* The NMAX constraint. */
-        if(n > blocks) n = (unsigned)blocks;
-        blocks -= n;
-        const __m128i tap1 = _mm_setr_epi8(32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17);
-        const __m128i tap2 = _mm_setr_epi8(16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1);
-        const __m128i zero = _mm_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
-        const __m128i ones = _mm_set_epi16(1, 1, 1, 1, 1, 1, 1, 1);
-        /*
-         * Process n blocks of data. At most NMAX data bytes can be
-         * processed before s2 must be reduced modulo BASE.
-         */
-        __m128i       v_ps = _mm_set_epi32(0, 0, 0, s1 * n);
-        __m128i       v_s2 = _mm_set_epi32(0, 0, 0, s2);
-        __m128i       v_s1 = _mm_set_epi32(0, 0, 0, 0);
-        do
+        long blocks = len / BLOCK_SIZE;
+        len -= blocks * BLOCK_SIZE;
+        while(blocks)
        {
+            unsigned n = NMAX / BLOCK_SIZE; /* The NMAX constraint. */
+            if(n > blocks) n = (unsigned)blocks;
+            blocks -= n;
+            const __m128i tap1 = _mm_setr_epi8(32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17);
+            const __m128i tap2 = _mm_setr_epi8(16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1);
+            const __m128i zero = _mm_setr_epi8(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+            const __m128i ones = _mm_set_epi16(1, 1, 1, 1, 1, 1, 1, 1);
            /*
-             * Load 32 input bytes.
+             * Process n blocks of data. At most NMAX data bytes can be
+             * processed before s2 must be reduced modulo BASE.
             */
-            const __m128i bytes1 = _mm_loadu_si128((__m128i *)(data));
-            const __m128i bytes2 = _mm_loadu_si128((__m128i *)(data + 16));
+            __m128i       v_ps = _mm_set_epi32(0, 0, 0, s1 * n);
+            __m128i       v_s2 = _mm_set_epi32(0, 0, 0, s2);
+            __m128i       v_s1 = _mm_set_epi32(0, 0, 0, 0);
+            do
+            {
+                /*
+                 * Load 32 input bytes.
+                 */
+                const __m128i bytes1 = _mm_loadu_si128((__m128i *)(data));
+                const __m128i bytes2 = _mm_loadu_si128((__m128i *)(data + 16));
+                /*
+                 * Add previous block byte sum to v_ps.
+                 */
+                v_ps = _mm_add_epi32(v_ps, v_s1);
+                /*
+                 * Horizontally add the bytes for s1, multiply-adds the
+                 * bytes by [ 32, 31, 30, ... ] for s2.
+                 */
+                v_s1 = _mm_add_epi32(v_s1, _mm_sad_epu8(bytes1, zero));
+                const __m128i mad1 = _mm_maddubs_epi16(bytes1, tap1);
+                v_s2 = _mm_add_epi32(v_s2, _mm_madd_epi16(mad1, ones));
+                v_s1 = _mm_add_epi32(v_s1, _mm_sad_epu8(bytes2, zero));
+                const __m128i mad2 = _mm_maddubs_epi16(bytes2, tap2);
+                v_s2 = _mm_add_epi32(v_s2, _mm_madd_epi16(mad2, ones));
+                data += BLOCK_SIZE;
+            }
+            while(--n);
+            v_s2               = _mm_add_epi32(v_s2, _mm_slli_epi32(v_ps, 5));
            /*
-             * Add previous block byte sum to v_ps.
+             * Sum epi32 ints v_s1(s2) and accumulate in s1(s2).
             */
-            v_ps = _mm_add_epi32(v_ps, v_s1);
-            /*
-             * Horizontally add the bytes for s1, multiply-adds the
-             * bytes by [ 32, 31, 30, ... ] for s2.
-             */
-            v_s1 = _mm_add_epi32(v_s1, _mm_sad_epu8(bytes1, zero));
-            const __m128i mad1 = _mm_maddubs_epi16(bytes1, tap1);
-            v_s2 = _mm_add_epi32(v_s2, _mm_madd_epi16(mad1, ones));
-            v_s1 = _mm_add_epi32(v_s1, _mm_sad_epu8(bytes2, zero));
-            const __m128i mad2 = _mm_maddubs_epi16(bytes2, tap2);
-            v_s2 = _mm_add_epi32(v_s2, _mm_madd_epi16(mad2, ones));
-            data += BLOCK_SIZE;
-        }
-        while(--n);
-        v_s2               = _mm_add_epi32(v_s2, _mm_slli_epi32(v_ps, 5));
-        /*
-         * Sum epi32 ints v_s1(s2) and accumulate in s1(s2).
-         */
 #define S23O1 _MM_SHUFFLE(2, 3, 0, 1) /* A B C D -> B A D C */
 #define S1O32 _MM_SHUFFLE(1, 0, 3, 2) /* A B C D -> C D A B */
-        v_s1 = _mm_add_epi32(v_s1, _mm_shuffle_epi32(v_s1, S23O1));
-        v_s1 = _mm_add_epi32(v_s1, _mm_shuffle_epi32(v_s1, S1O32));
-        s1 += _mm_cvtsi128_si32(v_s1);
-        v_s2 = _mm_add_epi32(v_s2, _mm_shuffle_epi32(v_s2, S23O1));
-        v_s2 = _mm_add_epi32(v_s2, _mm_shuffle_epi32(v_s2, S1O32));
-        s2   = _mm_cvtsi128_si32(v_s2);
+            v_s1 = _mm_add_epi32(v_s1, _mm_shuffle_epi32(v_s1, S23O1));
+            v_s1 = _mm_add_epi32(v_s1, _mm_shuffle_epi32(v_s1, S1O32));
+            s1 += _mm_cvtsi128_si32(v_s1);
+            v_s2 = _mm_add_epi32(v_s2, _mm_shuffle_epi32(v_s2, S23O1));
+            v_s2 = _mm_add_epi32(v_s2, _mm_shuffle_epi32(v_s2, S1O32));
+            s2   = _mm_cvtsi128_si32(v_s2);
 #undef S23O1
 #undef S1O32
-        /*
-         * Reduce.
-         */
-        s1 %= FLETCHER32_MODULE;
-        s2 %= FLETCHER32_MODULE;
+            /*
+             * Reduce.
+             */
+            s1 %= FLETCHER32_MODULE;
+            s2 %= FLETCHER32_MODULE;
+        }
    }
+
    /*
     * Handle leftover data.
     */
@@ -151,6 +155,7 @@ fletcher32_ssse3(uint16_t *sum1, uint16_t *sum2, const uint8_t *data, long len)
        if(s1 >= FLETCHER32_MODULE) s1 -= FLETCHER32_MODULE;
        s2 %= FLETCHER32_MODULE;
    }
+
    /*
     * Return the recombined sums.
     */