Implement cublas functions needed for llm.c (#457)

2025-08-02 06:47:46 +03:00 · 2025-07-31 11:08:53 -07:00
parent 99c36092be
commit 96ae27e9e1
6 changed files with 169 additions and 1 deletions
--- a/Cargo.lock
+++ b/Cargo.lock
@ -1816,6 +1816,7 @@ version = "0.0.0"
 dependencies = [
 "cuda_macros",
 "cuda_types",
 "rocblas-sys",
 "zluda_common",
 ]
@ -1833,6 +1834,7 @@ version = "0.1.0"
 dependencies = [
 "cuda_types",
 "hip_runtime-sys",
 "rocblas-sys",
 ]
 [[package]]
--- a/zluda_blas/Cargo.toml
+++ b/zluda_blas/Cargo.toml
@ -11,6 +11,7 @@ name = "cublas"
 cuda_macros = { path = "../cuda_macros" }
 cuda_types = { path = "../cuda_types" }
 zluda_common = { path = "../zluda_common" }
 rocblas-sys = { path = "../ext/rocblas-sys" }
 [package.metadata.zluda]
 linux_symlinks = [
--- a/zluda_blas/src/impl.rs
+++ b/zluda_blas/src/impl.rs
@ -1,4 +1,34 @@
 use std::mem;
 use cuda_types::cublas::*;
 use zluda_common::{from_cuda_object, ZludaObject};
 use rocblas_sys::*;
 pub struct Handle {
    handle: rocblas_handle,
 }
 impl Handle {
    fn new() -> Self {
        Self {
            handle: unsafe { mem::zeroed() },
        }
    }
 }
 impl ZludaObject for Handle {
    const COOKIE: usize = 0x57c3fdb0fd72b08e;
    type Error = cublasError_t;
    type CudaHandle = cublasHandle_t;
    fn drop_checked(&mut self) -> cublasStatus_t {
        Ok(())
    }
 }
 from_cuda_object!(Handle);
 #[cfg(debug_assertions)]
 pub(crate) fn unimplemented() -> cublasStatus_t {
@ -10,6 +40,13 @@ pub(crate) fn unimplemented() -> cublasStatus_t {
    cublasStatus_t::ERROR_NOT_SUPPORTED
 }
 pub(crate) fn create_v2(handle: &mut cublasHandle_t) -> cublasStatus_t {
    let mut zluda_blas_handle = Handle::new();
    unsafe { rocblas_create_handle(&mut zluda_blas_handle.handle) }?;
    *handle = Handle::wrap(zluda_blas_handle);
    Ok(())
 }
 pub(crate) fn get_status_name(_status: cublasStatus_t) -> *const ::core::ffi::c_char {
    todo!()
 }
@ -25,3 +62,94 @@ pub(crate) fn xerbla(_sr_name: *const ::core::ffi::c_char, _info: ::core::ffi::c
 pub(crate) fn get_cudart_version() -> usize {
    todo!()
 }
 pub(crate) fn set_math_mode(handle: &Handle, mode: rocblas_math_mode) -> cublasStatus_t {
    unsafe { rocblas_set_math_mode(handle.handle, mode) }?;
    Ok(())
 }
 pub(crate) fn sgemm_strided_batched(
    handle: &Handle,
    transa: rocblas_operation,
    transb: rocblas_operation,
    m: ::core::ffi::c_int,
    n: ::core::ffi::c_int,
    k: ::core::ffi::c_int,
    alpha: *const f32,
    a: *const f32,
    lda: ::core::ffi::c_int,
    stride_a: ::core::ffi::c_longlong,
    b: *const f32,
    ldb: ::core::ffi::c_int,
    stride_b: ::core::ffi::c_longlong,
    beta: *const f32,
    c: *mut f32,
    ldc: ::core::ffi::c_int,
    stride_c: ::core::ffi::c_longlong,
    batch_count: ::core::ffi::c_int,
 ) -> cublasStatus_t {
    unsafe {
        rocblas_sgemm_strided_batched(
            handle.handle,
            transa,
            transb,
            m,
            n,
            k,
            alpha,
            a,
            lda,
            stride_a,
            b,
            ldb,
            stride_b,
            beta,
            c,
            ldc,
            stride_c,
            batch_count,
        )
    }?;
    Ok(())
 }
 pub(crate) fn sgemm_v2(
    handle: &Handle,
    transa: rocblas_operation,
    transb: rocblas_operation,
    m: ::core::ffi::c_int,
    n: ::core::ffi::c_int,
    k: ::core::ffi::c_int,
    alpha: *const f32,
    a: *const f32,
    lda: ::core::ffi::c_int,
    b: *const f32,
    ldb: ::core::ffi::c_int,
    beta: *const f32,
    c: *mut f32,
    ldc: ::core::ffi::c_int,
 ) -> cublasStatus_t {
    unsafe {
        rocblas_sgemm(
            handle.handle,
            transa,
            transb,
            m,
            n,
            k,
            alpha,
            a,
            lda,
            b,
            ldb,
            beta,
            c,
            ldc,
        )
    }?;
    Ok(())
 }
 pub(crate) fn destroy_v2(handle: cublasHandle_t) -> cublasStatus_t {
    zluda_common::drop_checked::<Handle>(handle)
 }
--- a/zluda_blas/src/lib.rs
+++ b/zluda_blas/src/lib.rs
@ -1,5 +1,7 @@
 mod r#impl;
 use cuda_types::cublas::cublasError_t;
 macro_rules! unimplemented {
    ($($abi:literal fn $fn_name:ident( $($arg_id:ident : $arg_type:ty),* ) -> $ret_type:ty;)*) => {
        $(
@ -42,7 +44,14 @@ macro_rules! implemented_and_always_succeeds {
 cuda_macros::cublas_function_declarations!(
    unimplemented,
-    implemented <= [],
+    implemented
        <= [
            cublasCreate_v2,
            cublasSetMathMode,
            cublasSgemmStridedBatched,
            cublasSgemm_v2,
            cublasDestroy_v2
        ],
    implemented_and_always_succeeds
        <= [
            cublasGetStatusName,
--- a/zluda_common/Cargo.toml
+++ b/zluda_common/Cargo.toml
@ -7,3 +7,4 @@ edition = "2021"
 [dependencies]
 cuda_types = { path = "../cuda_types" }
 hip_runtime-sys = { path = "../ext/hip_runtime-sys" }
 rocblas-sys = { path = "../ext/rocblas-sys" }
--- a/zluda_common/src/lib.rs
+++ b/zluda_common/src/lib.rs
@ -1,5 +1,6 @@
 use cuda_types::{cublas::*, cuda::*};
 use hip_runtime_sys::*;
 use rocblas_sys::*;
 use std::{
    ffi::CStr,
    mem::{self, ManuallyDrop, MaybeUninit},
@ -110,6 +111,8 @@ from_cuda_nop!(
    *mut i8,
    *mut i32,
    *mut usize,
    *const f32,
    *mut f32,
    *const ::core::ffi::c_void,
    *const ::core::ffi::c_char,
    *mut ::core::ffi::c_void,
@ -118,6 +121,7 @@ from_cuda_nop!(
    i32,
    u32,
    u64,
    i64,
    usize,
    cuda_types::cuda::CUdevprop,
    CUdevice_attribute,
@ -171,6 +175,29 @@ impl<'a, E: CudaErrorType> FromCuda<'a, *const ::core::ffi::c_void, E> for &'a :
    }
 }
 impl<'a, E: CudaErrorType> FromCuda<'a, cublasOperation_t, E> for rocblas_operation {
    fn from_cuda(t: &'a cublasOperation_t) -> Result<Self, E> {
        Ok(match *t {
            cublasOperation_t::CUBLAS_OP_N => rocblas_operation::rocblas_operation_none,
            cublasOperation_t::CUBLAS_OP_T => rocblas_operation::rocblas_operation_transpose,
            cublasOperation_t::CUBLAS_OP_C => {
                rocblas_operation::rocblas_operation_conjugate_transpose
            }
            _ => return Err(E::NOT_SUPPORTED),
        })
    }
 }
 impl<'a, E: CudaErrorType> FromCuda<'a, cublasMath_t, E> for rocblas_math_mode {
    fn from_cuda(mode: &'a cublasMath_t) -> Result<Self, E> {
        Ok(match *mode {
            cublasMath_t::CUBLAS_DEFAULT_MATH => rocblas_math_mode_::rocblas_default_math,
            cublasMath_t::CUBLAS_TF32_TENSOR_OP_MATH => rocblas_math_mode::rocblas_xf32_xdl_math_op,
            _ => return Err(E::NOT_SUPPORTED),
        })
    }
 }
 /// Represents an object that can be sent across the API boundary.
 ///
 /// Some CUDA calls operate on an opaque handle. For example, `cuModuleLoadData` will load a