İşletmeler üretken yapay zekayı ürünlerine entegre etmeye devam ettikçe çoğu kişi yapay zekanın doğru davranıp davranmadığını ve yararlı yanıtlar sağlayıp sağlamadığını test etmekte zorlanıyor.
Bu sorunun çözülmesine yardımcı olmak için bir startup çağrılır. Gentrace Büyük dil modelleri etrafında oluşturulmuş yazılım testi için entegre bir platform sunar. Geleneksel yazılımlar, örneğin bir web formuna gönderilen verilerin bir veritabanında düzgün bir şekilde biçimlendirildiğini doğrulamak için otomatik testlerle karşı karşıya kalabilirken, söz konusu kurucu Gentrace de dahil olmak üzere, yapay zeka destekli yazılımın genellikle girdiye yanıt olarak belirli bir şekilde davranması beklenmiyor. ve CEO Doug Safreno.
Müşteriler, yapay zeka modelinde, etkileşime girdiği veritabanlarında veya diğer parametrelerde yapılan herhangi bir değişiklikten sonra yapay zeka için bir dizi test verisi tanımlayabilir. Ancak bir test platformu olmadan bu testleri çalıştırmak, yapay zeka test istemlerinin elektronik tablolarının tutulması ve tatmin edici sonuçlar ürettiklerinden emin olmak için bunların manuel olarak günlüğe kaydedilmesi anlamına gelebilir. Otomasyon mümkün olsa da, bir AI yanıtının belirli anahtar kelimeleri içerdiğini doğrulamak veya hatta başka bir AI sisteminden bir AI’nın tatmin edici göründüğünden emin olmasını istemek mümkün olsa da, karmaşık testler, ürün yöneticileri gibi diğer ekip üyeleri ne olduğunu bilse bile, genellikle mühendislerin yoğun bir şekilde dahil olmasını gerektirir. Safreno, iyi çıktıların göründüğünü söylüyor.
“Sorun şu ki, kimse buna bakamıyor ve bu test ve değerlendirme sürecinde işbirliği yapamıyor” diyor. “Yeni ürün gereksinimleri geldikçe testlerde yakalanmıyorlar.”
Yapay zeka testlerini daha erişilebilir hale getirmeye yardımcı olmak için Gentrace’in platformu, şirket içindeki herkesin Yüksek Lisans destekli sistemlere yönelik testleri görüntülemesine, düzenlemesine ve çalıştırmasına olanak tanıyor. Sonuçlar daha sonra insan değerlendiriciler, genel programlar veya daha fazla LL.M tarafından derecelendirilebilir. Gentrace LL.M’nin kullanımına ilişkin rehberlik sağlar Safreno’nun söylediğine göre yapay zeka çıktısını verimli bir şekilde test etmek, sıklıkla LLM’lerin test edilmesine “haksız bir avantaj” vermeyi içeriyor; istenen çıktı hakkında orijinal bilgi isteminden daha fazla ayrıntı sağlıyor. Ancak araç aynı zamanda bunun için bir arayüz de sağlıyor İnsan değerlendiricileri motive etmek Bir yapay zeka yanıtını dikkate almak.
Anna Wang, Yapay Zeka Odaklı İşgücü Eğitimi Yapay Zeka Başkanı Çoklu EvrenBahsedilen Gentrace’in sistemi, sistem performansını değerlendirmek için yapay zeka giriş ve çıkış belgelerini aktarma ihtiyacını ortadan kaldırıyor.
“Yerini tonlarca e-tablo aldı” diyor. “Gentras, doğrudan yapay zeka kodumuza bağlanan harika bir kullanıcı arayüzüne sahip.”
Ve Salı gününden itibaren Gentrace, Deneyler adı verilen ve kullanıcılara Gentrace arayüzünden tüm uygulamaları test etme konusunda daha fazla güç veren yeni bir özellik sunuyor. Deneylerle kullanıcılar, erişilecek veri kümeleri, yapay zeka sistemindeki istemler ve veritabanı yapılandırma ayarları gibi deneyleri yürütmek için parametreler belirleyebilir. Geliştiriciler, kodlarında yapılacak basit temel değişikliklerle Gentrace’teki belirli değişkenleri düzenlenebilir olarak işaretleyebilir ve kodlama bilgisi olmayan ekip arkadaşları, bunları belirli bir testi çalıştırmak için kendi beğenilerine göre ayarlayabilir. Gentrace günlüğündeki test raporları, daha önce neyin test edildiğini ve yazılımın nasıl performans gösterdiğini içerir.
Safreno, “Nasıl tasarlarsanız tasarlayın, uygulamanızı uçtan uca sarıyoruz, bu da herhangi bir değişikliğin etkisini ölçebileceğimiz anlamına geliyor” dedi. “20 modeli birbirine zincirleyebilir, bir çıktı üretebilirsiniz, yol boyunca bir istemi değiştirebilirsiniz ve biz de etkiyi ölçebiliriz.”
Şirket ayrıca Salı günü Matrix Partners liderliğinde Headline ve K9 Ventures’ın da katılımıyla 8 milyon dolarlık A Serisi finansman turunu duyurdu. Yeni yatırım, ek ürün geliştirmeyi finanse edecek ve Safreno, bir gün yapay zekanın ve insanların, bir uygulama için en iyi performans seçeneklerini bulmak üzere olası istemler veya diğer ayarlar arasında arama yapmak gibi LLM destekli uygulamalar için testler tasarlamasına olanak tanıyacağını söylüyor. veya performansı değerlendirmek için yeni test senaryoları oluşturma.
Gentrace testinin gelecek sürümleri muhtemelen çeşitli olası ayarlarla deneme yapma ve ardından en iyi performans gösteren seçenekleri doğrudan canlı koda dağıtma yeteneğini içerecektir. Ancak Safreno, mevcut sürümün bile, ilk testleri yürütmek için gereken mühendis süresini ve koordinasyonu azaltarak yapay zeka geliştirmeyi daha verimli hale getirebileceğini söyledi.
“Bu, birden fazla paydaş arasındaki var olması gerekmeyen devasa döngüyü ortadan kaldırıyor” diyor.