星環(huán)科技向量數據庫Transwarp Hippo1.1發(fā)布

熱點(diǎn)
TIME
2023-10-17 15:41
和訊網(wǎng)
分享

  星環(huán)科技向量數據庫Transwarp Hippo自發(fā)布已來(lái),受到了眾多用戶(hù)的歡迎,幫助用戶(hù)實(shí)現向量數據的存儲、管理和檢索,探索和實(shí)踐大模型場(chǎng)景。在與用戶(hù)不斷地深入交流以及實(shí)踐中,Hippo迎來(lái)了V1.1版本,一套系統即可支持向量與全文聯(lián)合檢索,提高文本數據的召回精度,從而提升大語(yǔ)言模型應用的準確率。同時(shí),Hippo1.1新增余弦距離、批量數據導入導出、Explain與Profile支持、ARM架構支持等能力,大幅降低用戶(hù)使用門(mén)檻和成本。

  此外,Hippo社區版同樣支持以上新特性,點(diǎn)擊文末閱讀原文或者訪(fǎng)問(wèn)星環(huán)科技官網(wǎng),即可申請下載體驗,開(kāi)啟大語(yǔ)言模型場(chǎng)景探索之旅。

  一庫搞定向量+全文聯(lián)合檢索,提升大模型準確率

  在大語(yǔ)言模型應用中,向量數據庫作為中間載體,可以有效地解決大模型在知識時(shí)效性低、輸入能力有限、準確度低等問(wèn)題,賦予大模型擁有“長(cháng)期記憶”。因此,向量數據庫的召回精度直接影響大模型輸出結果的準確率。然而,在一些實(shí)踐場(chǎng)景中,對于向量數據庫本身而言,單一使用向量檢索會(huì )產(chǎn)生召回準確率不高的問(wèn)題:

  * 對噪聲和冗余信息敏感:若向量數據庫中存在大量的噪聲和冗余信息,則檢索的準確率會(huì )降低;

  * 對特征選擇的依賴(lài):在向量檢索中,需要對數據進(jìn)行特征提取和選擇,若特征選擇不當,則會(huì )影響檢索的準確性;

  * 對查詢(xún)語(yǔ)義理解的局限性:當查詢(xún)語(yǔ)義比較復雜或模糊時(shí),向量檢索無(wú)法準確理解用戶(hù)的意圖,導致準確率降低;

  此外,像一些特殊情況,如所檢索內容未構建特征或特征比重較小時(shí),會(huì )導致準確率降低,甚至無(wú)召回結果。

  針對文本搜索場(chǎng)景,全文檢索更適合做關(guān)鍵字匹配,可以避免檢索內容低頻的問(wèn)題。而向量檢索則能找出字面上不同但語(yǔ)義上相近的內容。通過(guò)將向量檢索和全文檢索的聯(lián)合召回,可以降低漏檢和誤檢的概率,能夠實(shí)現比單獨使用向量或全文檢索更高的精度。

  此外,向量數據與全文數據在存儲、計算上有很大的差別,單一的數據庫架構很難同時(shí)高效支持這兩種場(chǎng)景。例如,對于公開(kāi)數據集如ANN Benchmark,Elasticsearch的性能遠落后于專(zhuān)業(yè)的向量數據庫。

  星環(huán)科技向量數據庫Hippo底層使用自研的分布式數據管理系統TDDMS,能夠支持向量數據和全文數據統一存儲管理,一套數據庫系統即可支持向量與全文數據聯(lián)合檢索召回,避免了部署多套系統帶來(lái)的架構復雜、開(kāi)發(fā)運維成本高等問(wèn)題。同時(shí),Hippo1.1提供兼容Elasticsearch協(xié)議的SDK支持,方便用戶(hù)更便捷地使用向量數據庫。

11.png

  例如,當查詢(xún)“A公司業(yè)務(wù)發(fā)展情況”時(shí),通過(guò)向量檢索可以檢索出A公司“主要業(yè)務(wù)”、“經(jīng)營(yíng)模式”、“財務(wù)情況”、“市場(chǎng)地位”等信息,通過(guò)全文檢索可以檢索出知識庫中和關(guān)鍵字“業(yè)務(wù)”、“發(fā)展”相關(guān)的結果作為補充,通過(guò)將兩者檢索的結果進(jìn)行結合,可以使得大模型回答的結果更加豐滿(mǎn)和準確。

  當查詢(xún)“A公司產(chǎn)品經(jīng)理B的履歷”時(shí),若該產(chǎn)品經(jīng)理B在知識庫中出現的頻率較低或未構建特征時(shí),單一使用向量檢索召回的結果可能主要是A公司介紹,而通過(guò)全文檢索則會(huì )檢索出產(chǎn)品經(jīng)理B相關(guān)的內容,通過(guò)向量+全文的聯(lián)合檢索召回,使得大模型能夠準確地給出答案。

222.png

  多個(gè)新特性升級,幫助用戶(hù)實(shí)現降本增效

  1、余弦距離支持,簡(jiǎn)化業(yè)務(wù)邏輯

  余弦距離在大模型領(lǐng)域有著(zhù)廣泛的應用。在過(guò)去,用戶(hù)在將向量數據導入向量數據庫之前,需要對數據庫做L2歸一化,并搭配內積距離間接實(shí)現余弦距離,這個(gè)過(guò)程較為復雜,需要用戶(hù)手工操作,并要求有一定的技術(shù)基礎。Hippo1.1新增原生的余弦距離支持,用戶(hù)不再需要通過(guò)向量歸一化計算 IP metrics 來(lái)使用余弦距離,大幅簡(jiǎn)化了業(yè)務(wù)邏輯,降低了用戶(hù)使用門(mén)檻。

  2、批量數據導入導出,加速數據流轉

  Hippo1.1新增基于csv格式的批量數據導入導出功能,方便用戶(hù)進(jìn)行數據流轉。此外,用戶(hù)還可以通過(guò)Python、Restful等API進(jìn)行數據操作。

  3、支持ARM架構,滿(mǎn)足國產(chǎn)化需求

  隨著(zhù) ARM架構 CPU 的普及程度越來(lái)越高,Hippo1.1在支持X86架構的基礎上,新增支持ARM架構,滿(mǎn)足企業(yè)用戶(hù)國產(chǎn)化需求。

  4、支持Explain與Profile,高效性能優(yōu)化

  當執行帶過(guò)濾條件的向量檢索時(shí),Hippo會(huì )根據過(guò)濾條件預估過(guò)濾率,選擇最優(yōu)的搜索路徑。通過(guò)Explain接口,用戶(hù)可以準確地看到檢索的具體執行路徑,通過(guò)Profile接口,用戶(hù)可以看到一次搜索中各階段的細分耗時(shí)情況?;谶@兩點(diǎn)特性,用戶(hù)可以更高效地進(jìn)行數據庫調試、問(wèn)題排查和性能優(yōu)化。

333.png


THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  10月17日,第5個(gè)工作日參考原油變化率為-3.68%,預計汽柴油下調160元/噸,折算后0.12-0.14元/升,本輪調價(jià)窗口為10月24日24時(shí)?! H油價(jià)16日下跌。截至當天收盤(pán),紐約商...
汽車(chē)
  新華社洛杉磯10月16日電(記者譚晶晶)美國航天局16日發(fā)表公報稱(chēng),科研人員通過(guò)分析詹姆斯·韋布空間望遠鏡的觀(guān)測結果發(fā)現,有證據顯示一顆太陽(yáng)系外行星的大氣中存在主要...
互聯(lián)網(wǎng)

相關(guān)推薦

1
3
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看