星環(huán)科技向量數據庫Transwarp Hippo1.1發(fā)布

TIME

2023-10-17 15:41

和訊網(wǎng)

分享

　　星環(huán)科技向量數據庫Transwarp Hippo自發(fā)布已來(lái)，受到了眾多用戶(hù)的歡迎，幫助用戶(hù)實(shí)現向量數據的存儲、管理和檢索，探索和實(shí)踐大模型場(chǎng)景。在與用戶(hù)不斷地深入交流以及實(shí)踐中，Hippo迎來(lái)了V1.1版本，一套系統即可支持向量與全文聯(lián)合檢索，提高文本數據的召回精度，從而提升大語(yǔ)言模型應用的準確率。同時(shí)，Hippo1.1新增余弦距離、批量數據導入導出、Explain與Profile支持、ARM架構支持等能力，大幅降低用戶(hù)使用門(mén)檻和成本。

　　此外，Hippo社區版同樣支持以上新特性，點(diǎn)擊文末閱讀原文或者訪(fǎng)問(wèn)星環(huán)科技官網(wǎng)，即可申請下載體驗，開(kāi)啟大語(yǔ)言模型場(chǎng)景探索之旅。

　　一庫搞定向量+全文聯(lián)合檢索，提升大模型準確率

　　在大語(yǔ)言模型應用中，向量數據庫作為中間載體，可以有效地解決大模型在知識時(shí)效性低、輸入能力有限、準確度低等問(wèn)題，賦予大模型擁有“長(cháng)期記憶”。因此，向量數據庫的召回精度直接影響大模型輸出結果的準確率。然而，在一些實(shí)踐場(chǎng)景中，對于向量數據庫本身而言，單一使用向量檢索會(huì )產(chǎn)生召回準確率不高的問(wèn)題：

　　* 對噪聲和冗余信息敏感：若向量數據庫中存在大量的噪聲和冗余信息，則檢索的準確率會(huì )降低；

　　* 對特征選擇的依賴(lài)：在向量檢索中，需要對數據進(jìn)行特征提取和選擇，若特征選擇不當，則會(huì )影響檢索的準確性；

　　* 對查詢(xún)語(yǔ)義理解的局限性：當查詢(xún)語(yǔ)義比較復雜或模糊時(shí)，向量檢索無(wú)法準確理解用戶(hù)的意圖，導致準確率降低；

　　此外，像一些特殊情況，如所檢索內容未構建特征或特征比重較小時(shí)，會(huì )導致準確率降低，甚至無(wú)召回結果。

　　針對文本搜索場(chǎng)景，全文檢索更適合做關(guān)鍵字匹配，可以避免檢索內容低頻的問(wèn)題。而向量檢索則能找出字面上不同但語(yǔ)義上相近的內容。通過(guò)將向量檢索和全文檢索的聯(lián)合召回，可以降低漏檢和誤檢的概率，能夠實(shí)現比單獨使用向量或全文檢索更高的精度。

　　此外，向量數據與全文數據在存儲、計算上有很大的差別，單一的數據庫架構很難同時(shí)高效支持這兩種場(chǎng)景。例如，對于公開(kāi)數據集如ANN Benchmark，Elasticsearch的性能遠落后于專(zhuān)業(yè)的向量數據庫。

　　星環(huán)科技向量數據庫Hippo底層使用自研的分布式數據管理系統TDDMS，能夠支持向量數據和全文數據統一存儲管理，一套數據庫系統即可支持向量與全文數據聯(lián)合檢索召回，避免了部署多套系統帶來(lái)的架構復雜、開(kāi)發(fā)運維成本高等問(wèn)題。同時(shí)，Hippo1.1提供兼容Elasticsearch協(xié)議的SDK支持，方便用戶(hù)更便捷地使用向量數據庫。

　　例如，當查詢(xún)“A公司業(yè)務(wù)發(fā)展情況”時(shí)，通過(guò)向量檢索可以檢索出A公司“主要業(yè)務(wù)”、“經(jīng)營(yíng)模式”、“財務(wù)情況”、“市場(chǎng)地位”等信息，通過(guò)全文檢索可以檢索出知識庫中和關(guān)鍵字“業(yè)務(wù)”、“發(fā)展”相關(guān)的結果作為補充，通過(guò)將兩者檢索的結果進(jìn)行結合，可以使得大模型回答的結果更加豐滿(mǎn)和準確。

　　當查詢(xún)“A公司產(chǎn)品經(jīng)理B的履歷”時(shí)，若該產(chǎn)品經(jīng)理B在知識庫中出現的頻率較低或未構建特征時(shí)，單一使用向量檢索召回的結果可能主要是A公司介紹，而通過(guò)全文檢索則會(huì )檢索出產(chǎn)品經(jīng)理B相關(guān)的內容，通過(guò)向量+全文的聯(lián)合檢索召回，使得大模型能夠準確地給出答案。

　　多個(gè)新特性升級，幫助用戶(hù)實(shí)現降本增效

　　1、余弦距離支持，簡(jiǎn)化業(yè)務(wù)邏輯

　　余弦距離在大模型領(lǐng)域有著(zhù)廣泛的應用。在過(guò)去，用戶(hù)在將向量數據導入向量數據庫之前，需要對數據庫做L2歸一化，并搭配內積距離間接實(shí)現余弦距離，這個(gè)過(guò)程較為復雜，需要用戶(hù)手工操作，并要求有一定的技術(shù)基礎。Hippo1.1新增原生的余弦距離支持，用戶(hù)不再需要通過(guò)向量歸一化計算 IP metrics 來(lái)使用余弦距離，大幅簡(jiǎn)化了業(yè)務(wù)邏輯，降低了用戶(hù)使用門(mén)檻。

　　2、批量數據導入導出，加速數據流轉

　　Hippo1.1新增基于csv格式的批量數據導入導出功能，方便用戶(hù)進(jìn)行數據流轉。此外，用戶(hù)還可以通過(guò)Python、Restful等API進(jìn)行數據操作。

　　3、支持ARM架構，滿(mǎn)足國產(chǎn)化需求

　　隨著(zhù) ARM架構 CPU 的普及程度越來(lái)越高，Hippo1.1在支持X86架構的基礎上，新增支持ARM架構，滿(mǎn)足企業(yè)用戶(hù)國產(chǎn)化需求。

　　4、支持Explain與Profile，高效性能優(yōu)化

　　當執行帶過(guò)濾條件的向量檢索時(shí)，Hippo會(huì )根據過(guò)濾條件預估過(guò)濾率，選擇最優(yōu)的搜索路徑。通過(guò)Explain接口，用戶(hù)可以準確地看到檢索的具體執行路徑，通過(guò)Profile接口，用戶(hù)可以看到一次搜索中各階段的細分耗時(shí)情況?；谶@兩點(diǎn)特性，用戶(hù)可以更高效地進(jìn)行數據庫調試、問(wèn)題排查和性能優(yōu)化。

THE END

免責聲明：本文系轉載，版權歸原作者所有；刊載之目的為傳播更多信息，如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

10月17日油價(jià)消息，油價(jià)即將調整

　　10月17日，第5個(gè)工作日參考原油變化率為-3.68%，預計汽柴油下調160元/噸，折算后0.12-0.14元/升，本輪調價(jià)窗口為10月24日24時(shí)?！　H油價(jià)16日下跌。截至當天收盤(pán)，紐約商...

汽車(chē)

美航天局稱(chēng)首次發(fā)現系外行星大氣中存在二氧化硅的證據

　　新華社洛杉磯10月16日電（記者譚晶晶）美國航天局16日發(fā)表公報稱(chēng)，科研人員通過(guò)分析詹姆斯·韋布空間望遠鏡的觀(guān)測結果發(fā)現，有證據顯示一顆太陽(yáng)系外行星的大氣中存在主要...

互聯(lián)網(wǎng)

最新文章

相關(guān)推薦

東京奧運會(huì )中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙航天員劉伯明成功開(kāi)啟天和核心艙節點(diǎn)艙出艙艙門(mén)

微信顯示“正在輸入”，其實(shí)不是在回復消息，背后原因挺“傷人”

科技世界網(wǎng)創(chuàng )立于2009年，宗旨是科技創(chuàng )造財富，網(wǎng)絡(luò )改變世界。多年來(lái)力爭通過(guò)自主創(chuàng )新的技術(shù)實(shí)現為科技企業(yè)創(chuàng )造最大的價(jià)值。

關(guān)于我們 | 聯(lián)系我們 | 版權申明 | 投稿須知 | 網(wǎng)站地圖

認證聯(lián)盟：創(chuàng )宇信用百度企業(yè)

內容投訴：gold_ant@qq.com

數據合作：阿里云科協(xié)產(chǎn)業(yè)園

增值許可證：遼B2-20150256

關(guān)注我們

科技世界官方百家號

關(guān)注官方微信公眾號
探索科技與商業(yè)的邏輯

商務(wù)合作、媒體邀約
趕緊聯(lián)系我們

Copyright ? 2009-2022 twwtn.com 科協(xié)聯(lián)盟榮譽(yù)成員科技世界網(wǎng)僅提供信息傳播載體，所刊登文章僅供參考鄂ICP備2022015873號-1

人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看