AI News

612

DeepSeek tester «sparse attention» for å kutte AI‑behandlingskostnader

Mastodon +9 kilder mastodon
deepseek
DeepSeek kunngjorde at de nå gjennomfører felttesting av en ny «fin‑granulert sparse attention»-mekanisme som, ifølge selskapet, halverer kostnaden for deres offentlige API ved lange innspill. Teknikken, et lenge eksisterende forskningskonsept som reduserer antallet token‑til‑token‑interaksjoner under inferens, er blitt ombygget av DeepSeek slik at den anvendes dynamisk på et mye mer detaljert nivå enn tidligere sparse‑transformermodeller. Tidlige tester delt på Hugging Face viser en reduksjon i beregningstid på 60‑75 % for sekvenser på over 2 k tokens, og selskapet har allerede senket prisen for den berørte endepunktet med omtrent 50 %. Dette er viktig fordi inferenskostnad fortsatt er den største hindringen for bred utrulling av store språkmodeller. Googles nylige KV‑cache‑komprimering og TurboQuant‑algoritmer reduserer minne‑ og beregningskostnader betydelig, men de er fortsatt avhengige av tett (dense) oppmerksomhet for full‑lengde‑kontekst. DeepSeeks tilnærming lover tilsvarende besparelser uten å gå på bekostning av kvaliteten på langdistanse‑avhengigheter, og kan dermed demokratisere tilgangen til høy‑kapasitetsmodeller for oppstartsbedrifter, forskere og virksomheter som tidligere ikke har hatt råd til per‑token‑avgiftene. Som vi rapporterte 25. mars, ansatte DeepSeek 17 spesialister for å integrere sitt DeerFlow 2.0‑rammeverk, noe som signaliserer en bredere satsning på å optimalisere både trenings‑ og tjeneste‑pipelines. Sparse‑attention‑prøven er det nyeste steget i denne strategien. Hva som er å følge med på videre: DeepSeek planlegger å slippe en produksjonsklar versjon av modellen innen Q3, ledsaget av en fagfellevurdert artikkel som beskriver de algoritmiske innovasjonene. Bransjeobservatører vil være ivrige etter å se uavhengige benchmark‑sett, hvordan skyleverandører priser den nye endepunktet, og om konkurrenter som OpenAI eller Anthropic vil akselerere sin egen spars‑forskning som svar. Resultatet kan omforme økonomien i AI‑tjenester i det nordiske teknologimiljøet og videre.
449

Oppdateringer av GitHub Copilots retningslinjer for bruk av interaksjonsdata

Oppdateringer av GitHub Copilots retningslinjer for bruk av interaksjonsdata
HN +7 kilder hn
copilotprivacy
GitHub har lansert en revidert retningslinje for interaksjonsdata for Copilot, deres AI‑drevne kodefullføringstjeneste. Oppdateringen tydeliggjør at systemet fortsatt vil logge detaljer som nettlesertype, operativsystem, økt‑token og kodeutdrag brukerne godtar eller avviser, men dataene vil nå lagres i en kortere periode og anonymiseres før de mates tilbake inn i modell‑treningsprosessen. Brukere kan også velge å melde seg ut fra at deres interaksjoner brukes til produktforbedringer, en funksjon som tidligere var skjult bak en innstilling i utvikler‑menyen. Endringen kommer i en tid med økende press fra personvernmyndigheter i Europa og Nord‑Amerika, hvor innsamling av telemetri fra utviklerverktøy har utløst debatt om immaterielle rettigheter og GDPR‑overholdelse. Ved å stramme inn lagringsbegrensningene og tilby en tydeligere mulighet for å melde seg ut, ønsker GitHub å berolige bedriftskunder som har vært skeptiske til å eksponere proprietær kode for en skybasert AI. Tiltaket bringer også tjenesten i tråd med Microsofts bredere «ansvarlig AI»-strategi, som ble skissert i deres nylige kunngjøringer om generativ AI‑politikk. Det som følger blir en test av hvordan utviklerfellesskapet reagerer. Tidlige indikatorer vil være hvor mange som tar i bruk den nye muligheten til å melde seg ut, samt eventuelle endringer i Copilots bruksstatistikk, som GitHub publiserer på sitt dashbord. Analytikere vil følge med på om justeringen i politikken bremser den raske adopsjonen som har ført Copilot til over 20 millioner aktive brukere, eller om den styrker tilliten nok til å akselerere bedriftsavtaler. Et annet interessant aspekt er om konkurrerende
259

Show HN: En ren‑tekst kognitiv arkitektur for Claude Code

Show HN: En ren‑tekst kognitiv arkitektur for Claude Code
HN +7 kilder hn
claude
Et GitHub‑depot publisert under navnet cog har utløst en ny runde med diskusjon på Hacker News, der forfatteren beskriver det som «en ren‑tekst kognitiv arkitektur for Claude Code». Prosjektet pakker inn et sett med Unix‑lignende verktøy — grep, find, git diff — og en lettvektig mappe‑struktur som lar Claude Code behandle sin egen hukommelse som søkbar tekst. Ved å lagre prompts, refleksjoner og kjørelogger i markdown‑filer, kan modellen hente frem tidligere resonnering, utføre selvrefleksjon og til og med projisere «fremtids‑» steg før den skriver ny kode. Forfatteren demonstrerer arbeidsflyten med en typisk feilsøkingsøkt: Claude husker en tidligere designbeslutning, frembringer relaterte filer, og justerer planen sin uten en ny prompt. Hvorfor dette er viktig, er tosidig. For det første har Claude Code, Anthropics svar på GitHub Copilot, allerede vist en voksende tilstedeværelse i open‑source‑verdenen; som vi rapporterte 25. mars, ble den rangert som den tredje største bidragsyteren på offentlige repositorier, og en ny «auto‑mode» ble lansert samme dag. Den ren‑tekst‑baserte arkitekturen takler en vedvarende begrensning i mange AI‑kodeassistenter: mangelen på holdbar, søkbar kontekst som overlever over flere økter. Ved å utnytte verktøy utviklere allerede kjenner til, senker tilnærmingen terskelen for å bygge «andre‑hjernen» kunnskapsbaser som kan versjonskontrolleres, revideres og deles. For det andre er designet i tråd med en bredere bevegelse mot agent‑baserte, selv‑organiserende AI‑arbeidsflyter, og gjenspeiler nylige plugins som Ars Contexta som genererer personlige kunnskaps‑hvelv fra samtaler. Det som bør følges med på videre, er om Anthropic adopterer eller offisielt støtter et lignende minnelag, og hvordan fellesskapet måler påvirkningen på kodekvalitet og utviklerhastighet. Benchmark‑tester som sammenligner Claude Code med og uten cog‑arkitekturen vil sannsynligvis dukke opp, i likhet med sikkerhetsvurderinger av å lagre AI‑genererte artefakter i ren tekst. Hvis modellen pålitelig kan resonere over sin egen historie, kan neste bølge av AI‑assistert utvikling gå fra enkelt‑prompt‑utbrudd til kontinuerlig, kontekst‑rik samarbeid.
248

Apple kan lage mindre AI-modeller på enheten fra Googles Gemini

Apple kan lage mindre AI-modeller på enheten fra Googles Gemini
Mastodon +7 kilder mastodon
applegeminigoogle
Apple har sikret seg «full tilgang» til Googles store språkmodell Gemini i Googles egne datasentre, og bruker denne privilegien til å destillere langt mindre, på‑enheten‑versjoner for sine produkter. Prosessen – kjent som modell‑destillasjon – mater Geminis resultater og interne resonnering inn i en treningspipeline som gir kompakte modeller som kan kjøre på iPhone, iPad og annen Apple‑maskinvare uten nettforbindelse. Dette er viktig fordi det gir Apple en snarvei til ytelse på Gemini‑nivå samtidig som man unngår de enorme beregnings‑ og minnekravene som vanligvis følger med slike modeller. AI på enheten kan besvare spørsmål, oversette tale og drive kontekst‑bevisste funksjoner med millisekund‑latens, redusere batteriforbruket og, viktigst, holde brukerdata utenfor skyen. Apples evne til å lage proprietære avledninger utvider også kontrollen over Siri‑opplevelsen, et poeng som ble antydet i vår rapport fra 25. mars om at Apple kan gi Siri en «stor AI‑overhaling» i iOS 27. Destillasjon av Gemini kan akselerere Apples utrulling av offline‑Siri‑funksjoner, forbedre personvern‑først‑funksjoner i iOS 27 og styrke selskapets bredere AI‑først‑fortelling som stiller deres egen tilpassede silisium mot Nvidias H100‑baserte løsninger, fremhevet i Googles TurboQuant‑kunngjøring tidligere denne måneden. Det utdyper også det strategiske partnerskapet mellom de to rivalene, og viser at Google er villig til å dele kjerne‑modell‑ressurser i
210

90 % av Claude‑relatert kode havner i GitHub‑repoer med færre enn to stjerner

90 % av Claude‑relatert kode havner i GitHub‑repoer med færre enn to stjerner
HN +6 kilder hn
autonomousclaude
Anthropics Claude har produsert kode på GitHub i et tempo som kan måle seg med Copilot, men en ny analyse viser at omtrent ni av ti av disse bidragene havner i repositorier med færre enn to stjerner. Studien, som er bygget på offentlig commit‑metadata, kryssrefererte Claude‑merkede push‑operasjoner med popularitetsmålinger for repositorier og fant at den overveldende majoriteten av Claude‑genererte filer befinner seg i knapt merkbare prosjekter. Som vi rapporterte 24. mars, registrerte Claude sin Code‑funksjon mer enn 19 millioner commits på plattformen, og plasserer modellen som en viktig kilde til AI‑assistert bidrag. De nye dataene om stjernfordeling antyder imidlertid at mesteparten av denne aktiviteten er begrenset til personlige eksperimenter, hobby‑skript eller tidlige prototyper, snarere enn bredt brukte biblioteker. For utviklere reiser funnet spørsmål om den praktiske virkningen av Claude‑drevet kode: prosjekter med få stjerner mangler ofte grundig gjennomgang, testing eller fellesskapsvurdering, noe som kan øke risikoen for feil, sikkerhets
160

PLDR‑LLM‑er resonnerer ved selvorganisert kritikalitet

ArXiv +7 kilder arxiv
inferencereasoning
Et forskerteam har publisert en pre‑print, arXiv:2603.23539v1, som viser at store språkmodeller basert på Power‑Law Decoder Representations (PLDR‑LLM‑er) oppnår ekte resonneringsevner når de forhåndstrenes på grensen av selvorganisert kritikalitet (SOC). Forfatterne demonstrerer at, ved dette kritiske punktet, viser modellens deduktive utdata statistiske tegn på en faseovergang av andre orden: korrelasjonslengder divergerer og små forstyrrelser sprer seg gjennom hele nettverket, noe som speiler de skala‑invariante dynamikkene som observeres i fysiske systemer som sandhauger‑avalanser. Funnet er viktig fordi det foreslår et treningsregime som fremkaller fremvoksende logisk koherens uten eksplisitt kjede‑av‑tanke‑prompting eller ekstra tilsyn. Dersom SOC kan pålitelig indusere, kan LLM‑er oppnå høyere nøyaktighet på inferens‑tunge tester – matematisk bevis, formell verifisering og flerstegs‑resonnering –
158

Datasentre oppfører seg som akustiske våpen

Datasentre oppfører seg som akustiske våpen
Mastodon +6 kilder mastodon
Datacenter‑operatører har lenge avfeid summingen fra titusenvis av servere som et harmløst biprodukt av datakraft. Ny videodokumentasjon viser imidlertid at mange anlegg genererer intens infralyd – lavfrekvente vibrasjoner under 20 Hz – som kan trenge gjennom vegger og merkes snarere enn høres. Opptaket, samlet av musiker‑forsker Benn Jordan, fremhever Elon Musks “Colossus”-hub i Memphis, Tennessee, og demonstrerer trykknivåer som kan måle seg med, og i noen tilfeller overgå, de som er registrert på vindpark‑steder. Fenomenet er viktig fordi infralyd kan forstyrre vestibulærsystemet i det indre øret, noe som kan føre til kvalme, desorientering, hodepine og i ekstreme tilfeller oppkast. I motsetning til hørbar støy, trenger bølgene gjennom bygningens skall, noe som betyr at arbeidere og nærliggende innbyggere kan oppleve symptomer uten å innse kilden. Risikovurderinger fra arbeids‑sikkerhetsbyråer har allerede flagget kronisk eksponering for infralyd som en potensiell fare, men teknologibransjen har hittil manglet konkrete data. Bransjeinsidere sier at økningen i edge‑computing‑noder – små datasentre plassert i forstads‑ eller byområder – kan forsterke problemet. Etter hvert som operatører kjemper for å møte krav til lav latens, kan den akustiske fotavtrykket fra disse mikro‑anleggene bli en ny front i konflikter om samfunnsrelasjoner. Noen selskaper eksperimenterer med spesialtilpassede akustiske paneler fra firmaer som PsyAcoustics, men en bred adopsjon er fortsatt usikker. Man kan forvente regulatoriske svar fra EU‑s sin Direktorat for arbeidsmiljø og sikkerhet samt den amerikanske Occupational Safety and Health Administration (OSHA), som begge forventes å utstede retningslinjer for tillatte infralydnivåer i kommersielle bygg. Parallelle studier fra universitets‑akustiklaboratorier kan snart levere standarder for dempe‑tiltak, mens rettssaker fra berørte innbyggere kan tvinge operatører til å ettermontere eksisterende anlegg. De kommende månedene vil vise om infralyd blir en sjekkliste for etterlevelse eller en vedvarende folkehelse‑kontrovers.
150

**API-et ditt var ikke designet for AI‑agenter. Her er 5 løsninger.**

Dev.to +5 kilder dev.to
agents
**Sammendrag:** En ny teknisk veiledning som ble publisert denne uken advarer om at de fleste offentlige API‑er er bygget for menneskelige utviklere, ikke for de autonome AI‑agentene som nå dukker opp i bedriftsarbeidsflyter. Dokumentet, med tittelen «Your API Wasn’t Designed for AI Agents. Here Are 5 Fixes», beskriver fem konkrete mønstre – aggressive gjenforsøk, bokstavelig feiltolkning, ubekreftet kjeding, ugjennomsiktige autentiseringsflyter og manglende kontekstmetadata – som får agenter til å sette seg fast, generere hallusinasjoner eller til og med utløse denial‑of‑service‑sløyfer. Tidspunktet er betydningsfullt. Som vi rapporterte 25. mars, kan AI‑agenter kapres med bare tre linjer JSON, og Claude Code kjører nå kode på en brukers maskin for å fullføre oppgaver. Disse historiene avdekket hvordan agenter behandler API‑er som rå kontrakter, og omgår de sikkerhetsnettverkene som menneskelige utviklere vanligvis stoler på. Den nye veiledningen snur dette på hodet ved å vise API‑leverandører hvordan de kan oppdatere OpenAPI‑spesifikasjoner, sende strukturerte feilmeldingsobjekter, innføre OAuth 2.0‑scopes som agenter kan forhandle om, innlemme hypermediekontroller (HATEOAS) og publisere versjonsjusterte kontekst‑plugins som mates direkte inn i IDE‑er. Tidlige eksperimenter sitert av apimatic.io hevder at implementering av disse fem løsningene halverer integrasjonstiden, reduserer token‑forbruket med nesten 50 % og senker hallusinasjonsraten til nær null. Hva dette betyr for det nordiske AI‑økosystemet er todelt. For det første må selskaper som eksponerer data eller tjenester via REST‑endepunkter behandle AI‑agenter som førsteklasses forbrukere, ellers risikerer de tap av både effektivitet og sikkerhet. For det andre vil utviklere av AI‑drevet automatiseringsplattformer få en klarere sjekkliste for å vurdere tredjeparts‑API‑er, noe som potensielt kan akselerere adopsjonen i sektorer som fintech, healthtech og logistikk. Hold øye med at standardiseringsorganer i de kommende månedene kodifiserer «agent‑ready» API‑profiler, og at store skyleverandører ruller ut valideringsverktøy som flagger ikke‑kompatible endepunkter. Den neste bølgen av AI‑forsterkede tjenester vil sannsynligvis avhenge av om API‑ene klarer å holde tritt med de autonome agentenes forventninger.
142

LLM-er graderer ikke essays som mennesker

ArXiv +7 kilder arxiv
En ny arXiv‑pre‑print (2603.23714v1) viser at store språkmodeller (LLM‑er) fortsatt ikke når opp til menneskelige sensorer når de vurderer essays. Forfatterne sammenlignet rå LLM‑score med menneskelige karakterer på tvers av et flerspråklig testsett og fant systematiske avvik: korte eller underutviklede svar som treffer oppgaven blir konsekvent overvurdert, mens velutformede essays blir straffet for mindre språkfeil. Modellene ser ut til å bruke en bokstavelig, rubrikk‑fri logikk i stedet for den nyanserte dømmekraften mennesker benytter. Studien blir en del av en voksende forskningsmengde som undersøker AI sin rolle i vurdering. Tidligere forskning på tyske student‑essays rapporterte lignende gap mellom åpen‑kilde‑ og proprietære LLM‑er og menneskelige sensorer, og fremhevet både løftet om flerdimensjonal evaluering og faren ved skjult bias. En separat analyse av poengsettingsprosesser understreket at, i motsetning til menneskelig vurdering som følger eksplisitte rubrikker, genererer LLM‑er poeng fra ugjennomsiktige interne mønstre som er
133

Show HN: Robust LLM‑uttrekker for nettsteder i TypeScript

HN +7 kilder hn
**Sammendrag:** Et nytt åpen‑kilde‑bibliotek kalt **Robust LLM Extractor** har blitt lagt ut på GitHub, og gir TypeScript‑utviklere en ferdig løsning for å hente rent, LLM‑klart innhold fra hvilken som helst nettside. Bygget av Lightfeed‑teamet kombinerer verktøyet nettleser‑automatisering med store‑språk‑modell‑prompting for å konvertere rå HTML til markdown, eventuelt isolere hovedartikkel‑teksten, og returnere strukturerte data via Gemini 2.5 Flash eller GPT‑4o mini. Repositoryet (lightfeed/extractor) inkluderer også captcha‑løsning, geotargeting og valgfri AI‑berikelse, og posisjonerer seg som en full‑stack‑pipeline for å bygge kunnskapsdatabaser i stor skala. Utgivelsen er viktig fordi web‑skraping lenge har vært en flaskehals for LLM‑applikasjoner som trenger høy‑kvalitets, oppdatert tekst. Tradisjonelle skrapere leverer enten støyende HTML eller krever håndlagde selektorer som brytes ved redesign av nettsteder. Ved å delegere beslutningen om «hva som er viktig» til en LLM, lover uttrekker høyere tilbakekalling av relevant innhold samtidig som beregningskostnadene holdes lave – takket være bruk av den rimeligere GPT‑4o mini‑modellen for de fleste sider. For nordiske oppstartsbedrifter som er avhengige av rask datainntak for chat‑bots, anbefalingsmotorer eller etterlevelses‑monitorering, kan biblioteket spare uker med utviklingssykluser og redusere avhengigheten av proprietære data‑feeds. Prosjektet følger en bølge av fellesskapsdrevet AI‑verktøy som har blitt fremhevet i nylige Show HN‑innlegg, inkludert den ren‑tekst‑kognitive arkitekturen for Claude Code som vi dekket 26. mars. Etter hvert som økosystemet modnes, er de neste signalene å følge adopsjons‑metrikker på npm, bidrag som legger til støtte for flere LLM‑leverandører, og ytelses‑benchmarker som sammenligner uttrekkerens output‑kvalitet med skreddersydde pipelines. Hvis biblioteket får fart, kan det også stimulere sky‑plattformer til å tilby hostede «LLM‑forsterket skraping»-tjenester, noe som ytterligere senker terskelen for bedrifter som vil mate sine modeller med fersk web‑kunnskap.
114

Ondsinnede LiteLLM‑versjoner knyttet til TeamPCP‑supply‑chain‑angrep

Mastodon +7 kilder mastodon
Ondsinnede versjoner av det populære Python‑biblioteket LiteLLM har blitt oppdaget på PyPI, og bekrefter et nytt supply‑chain‑angrep fra trusselgruppen kjent som TeamPCP. De kompromitterte pakkene – LiteLLM 1.82.7 og 1.82.8 – ble lastet opp tidlig i mars og inneholder skjult kode som åpner et revers‑shell og eksfiltrerer miljøvariabler, inkludert API‑nøkler for OpenAI, Anthropic og andre leverandører av store språkmodeller. Bakdøren aktiveres når biblioteket importeres, et vanlig trinn i CI/CD‑pipelines som automatiserer LLM‑drevne applikasjoner. TeamPCP har allerede blitt knyttet til høyprofilerte kompromitteringer av sikkerhetsverktøy som Aqua Securitys Trivy‑skanner og KICS IaC‑analysatoren. Ved å målrette LiteLLM går aktørene fra «sikkerhetsverktøy»-misbruk til selve AI‑verktøykjeden, og utvider angrepsflaten for utviklere som er avhengige av biblioteket for å kommunisere med LLM‑er. Siden LiteLLM er en tynn wrapper som brukes i utallige open‑source‑prosjekter og kommersielle tjenester, kan den ondsinnede koden spres stille over et bredt spekter av det nordiske AI‑økosystemet, hvor rask prototyping og kontinuerlig distribusjon er normen. Hendelsen understreker vedvarende svakheter i Python‑pakkeøkosystemet: mutable versjonstags, mangel på obligatorisk pakke‑signering, og overavhengighet av statiske skannere som kan gå glipp av bevisst obfuskerte nyttelaster. Sikkerhetsforskere anbefaler umiddelbar fjerning av de forurensede utgivelsene, verifisering av eventuelle nedstrøms‑avhengigheter, og rotering av alle eksponerte legitimasjoner. Organisasjoner bør også vurdere reproducerbare bygg og ta i bruk signeringsmekanismer i stil med PEP 458/480. Hva man bør følge med på videre: PyPIs respons, inkludert om de kompromitterte opplastningene blir fjernet permanent og erstattet med signerte utgivelser; eventuell offentliggjøring av utnyttelse i felten; og om TeamPCP utvider kampanjen til andre AI‑relaterte pakker som LangChain eller HuggingFace Transformers. Episoden vil sannsynligvis akselerere krav om strengere supply‑chain‑hygiene i de europeiske og nordiske AI‑utviklerfellesskapene.
94

Google TurboQuant‑AI‑komprimeringsalgoritme kan redusere minnebruk for store språkmodeller (LLM) med 6‑ganger

Google TurboQuant‑AI‑komprimeringsalgoritme kan redusere minnebruk for store språkmodeller (LLM) med 6‑ganger
Mastodon +8 kilder mastodon
google
Google Research presenterte TurboQuant, en treningsfri komprimeringsalgoritme som kutter minneavtrykket til store språkmodeller (LLM) med opptil seks ganger. Teknikken kvantiserer nøkkel‑verdi‑bufferen (KV‑cache) – arbeidsminnet som lagrer mellomliggende aktiveringer under inferens – til kun tre biter per oppføring, samtidig som modellens opprinnelige nøyaktighet bevares. En to‑trinns prosess som først anvender PolarQuant på bufferens flyttallsverdier og deretter finjusterer dem med en lært residual‑kartlegging, gjør den ekstreme reduksjonen mulig uten behov for ny trening. Gjennombruddet er viktig fordi KV‑cache‑minnet har blitt den dominerende flaskehalsen ved utrulling av LLM‑tjenester i stor skala. Ved å kutte dette kravet kan TurboQuant senke kostnadene for sky‑infrastruktur, redusere latens og minske energiforbruket i inferens‑arbeidsbelastninger. Komprimeringen åpner også en vei for distribusjon på enheter av mer kapable modeller, et tema som ble fremhevet tidligere denne måneden da Apple demonstrerte hvordan Googles Gemini kan destilleres til mindre varianter for lokalt bruk. For maskinvareleverandører kan skiftet øke etterspørselen etter spesialiserte akseleratorer som håndterer ultra‑lav‑bit‑aritmetikk, mens skyleverandører kan få et konkurransefortrinn ved å tilby billigere og raskere LLM‑API‑er. Hva som er verdt å følge med på: Google planlegger å integrere TurboQuant i sin Vertex AI‑plattform senere i år, og tidlige benchmark‑resultater forventes på den kommende ICLR‑konferansen. Tredjeparts‑rammeverk som Hugging Face og PyTorch undersøker allerede støtte for det tre‑bits formatet, noe som kan fremskynde bredere adopsjon. Industrianalytikere vil følge med på om algoritmens påstand om null‑tap holder seg på tvers av ulike modellfamilier og virkelige arbeidsbelastninger, samt om konkurrenter lanserer sammenlignbare komprimeringsordninger. Hvis TurboQuant lever opp til løftet, kan økonomien i generativ AI endre seg dramatisk, og gjøre kraftige språkmodeller tilgjengelige for et bredere spekter av applikasjoner og utviklere.
71

FPT anerkjent for agentisk AI ved Artificial Intelligence Excellence Awards 2026

Las Vegas Sun +8 kilder 2026-03-26 news
agents
FPT, Vietnams ledende IT‑tjenestegruppe, har tatt hjem Agentisk AI‑prisen under Artificial Intelligence Excellence Awards 2026, en seremoni arrangert av Business Intelligence Group. Prisen anerkjenner IvyChat, selskapets bedrifts‑gradert plattform som kombinerer resonnering med store språkmodeller og autonom oppgaveutførelse, og plasserer den som en av de første kommersielt levedyktige “agentiske” AI‑løsningene i Sørøst‑Asia. IvyChat lar bedriftsbrukere gi høynivå‑kommandoer – for eksempel «utkast et kvartalsrapport, hent de siste salgsdataene og planlegg et gjennomgangsmøte» – og systemet koordinerer datainnhenting, dokumentgenerering og kalenderintegrasjon uten manuell prompting. Ved å innlemme rollebaserte tilgangskontroller og muligheter for lokal (on‑premise) utrulling, adresserer FPT sikkerhets‑ og etterlevelsesbekymringer som har bremset adopsjonen av autonom AI i regulerte sektorer som finans og helsevesen. Prisen er viktig av to grunner. For det første validerer den FPTs flerårige satsing på å bygge en egenutviklet AI‑stabel, en strategi som allerede har gitt selskapet anerkjennelse ved Make in Vietnam Awards og Asian Technology Excellence Awards. For det andre signaliserer seieren et skifte i det globale AI‑landskapet: mens amerikanske og kinesiske giganter dominerer forskningen på grunnmodeller, differensierer regionale aktører seg nå gjennom ende‑til‑ende, bedriftsfokuserte agenter som kan integreres tett med eksisterende systemer. Fremover planlegger FPT å rulle ut IvyChat til sine sky‑hosting‑kunder og å styrke partnerskap med ERP‑leverandører som SAP og Microsoft. Analytikere vil følge med på om plattformen kan opprettholde ytelse i stor skala og hvordan den håndterer nye reguleringer rundt autonom beslutningstaking. De neste AI Excellence Awards i 2027 vil sannsynligvis sette IvyChat på prøve mot et voksende felt av agentiske konkurrenter fra Europa og Japan.
61

AI‑assistanse vs AI‑agenter: Forstå overgangen fra svar til autonome systemer

Dev.to +5 kilder dev.to
agentsautonomouscopilot
Et innlegg av AWS Community Builder og skyarkitekt Sarvar Nadaf har tent ny debatt om den fremvoksende splittelsen mellom AI‑assistenter og AI‑agenter. Publisert 25. mars trekker artikkelen en tydelig linje mellom «assistenter» som svarer på bruker‑prompt og «agenter» som handler autonomt mot forhåndsdefinerte mål, og nevner eksempler fra ServiceNow sin AI‑Agent‑plattform, IBMs multikomponent‑agenter og GAIA‑rammeverket. Nadaf argumenterer for at skiftet ikke lenger er akademisk: bedrifter erstatter reaktive chat‑baserte grensesnitt med selvstyrte arbeidsflyter som kan hente data, utløse handlinger og til og med forhandle resultater uten kontinuerlig menneskelig tilsyn. Skillet er viktig fordi autonomi endrer risiko‑, kostnads‑ og kompetansekrav. Autonome agenter kan sammenføye store språkmodeller, retrieval‑augmented generation (RAG) og sanntids‑verktøybruk, og levere ende‑til‑ende prosessautomatisering som kutter manuelle trinn og reduserer latens. Samtidig reiser de styringsutfordringer – agenter må være reviderbare, sikre og i tråd med selskapets retningslinjer, et poeng som gjenspeiles i ServiceNow sin vekt på innfødt, sikker AI‑Platform‑integrasjon. Som vi rapporterte 24. mars, demonstrerte Anthropics Claude Code og Cowork at «autonom datakontroll» allerede er levedyktig i produksjon, og understreker hvor raskt teknologien beveger seg fra prototype til bedriftsnivå. Hva som er verdt å følge med på videre: utrullingen av AI‑agent‑funksjonalitet i store SaaS‑stabler, særlig ServiceNow sitt kommende AI‑Agent‑marked og AWS sine planer om å integrere agenter i Bedrock‑tjenesten. Reguleringsmyndigheter begynner også å utforme veiledning for autonome beslutningsprosesser, så etterlevelsesrammer vil utvikle seg parallelt. Til slutt vil bransjen teste hybride modeller som kombinerer assistent‑stil prompt med agent‑autonomi – en retning som kan forene fleksibilitet med kontroll når organisasjoner skalerer AI‑drevne operasjoner.
60

📰 Azure Skills Plugin 2026: Si «Deploy» til Claude Code med AI, og den oppretter automatisk sky‑infrastruktur

Mastodon +7 kilder mastodon
claudemicrosoft
Microsoft har lansert Azure Skills Plugin 2026, en ett‑klikk‑utvidelse som lar Claude Code‑agenter sette opp full‑stack sky‑miljøer bare ved å høre kommandoen «Deploy this app». Plugin‑en pakker en kuratert samling av Azure‑tjenester, Azure MCP‑Serveren og Foundry MCP‑Serveren i én installasjon, og gir Claude Code en strukturert handlingsplan for å velge riktig compute‑SKU, konfigurere nettverk, håndtere tillatelser og starte arbeidsbelastningen på mer enn 40 Azure‑tjenester. Dette trekket tar Claude Code forbi den nylige auto‑modus‑utgivelsen, som vi dekket 25. mars, der modellen kunne generere kode, men fortsatt var avhengig av utviklere for å oversette skisser til operativ infrastruktur. Ved å integrere Azure‑spesifikk ekspertise direkte i AI‑ens verktøykjede, fjerner Microsoft en stor flaskehals i AI‑assistert utvikling: gapet mellom kodegenerering og produksjonsklar utrulling. Bedrifter kan nå overlate en overordnet forespørsel til en AI‑agent og motta et fullt provisionert, overvåket og kostnadsoptimalisert miljø, noe som akselererer time‑to‑market og reduserer behovet for spesialiserte sky‑ingeniører. Plugin‑en åpner også en vei for andre kodeassistenter – OpenAI sin Codex, Gemini CLI, Cursor og det stadig voksende åpne Claude Code‑ferdighetbiblioteket – til å dra nytte av den samme Azure‑kunnskapsbasen, noe som potensielt kan standardisere AI‑drevet DevOps på tvers av plattformer. For utviklere er den umiddelbare fordelen en strammere tilbakemeldingssløyfe: skrive, teste og distribuere uten å forlate AI‑grensesnittet. Hva du bør holde øye med videre: Microsoft har lovet inkrementelle oppdateringer som vil utvide støtten til Azure Arc, hybrid‑sky‑scenarioer og tettere integrasjon med GitHub Copilot. Analytikere vil følge med på adopsjonsmålinger, spesielt blant de 90 prosentene av Claude‑relaterte resultater som i dag havner i lav‑stjernede GitHub‑repoer, for å se om plugin‑en kan flytte disse prosjektene inn i produksjonsklare pipelines. De kommende månedene vil vise om Azure Skills Plugin virkelig kan gjøre «bare si deploy» til en pålitelig realitet for AI‑forsterket programvareleveranse.
56

Show HN: Robust LLM‑ekstraktor for nettsteder i TypeScript https://github.com/lightfeed/extractor

Show HN: Robust LLM‑ekstraktor for nettsteder i TypeScript https://github.com/lightfeed/extractor
Mastodon +6 kilder mastodon
Lightfeed har publisert en ny versjon av sitt open‑source‑bibliotek “Extractor”, et TypeScript‑verktøy som kombinerer Playwrights nettleser‑automatisering med store språkmodeller (LLM‑er) for å hente strukturert data fra websider. Oppdateringen, kunngjort på Hacker News for en time siden, legger til sporing av verdi‑historikk, separate liste‑vs‑detalj‑ekstraksjonsmoduser og valgfrie e‑postvarsler, og utvider funksjonssettet som først ble presentert i mai 2025. Kjernen i Extractor er en prompt‑drevet pipeline: rå HTML sendes til en LLM, som tolker naturlige språk‑instruksjoner og returnerer JSON‑kompatibel output. Playwright sørger for at siden blir gjengitt akkurat slik en menneskelig bruker ser den, mens LLM‑en håndterer den rotete, side‑spesifikke logikken som tradisjonelle scrapers sliter med. Lightfeeds utviklere understreker «stor token‑effektivitet», et påstand som er viktig ettersom LLM‑drevne pipelines ellers kan øke kostnadene kraftig ved behandling av store mengder sider. Hvorfor dette er viktig er tosidig. For det første senker biblioteket terskelen for bedrifter som vil bygge produksjonsklare datainnsamlings‑flyter uten å måtte lage skjøre CSS‑selektorer eller vedlikeholde separat parsing‑kode for hver side. For det andre viser det en voksende trend der LLM‑er fungerer som «hjernen» i web‑automatiserings‑stabler, en endring som kan omforme roller innen data‑engineering og akselerere AI‑forsterket markeds‑intelligens, pris‑overvåking og compliance‑kontroller i Norden og videre. Som vi rapporterte 26 mars, introduserte det opprinnelige Show HN‑innlegget konseptet (se vår tidligere dekning). Neste steg å følge med på inkluderer fellesskaps‑benchmarker som sammenligner token‑bruk og ekstraksjons‑nøyaktighet mot klassiske scrapers, integrasjon med orkestrerings‑plattformer som LangChain eller Airflow, samt eventuelle sikkerhetsrevisjoner som adresserer bekymringer rundt LLM‑drevet kode‑kjøring på upålitelige sider. Hvis biblioteket får bred adopsjon, kan det bli en de‑facto‑standard for AI‑forsterkede web‑datapipelines, noe som kan få større skyleverandører til å tilby konkurrerende, administrerte ekvivalenter.
50

Googles nye TurboQuant‑algoritme gjør AI‑minnet 8 ganger raskere og kutter kostnadene med 50 %...

VentureBeat +7 kilder 2026-03-25 news
applegooglellamavector-db
Google kunngjorde en oppgradert versjon av sin TurboQuant‑komprimeringsalgoritme, som lover en åtte‑ganger raskere håndtering av minne for store språkmodeller (LLM) og en 50 % reduksjon i driftskostnadene. Kunngjøringen kommer i en periode hvor LLM‑er utvider sine kontekstvinduer for å kunne behandle flersiders dokumenter, noe som har satt press på nøkkel‑verdi‑bufferne (KV‑cache) som lagrer mellomliggende aktivasjoner under inferens. TurboQuant fungerer ved å komprimere KV‑parene ned til tre‑bits representasjoner, en teknikk som først ble avdekket i Googles forskningsnotat fra 26. mars, hvor en seks‑ganger minnekutt ble demonstrert. Den nye utgivelsen legger til et trenings‑fritt kvantiseringssteg som ikke bare bevarer nøyaktigheten, men også akselererer minne‑lesninger, og leverer den rapporterte åtte‑ganger høyere gjennomstrømmingsgevinsten på Nvidia H100‑GPU‑er. Innen 24 timer begynte utviklere å portere koden til populære åpne‑kilde‑runtime‑miljøer som MLX for Apple Silicon og llama.cpp, noe som signaliserer rask adopsjon i fellesskapet. Oppgraderingen er viktig fordi minnebåndbredde har blitt den primære flaskehalsen både for skybaserte AI‑tjenester og for inferens på enheter. Ved å krympe arbeidsminnet senker TurboQuant GPU‑utnyttelsen, noe som gir billigere skyregninger, og gjør det mulig å kjøre større kontekstvinduer på edge‑enheter. Algoritmen øker også hastigheten på vektorsøk‑arbeidsbelastninger som driver semantisk gjenfinning og anbefalingsmotorer, og kan dermed endre økonomien i AI‑drevet søk. Hva som er verdt å følge videre: Benchmark‑tester fra store skyleverandører vil vise om den åtte‑ganger påstand om hastighet holder seg på tvers av ulike modellfamilier. Apples AI‑pipeline på enheter, som allerede bruker Googles Gemini‑modeller, kan integrere TurboQuant for å bringe mer kapable assistenter til iPhone‑ og Mac‑enheter. Konkurrenter som Meta og Microsoft forventes å lansere rivaliserende komprimeringsordninger, noe som setter i gang et kappløp om å dominere den fremvoksende «memory‑first» AI‑stakken. Etter hvert som økosystemet tester TurboQuant i stor skala, vil påvirkningen på prisfastsettelse, modellarkitektur og muligheten for ultra‑lange kontekst‑LLM‑er bli tydeligere.
48

📰 Hvordan OpenAI takler Soras risiko for nødhjelpssystemer i 2026 – OpenAI har stengt ned

Mastodon +7 kilder mastodon
openaisora
OpenAI kunngjorde 24. mars at de permanent deaktiverer Sora, deres tekst‑til‑video‑modell, og lukker ned den tilhørende forbruker‑appen, API‑et og sora.com‑portalen. Beslutningen kommer etter en bølge av advarsler fra nasjonale beredskapsmyndigheter om at realistisk AI‑generert video kan bli brukt som våpen for å spre falsk informasjon under naturkatastrofer, terrorangrep eller folkehelsekriser. Regjeringskilder uttalte at tiltaket er i tråd med nylig utgitte beredskapsretningslinjer som flagger syntetisk video som en høy‑risiko vektor for desinformasjon som kan hindre koordinering blant første‑respondenter, avlede ressurser og undergrave offentlig tillit. Sora, som ble lansert seks måneder tidligere, er bygget på den samme multimodale arkitekturen som driver DALL‑E og GPT‑4, og gjør det mulig for brukere å legge inn tekst, bilder eller korte klipp og motta en fullverdig video på sekunder. Tidlige demonstrasjoner viste fotorealistiske scener som var vanskelige å skille fra ekte opptak, noe som skapte bekymring for at ondsinnede aktører kunne fabrikkere video av flom, brann eller eksplosjoner og oversvømme sosiale medier i krisetider. BBC rapporterte at nedstengingen også avbryter et partnerskap på 1 milliard dollar med Disney, som skulle integrere Sora i studioets innholdsproduksjonslinje. Stengingen understreker en bredere bransje‑refleksjon rundt generativ videoteknologi. Reguleringsmyndigheter i EU og USA er allerede i ferd med å utforme bestemmelser som vil kreve robuste vannmerker og opprinnelsessporing for syntetisk media, og OpenAIs egen sikkerhetsplan har nylig skiftet fokus fra ren innholdsmoderering til «autonome system‑sikringer». Observatører vil følge med på om OpenAI lanserer en nedskalert versjon av Sora med innebygde deteksjonsverktøy, hvor raskt konkurrenter som Google eller Meta justerer sine videogenerasjons‑veikart, og om nye standarder for nødhjelpskommunikasjon oppstår for å motvirke deep‑fake‑trusler. Episoden kan bli et referansepunkt for hvordan AI‑selskaper balanserer innovasjon med forpliktelser til offentlig sikkerhet.
48

VehicleMemBench: En kjørbar benchmark for flerbruker‑langtidshukommelse i kjøretøys‑agenter

ArXiv +6 kilder arxiv
agentsbenchmarks
Et team av forskere fra Universitetet i Helsinki og partnere i bil‑AI‑miljøet har lansert VehicleMemBench, en åpen kildekode‑benchmark som kan kjøres for å teste hvor godt kjøretøys‑agenter beholder og resonnerer over flerbruker‑preferanser over lengre tidsperioder. Benchmarken leveres som et selvstendig simuleringsmiljø hvor virtuelle passasjerer interagerer med bilens AI‑assistent gjennom dusinvis av økter, og genererer dynamiske preferansehistorikker som agenten må huske, avklare og handle på ved hjelp av kjøretøyets innebygde verktøy. Den medfølgende kodebasen på GitHub inneholder en samling av skriptede scenarier – fra justering av seteposisjon til klima‑kontroll‑preferanser – som bevisst introduserer motstridende brukerforespørsler for å undersøke agentens evne til å løse tvister og opprettholde en sammenhengende tilstand i kjøretøyet. Hvorfor dette er viktig er todelt. For det første utvikler moderne biler seg fra isolerte infotainmentsystemer til delte, AI‑drevne kabiner hvor flere personer forventer personlig tilpassede og vedvarende opplevelser. Nåværende evalueringsmetoder fokuserer på enkelt‑turn‑dialog eller kortsiktige oppgaveløsninger, og etterlater et blindt punkt når det gjelder langtidshukommelse og konfliktløsningskapasitet som er avgjørende for sikkerhetskritiske beslutninger som overlevering av førerassistansen eller nød‑ruting. For det andre gir benchmarken en standardisert, reproduserbar metrikk som kan akselerere forskning på minnearkitekturer – som LangMem eller den nylig avdukte TurboQuant‑komprimeringsteknikken som reduserer LLM‑minnefoten med opptil seks ganger – ved å avdekke virkelige begrensninger knyttet til begrenset ombord‑beregningskraft og lagringskapasitet. Det neste å holde øye med er den raske adopsjonen av VehicleMemBench blant store OEM‑er og plattformleverandører. Tidlige brukere, inkludert en skandinavisk elbil‑oppstart, har lovet å integrere pakken i sine interne validerings‑pipelines, og benchmarkens GitHub‑repo viser allerede forks fra flere AI‑labber som eksperimenterer med hybride minnehentings‑modeller. Den kommende bølgen av artikler vil sannsynligvis rapportere ytelses‑baselines, mens bransjekonsortier kan formalisere benchmarken som en del av sikkerhetssertifiseringsstandarder for autonome kjørefører‑assistenter.
48

📰 KV‑cache‑komprimering: Google kutter AI‑inferenzkostnader med 6× i 2026 – Googles banebrytende KV‑teknologi

Mastodon +6 kilder mastodon
googleinference
Googles forskerteam har avduket en ny komprimeringsteknikk for nøkkel‑verdi‑cache (KV‑cache) som reduserer kostnadene ved å kjøre store språkmodeller (LLM‑er) med omtrent seks ganger, ifølge en artikkel som ble publisert denne uken. Metoden, kalt TurboQuant, kvantiserer KV‑cache‑oppføringer til tre biter uten noen fin‑tuning eller tap av nøyaktighet, og gir opptil åtte ganger raskere hastighet på Nvidia H100‑GPU‑er. Ved å komprimere den minnekrevende cachen som vokser med kontekstlengden, reduseres maskinvare‑fotavtrykket som trengs for inferens, noe som direkte oversettes til lavere strømregninger og billigere priser på sky‑tjenester. Som vi rapporterte den 26. mars, demonstrerte Googles TurboQuant allerede en seks‑ganger reduksjon i minnebruk og en åtte‑ganger forbedring i oppmerksomhetshastighet. Den nye studien går enda lenger og kvantifiserer den økonomiske effekten: leverandører av inferens‑som‑en‑tjeneste kan nå betjene samme antall spørringer med en brøkdel av GPU‑timene, noe som potensielt kan endre prismodellene til de store skyplattformene. Gjennombruddet letter også flaskehalsen knyttet til lange kontekster som har begrenset bruksområder som dokument‑nivåanalyse og sanntids‑oversettelse, og åpner døren for rikere, mer interaktive AI‑produkter. Rippel‑effektene merkes allerede i maskinvaremarkedet. Aksjene til minne‑chip‑produsenter falt etter kunngjøringen, og analytikere spår en nedgang i etterspørselen etter de aller kraftigste GPU‑ene ettersom mellomstore akseleratorer blir tilstrekkelige for mange arbeidsbelastninger. Hold øye med rask integrering av TurboQuant i Azures nye Skills‑Plugin og AWS sine kommende Inferentia‑oppdateringer, samt mulige lisensavtaler som kan bringe teknologien til edge‑enheter. Konkurrenter forventes å akselerere sin egen komprimeringsforskning, og neste kvartal vil vise om kostnadsfordelen omsettes i bredere adopsjon på tvers av AI‑stakken.
45

Google lanserer Lyria 3 Pro – AI‑modell for musikkgenerering

Google lanserer Lyria 3 Pro – AI‑modell for musikkgenerering
Mastodon +10 kilder mastodon
deepmindgoogle
Google har avduket Lyria 3 Pro, den nyeste iterasjonen av sin DeepMind‑støttede AI‑musikkgenerator, som kan komponere komplette tre‑minutters spor med distinkte seksjoner som intro, vers, refreng og bro. Modellen, som rulles ut i dag på seks Google‑plattformer og er integrert i Gemini‑appen, markerer et sprang fra den tidligere Lyria 3‑utgivelsen, som var begrenset til korte løkker. Betalte Gemini‑abonnenter blir de første som får tilgang til Pro‑versjonen, mens et gratis nivå vil tilby forhåndsvisningsklipp. Oppgraderingen er viktig fordi den bringer generativ lyd nærmere den kreative fleksibiliteten til menneskelige komponister. Ved å forstå strukturelle signaler og rytmisk nyanse, kan Lyria 3 Pro produsere sanger som føles arrangert snarere enn bare utvidede løkker, en begrensning som har hemmet tidligere verktøy som Suno eller Udio. For uavhengige musikere, podkastere og annonsører lover modellen rask prototyping av originale lydspor uten lisensieringshindre, og kan potensielt omforme arbeidsflyter for innholdsproduksjon og senke produksjonskostnadene. Bransjeobservatører vil følge med på hvordan Google tjener penger på tjenesten og om Pro‑nivået vil utløse en abonnementsbølge for Gemini. Konkurransen er allerede hard: OpenAIs nylige satsing på lyd med Sora‑modellen har stagnert, mens oppstartsbedrifter fortsetter å iterere på lettvektige LLM‑drevne musikkmotorer. Viktige spørsmål inkluderer modellens evne til å respektere opphavsrett når den er trent på eksisterende musikk, kvaliteten på sjangerspesifikt output, og om Google vil åpne et API for tredjepartsintegrasjon. Hvis Lyria 3 Pro viser seg pålitelig i stor skala, kan den bli de‑facto backend for AI‑forsterket lyd innen streaming, spill og reklame, og utløse en ny bølge av AI‑første musikkproduksjonsverktøy. Hold øye med bruker‑feedback i de kommende ukene og eventuelle kunngjorte prisnivåer som kan signalisere Googles bredere strategi for generativ lyd.
43

OpenAI avslutter Sora‑appen, og dermed også milliardpartnerskapet med Walt Disney

OpenAI avslutter Sora‑appen, og dermed også milliardpartnerskapet med Walt Disney
Mastodon +8 kilder mastodon
openaisora
OpenAI kunngjorde på X at de avvikler Sora, den AI‑drevne video‑generasjonsappen de lanserte i fjor, og med den også milliardpartnerskapet de hadde inngått med Walt Disney. Meldingen, som ble lagt ut uten ytterligere forklaring, bekrefter at den i desember signerte avtalen – som lovet Disney en eierandel på omtrent én milliard dollar og tilgang til Pixar‑, Marvel‑ og Star Wars‑karakterer for AI‑lagde korte klipp – nå er død. Dette trekket avslutter noen turbulente uker for satsingen. Som vi rapporterte 25. mars, resulterte Disneys pilot av Sora i en høyt profilert «katastrofe» som avdekket tekniske feil og vekket bekymring for merkevaresikkerhet. Dagen etter beskrev OpenAI hvordan verktøyets evne til å syntetisere realistisk opptak kunne forstyrre nødhjelpskommunikasjon, noe som førte til en rask risikoreduserende innsats. De hendelsene, kombinert med økende produksjonskostnader og et strategisk skifte mot produktivitets‑fokuserte modeller i forkant av selskapets
42

OpenAI‑utviklere (@OpenAIDevs) på X

Mastodon +7 kilder mastodon
openai
OpenAI‑utviklere kunngjorde på X at kvalifiserte bachelorstudenter i USA og Canada vil få en kreditt på $100 for å eksperimentere med Codex, selskapets kode‑genereringsmodell som driver GitHub Copilot og andre utviklerverktøy. Kreditt­beløpet, som automatisk vil bli lagt til etter at studentene bekrefter sin påmelding gjennom en enkel registreringsprosess, er ment å senke den økonomiske barrieren for læring og prototyping med AI‑assistert programmering. Dette er viktig fordi Codex fortsatt er en av de mest brukte AI‑kodeassistentene, men kostnadene har begrenset adopsjonen i akademiske miljøer med stramme budsjetter. Ved å subsidiere bruken håper OpenAI å integrere teknologien dypere i datavitenskaps‑pensum, dyrke en generasjon utviklere som er kjent med deres API‑er, og skape en tilbakemeldings‑pipeline som kan akselerere modellforbedringer. Initiativet signaliserer også OpenAIs bredere strategi om å konkurrere med nye alternativer som Googles Gemini Code og Anthropics Claude‑code, som også retter seg mot samme studentmarked med gratisnivåer. Det som vil bli fulgt nøye fremover, er hvor raskt universitetene integrerer kreditt­beløpet i kursplaner og hackathon‑programmer, samt om utrullingen avdekker misbruk eller skaleringsutfordringer. OpenAI har ikke oppgitt den eksakte varigheten av kreditt­beløpet eller noen bruksgrenser, så utviklere vil holde øye med de små detaljene for eventuelle justeringer av hastighetsbegrensninger. En oppfølgings‑kunngjøring forventes senere i dette kvartalet, muligens med en utvidelse av tilbudet til andre regioner eller en pakking sammen med de nylig lanserte AgentKit‑verktøyene som ble kunngjort på Dev Day. Responsen fra studentmiljøet vil bli en tidlig indikator på Codex sin gjennomslagskraft som en fast bestanddel av AI‑forsterket programvareutd
39

Multi‑agentsystemer: Koordinering av AI‑agenter for komplekse oppgaver

Dev.to +6 kilder dev.to
agentstraining
En ny teknisk dybdeanalyse med tittelen «System Design Deep Dive — #5 av 20» er publisert som en del av en serie på 20 innlegg som kartlegger arkitekturen til multi‑agentsystemer. Artikkelen presenterer konkrete designmønstre for å koordinere dusinvis av AI‑agenter rundt en felles kontekst, slik at de kan be om hjelp, delegere deloppgaver og avklare motstridende beslutninger i sanntid. Den bygger på nyere forskning som ser en gruppe spesialiserte agenter som ett enkelt «AI‑team» underlagt en koordinerende node, en modell som først ble fremhevet i «AI Agent Teamwork: Multi‑Agent Coordination Playbook» og i akademisk arbeid om å trene agenter til å dele opp komplekse, flertrinnsoppgaver. Utviklingen er viktig fordi enkelt‑agent‑modeller fortsatt sliter med arbeidsflyter som krever lange beslutningskjeder, som autonom logistikkplanlegging, sanntids svindeldeteksjon eller infotainmentsystemer i kjøretøy. Ved å formalisere delte minnestrukturer og eksplisitte overleveringsprotokoller, lover dybdeanalysen mer pålitelige, skalerbare implementeringer der hver agent kan fokusere på en smal kompetanse mens koordinatoren opprettholder global sammenheng. Dette speiler skiftet vi bemerket 26. mars, da vi rapporterte at AI‑assistanse utvikler seg fra reaktive chat‑boter til autonome agent‑økosystemer. Det neste å holde øye med er de gjenværende sytten innleggene, som vil utforske feiltoleranse, sikkerhets‑sandboxing og ytelses‑benchmarking – temaer som direkte påvirker utrullingen av multi‑agent‑plattformer i sektorer fra bankvirksomhet til bilindustrien. Tidlige adoptører vil sannsynligvis pilotere del‑k
39

Så, # Sora . Historiene begynner å rulle og spekulasjonene florerer om hvorfor # Open

Mastodon +6 kilder mastodon
openaisora
OpenAI har offisielt lagt ned Sora, deres høyt profilerte AI‑tjeneste for videogenerering, og med den den milliarddollar‑partnerskapet de hadde inngått med Walt Disney. Beslutningen ble bekreftet i et kort internt notat som ble distribuert til de ansatte tirsdag, og Sora‑appen forsvant fra Apple Store innen noen timer. Som vi rapporterte 25. mars 2026, ble Disneys engasjement presentert som en «spillendrende» bekreftelse på generativ video for Hollywood; den brå avslutningen reiser nå nye spørsmål om teknologiens levedyktighet. Bransjeinsidere peker på en tydelig mangel på en bærekraftig forretningsmodell som den viktigste drivkraften. Soras sky‑baserte renderingspipeline krevde enorme GPU‑ressurser, men tjenesten nådde aldri mer enn et freemium‑nivå som kun tilbød begrenset utskriftskvalitet. Tidlige brukere – annonsører, uavhengige skapere og noen få studioer – var ivrige, men prisstrukturen dekket aldri driftskostnadene, og OpenAIs forsøk på å tjene penger gjennom per‑minutt‑kreditter stoppet opp. På toppen av det økonomiske presset kom økende juridiske bekymringer: lekkede dokumenter antydet at modellen var trent på opphavsrettsbeskyttet opptak hentet fra YouTube og andre plattformer uten klar tillatelse, noe som førte til trusler om rettssaker fra rettighetshavere og en bølge av kritikk fra kunstnerkollektiver. Nedleggelsen er viktig fordi den signaliserer at selv de best finansierte AI‑selskapene kan snuble når et produkts økonomi kolliderer med regulatoriske og etiske pressmidler. Den understreker også den skjøre naturen til høyt profilerte bedriftsallianser bygget på spekulativ teknologi; Disney står nå overfor et strategisk tomrom i sin AI‑plan og kan se seg om etter rivaler som Runway eller Luma for neste generasjons videoverktøy. Hva som skjer videre: OpenAI forventes å levere en detaljert etteranalyse til SEC, som kan avdekke om beslutningen var rent økonomisk eller også et forebyggende trekk for å unngå ytterligere juridisk eksponering. Disneys neste AI‑partnerskap, sannsynligvis kunngjort i løpet av de kommende ukene, vil indikere om studioet vil satse på intern utvikling eller søke en ny ekstern samarbeidspartner. Konkurrenter posisjonerer seg allerede for å erobre Soras fortrengte brukerbase, så kappløpet om å bygge en kommersielt levedyktig generativ videoplattform er langt fra over.
39

Torsdag: US‑leverandør uten ansvar for fildeling, Finland‑valg uten amerikansk sky – US‑domstol til fordel for leverandør

Torsdag: US‑leverandør uten ansvar for fildeling, Finland‑valg uten amerikansk sky – US‑domstol til fordel for leverandør
Mastodon +6 kilder mastodon
meta
En distriktsdomstol i New York dømte torsdag at en stor amerikansk skyleverandør ikke kan holdes ansvarlig for brukernes ulovlige fildelingsaktivitet, og bekreftet dermed det begrensede ansvaret tjenesteoperatører nyter under Digital Millennium Copyright Act (DMCA). Dommen, som ble avsagt i en sak anlagt av en koalisjon av rettighetshavere, hviler på “safe harbour”-bestemmelsene som beskytter plattformer så lenge de handler raskt for å fjerne krenkende innhold når de blir varslet. Avgjørelsen kommer i en tid da Europa sliter med spenningen mellom den amerikanske CLOUD Act – som gir amerikanske myndigheter rett til å kreve data fra utenlandske servere eid av amerikanske selskaper – og EUs ambisjon om digital suverenitet. Finlands valgkommisjon kunngjorde samme dag at de vil gjennomføre parlamentsvalget i september på en fullstendig europeisk sky‑infrastruktur, og utelukker uttrykkelig amerikanske hyperscalere. Tjenestemenn pekte på CLOUD Act og nylige rettspraksiser som grunner til å unngå enhver risiko for at utenlandsk rettshåndhevelse kan få tilgang til velgerdata. Hvorfor dette er viktig: Den amerikanske dommen styrker det juridiske skjoldet for skyleverandører, noe som potensielt kan oppmuntre dem til å utvide tjenester uten frykt for opphavsrettssøksmål, samtidig som den skjerper kritikken av hvor kritisk offentlig data lagres. Finlands tiltak signaliserer en bredere bevegelse blant de nordiske landene mot “dataplassering” for sensitive funksjoner, en trend som kan presse globale leverandører til å tilby alternativer under EU‑jurisdiksjon eller risikere å miste offentlige kontrakter. Hva som bør følges med på videre: Europakommisjonen forventes å publisere veiledning om etterlevelse av CLOUD Act senere denne måneden, og flere andre nordiske regjeringer har antydet lignende sky‑eksklusjonspolicyer. Juridiske eksperter vil følge med på om rettighetshavergruppene vil anke New York‑avgjørelsen, noe som kan sette presedens for fremtidige brudd‑saker. Samtidig legger Meta’s kunngjorte AI‑oppgraderinger og en amerikansk domstolsavgjørelse som gjør at plattformer kan bli saksøkt for å fremme avhengighet av sosiale medier, til ytterligere regulatorisk kaos rundt teknologigigantene, og antyder at balansen mellom innovasjon, ansvar og suverenitet vil forbli en hett omdiskutert arena gjennom 2026.
36

Kan LLM‑agenter være finansdirektører? En benchmark for ressursallokering i dynamiske bedriftsmiljøer

ArXiv +6 kilder arxiv
agentsbenchmarks
Et forskerteam har lansert **EnterpriseArena**, den første benchmark‑testen som setter store‑språk‑modell‑agenter (LLM‑agenter) gjennom en fullskala CFO‑simulering. Det åpne rammeverket kjører en 132‑måneders bedriftsimulator som kombinerer faktiske, firma‑nivå finansregnskap, anonymiserte forretningsdokumenter, makroøkonomiske indikatorer og bransjetrender med ekspert‑validerte driftsregler. Agentene må allokere kapital, ansette personale, igangsette prosjekter og kutte kostnader samtidig som de håndterer skjult informasjon og stokastiske markedsendringer – oppgaver som speiler de langsiktige, høyrisiko‑beslutningene en finansdirektør står overfor. Lanseringen følger vår dekning fra 26. mars av multi‑agent‑systemer for komplekse oppgaver, hvor vi påpekte at LLM‑drevne agenter utmerker seg i kortsiktige, reaktive handlinger, men ennå ikke er grundig testet på strategisk ressursplanlegging. EnterpriseArena fyller dette hullet ved å måle ikke bare rå prediksjonsnøyaktighet, men også evnen til å opprettholde finansiell helse, overholde regulatoriske krav og tilpasse seg uforutsette sjokk over en tiårs horisont. Tidlige eksperimenter rapportert i arXiv‑pre‑printen (2603.23638v1) viser at selv de mest avanserte LLM‑ene sliter med å holde et balansert budsjett uten eksplisitt veiledning, noe som understreker behovet for mer sofistikerte planleggings‑, minnehåndterings‑ og risikovurderingsmoduler. Utgivelsen av benchmarken kan akselerere overgangen fra AI‑assistenter som svarer på spørsmål til autonome agenter som styrer forretningsprosesser fra ende til ende. Bedrifter vil sannsynligvis snart evaluere leverandørløsninger mot EnterpriseArena før de ruller ut LLM‑baserte finans‑bots, mens forskere trolig vil bruke pakken til å benchmarke minne‑effektive modeller som Googles TurboQuant‑komprimering og langtids‑minnesystemer som VehicleMemBench. Hold øye med de første offentlige resultatene på ledertavlen, som forventes senere i dette kvartalet, samt oppfølgingsstudier som integrerer multi‑agent‑koordinasjonsteknikker for å håndtere tverr‑avdelingsbeslutninger. Suksess i dette arenaet kan redefinere hvordan selskaper utnytter AI for strategisk styring, og forvandle eksperimentelle agenter til pålitelige bedriftsledere.
32

Google Gemini AI er nå offisielt åpnet for brukere i Hongkong; lesere med Gmail‑konto kan nå logge inn på Gemini‑nettversjonen og gratis teste den kraftige AI‑assistenten https://www

Mastodon +6 kilder mastodon
geminigoogle
Google har fjernet de siste restriksjonene på sin Gemini AI‑assistent, og gjør tjenesten tilgjengelig for alle Gmail‑registrerte brukere i Hong Kong uten behov for VPN. Utbyggingen, som ble kunngjort tidligere denne uken, åpner det nettbaserte Gemini‑grensesnittet og den mobile følgesvennen for territoriets 7 millioner internettbrukere, som nå kan påkalle chatboten med stemme, generere tekst, bilder og korte videoer, og bruke den til daglige oppgaver som å utforme e‑post, planlegge reiser eller brainstorme idéer. Tiltaket følger den trinnvise lanseringen vi rapporterte 26. mars, da Google først åpnet Gemini for en begrenset gruppe Hong Kong‑kontoer. Full tilgang markerer fullføringen av den prøven og signaliserer Googles tillit til at deres flaggskip‑modell – den nyeste Gemini 3.1, omtalt som «den mest kraftfulle og raskeste» i serien – kan fungere pålitelig under lokale nettverksforhold og overholde regionens forventninger til dataprivatliv. Hvorfor dette er viktig er todelt. For det første konkurrerer Gemini nå direkte med OpenAIs ChatGPT og Microsofts Copilot i et marked som har vært ivrig etter et lokalt alternativ til Apples Siri og VPN‑avhengige tjenester. For det andre senker den gratis tilgjengeligheten terskelen for småbedrifter, lærere og skapere til å integrere generativ AI i arbeidsflyter, noe som potensielt kan endre produktivitetsstandardene i Hong Kongs tjenesteorienterte økonomi. Fremover dreier de neste spørsmålene seg om pris og bedriftsintegrasjon. Google har antydet en betalt «Pro»-versjon for tyngre brukere, og selskapet forventes å veve Gemini dypere inn i Workspace, Maps og YouTube. Reguleringsmyndighetene vil også følge med på hvordan modellen håndterer personopplysninger under Hong Kongs utviklende AI‑styringsrammeverk. Til slutt vil bransjen holde øye med om Gemini 4.0, som er planlagt senere i år, vil introdusere multimodale funksjoner som kan erodere markeds
31

Ny referanse for åpen‑kilde‑agenter: Hva er Claw‑Eval? Hvordan Step 3.5‑Flash sikret #2‑plassen

Dev.to +5 kilder dev.to
agentsbenchmarksopen-source
En ny åpen‑kilde‑evalueringstuite kalt **Claw‑Eval** har raskt blitt samtaleemnet i LLM‑agent‑samfunnet. Rammeverket, som ble publisert på GitHub denne uken, tilbyr en transparent, menneskelig verifisert referanse som måler hvor godt store språkmodeller presterer som autonome agenter på 27 flertrinnsoppgaver. I den første offentlige ranglisten tok Step 3.5‑Flash‑modellen fra StepFun AI den andreplassen samlet, kun bak den proprietære GLM‑5, mens den delte førsteplass på Pass@3‑målingen – den vanlige indikatoren på en agents evne til å finne en korrekt løsning innen tre forsøk. Lanseringen er viktig fordi feltet har manglet en felles målestokk for «virkelighetsnær» agent‑ytelse. Tidligere referanser som VehicleMemBench, som vi dekket 2026‑03‑26, fokuserte på minne‑persistens i kjøretøyscenarier, men de vurderte ikke hele verktøy‑bruk‑pipeline som moderne agenter krever. Claw‑Eval fyller dette gapet ved å kreve verktøy‑kalling, håndtering av kontekst‑vindu og feilhåndtering, samt ved å publisere per‑oppgave‑nedbrytninger som lar utviklere identifisere styrker og svakheter. Den åpne kildekoden i testharnessen oppmuntrer også til reproduserbarhet og fellesskapsdrevne utvidelser, i kontrast til de proprietære ranglistene som dominerer kommersielle LLM‑rangeringer. Step 3.5‑Flash sin fremgang fremhever en voksende «agent‑kapprustning» blant åpne‑kilde‑prosjekter. Modellen, fin‑justert på flertrinns‑verktøy‑bruk‑data, viser at spesialisert instruksjon kan innkalle gapet til lukkede kilder. Dens ytelse understreker også viktigheten av Pass
31

OpenAI har nettopp lagt ned sin Sora AI‑generator for korte videoer

Vice +10 kilder 2026-03-26 news
openaisora
OpenAI kunngjorde tirsdag at de legger ned Sora, den korte videogeneratoren som etter lanseringen i oktober 2025 både skapte viral hype og bekymring i bransjen. I et kort innlegg på X skrev selskapet: «Vi tar farvel med Sora», og la til at tjenesten vil bli deaktivert innen noen uker, og at brukergenerert innhold vil bli fjernet fra plattformen. Beslutningen kommer kun tre måneder etter at OpenAI avbrøt et flerårig samarbeid med Walt Disney som skulle ha gjort det mulig for skapere å bruke Disney‑karakterer i Sora‑videoer. Avbruddet i avtalen, rapportert 26. mars, ble allerede sett på som et varselsignal om at appens juridiske og lisensieringsmessige risikoer veide tyngre enn det kommersielle potensialet. Samtidig har OpenAI mottatt kritikk fra Hollywood‑fagforeninger, annonsører og regulatorer som advarte om at AI‑genererte klipp kan oversvømme sosiale strømmer med deep‑fakes, undergrave opphavsrett og til og med forstyrre nødhjelpskommunikasjon – en bekymring som ble fremhevet i vår dekning av OpenAIs risikoreduserende tiltak 26. mars. Nedleggelsen av Sora gjenspeiler også OpenAIs bredere kostnadskontrollstrategi. Tjenesten krevde betydelig GPU‑kapasitet

Alle datoer